Computer >> Máy Tính >  >> Lập trình >> Lập trình

Những thách thức của khai thác liên kết là gì?

Có một số thách thức khi khai thác liên kết như sau -

  • Sự phụ thuộc lôgic so với thống kê - Hai loại phụ thuộc nằm trong cấu trúc liên kết đồ thị (đại diện cho mối quan hệ logic giữa các đối tượng) và phụ thuộc xác suất (đại diện cho các mối quan hệ thống kê, chẳng hạn như mối tương quan giữa các thuộc tính của các đối tượng mà nói chung, các đối tượng đó có liên quan với nhau về mặt logic).

    Việc xử lý mạch lạc các phần phụ thuộc này cũng là một thách thức đối với khai thác dữ liệu đa quan hệ, nơi dữ liệu được khai thác tồn tại trong nhiều bảng. Nó sẽ tìm kiếm trên một số mối quan hệ logic có thể có giữa các đối tượng, hơn nữa là tìm kiếm tiêu chuẩn trên các phụ thuộc xác suất giữa các thuộc tính. Điều này chiếm một khu vực tìm kiếm lớn, điều này càng làm phức tạp thêm việc tìm kiếm một mô hình toán học hợp lý. Các phương pháp được phát triển trong lập trình logic quy nạp có thể được áp dụng ở đây, tập trung vào việc tìm kiếm qua các mối quan hệ logic.

  • Cấu tạo tính năng - Trong phân loại dựa trên liên kết, nó có thể xem xét các thuộc tính của một đối tượng và các thuộc tính của các đối tượng được kết nối với nó. Hơn nữa, các liên kết cũng có thể có các thuộc tính. Mục tiêu của việc xây dựng đối tượng địa lý là xây dựng một đối tượng địa lý duy nhất xác định các thuộc tính này. Điều này có thể chứa lựa chọn tính năng và tổng hợp tính năng. Trong lựa chọn tính năng, chỉ những tính năng phân biệt nhất mới được chứa.

  • Phiên bản so với lớp - Điều này ám chỉ đến việc liệu mô hình có đề cập một cách rõ ràng đến các cá nhân hoặc lớp (danh mục chung) của các cá nhân hay không. Lợi ích của mô hình cũ là nó có thể được sử dụng để kết nối các cá nhân cụ thể với xác suất cao. Một ưu điểm của mô hình thứ hai là nó có thể được sử dụng để khái quát hóa cho các tình huống mới, với một số cá nhân.

  • Sử dụng hiệu quả dữ liệu được gắn nhãn và không được gắn nhãn - Một chiến lược gần đây trong học tập là kết hợp cả dữ liệu được gắn nhãn và không được gắn nhãn. Dữ liệu không được gắn nhãn có thể hỗ trợ suy ra phân phối thuộc tính đối tượng. Liên kết giữa các dữ liệu không được gắn nhãn (thử nghiệm) cho phép chúng ta sử dụng các thuộc tính của các đối tượng được liên kết. Các liên kết giữa dữ liệu được gắn nhãn (đào tạo) và dữ liệu không được gắn nhãn (thử nghiệm) tạo ra sự phụ thuộc có thể giúp tạo ra các suy luận chính xác hơn.

  • Dự đoán liên kết - Một thách thức trong dự đoán liên kết là xác suất trước của một liên kết cụ thể giữa các đối tượng thường cực kỳ thấp. Có nhiều phương pháp khác nhau để dự đoán liên kết đã được đề xuất dựa trên một số biện pháp để phân tích mức độ gần nhau của các nút trong mạng. Các mô hình xác suất cũng đã được đề xuất. Đối với các tập dữ liệu khổng lồ, việc lập mô hình các liên kết ở cấp cao hơn có thể hiệu quả hơn.

  • Giả định đóng và thế giới mở - Hầu hết các cách tiếp cận truyền thống đều giả định rằng chúng ta biết tất cả các thực thể tiềm năng trong miền. Giả định về “thế giới đóng” này là không thực tế trong các ứng dụng trong thế giới thực. Công việc trong lĩnh vực này liên quan đến việc giới thiệu một ngôn ngữ để xác định phân phối xác suất qua các cấu trúc quan hệ có chứa một số tập đối tượng.