Đánh giá của các mô hình hiệp hội là gì?

Các thuật toán phân tích liên kết có khả năng tạo ra một số lượng lớn các mẫu. Ví dụ:mặc dù tập dữ liệu chỉ bao gồm sáu mục, nó có thể tạo ra tới hàng nghìn quy tắc kết hợp ở các ngưỡng hỗ trợ và ngưỡng tin cậy cụ thể. Vì kích thước và chiều của cơ sở dữ liệu tiền tệ thực có thể lớn, chúng có thể dễ dàng kết thúc với hàng nghìn hoặc thậm chí hàng triệu mẫu, một số mẫu không thể thú vị.

Đó là phân tích thông qua các mẫu để nhận ra những thứ thú vị nhất không phải là một dịch vụ tầm thường bởi vì thùng rác của người này có thể là kho báu của người khác. Điều cần thiết là phải tạo ra một tập hợp các phương pháp được chấp nhận tốt để tính toán chất lượng của các mẫu liên kết.

Bộ tiêu chí đầu tiên có thể được tạo thông qua các đối số thống kê. Các mẫu bao gồm một nhóm các mục riêng biệt lẫn nhau hoặc bao gồm một số giao dịch được coi là không thú vị vì chúng có thể sử dụng các liên kết giả mạo trong dữ liệu.

Các mẫu như vậy có thể được loại bỏ bằng cách sử dụng một phần thú vị khách quan sử dụng số liệu thống kê thu được từ dữ liệu để quyết định xem một mẫu có thú vị hay không. Ví dụ về các thước đo mức độ thú vị khách quan như hỗ trợ, sự tự tin và tương quan.

Bộ tiêu chí thứ hai có thể được tạo ra thông qua các lập luận chủ quan. Một mẫu được xử lý một cách chủ quan không thú vị trừ khi nó thừa nhận dữ liệu không mong muốn về dữ liệu hoặc hỗ trợ kiến thức hữu ích có thể dẫn đến các dịch vụ có lợi.

Ví dụ:quy tắc {Butter} → {Bread} không thể thú vị, bất kể có giá trị hỗ trợ và độ tin cậy cao, bởi vì mối quan hệ được xác định bởi quy tắc có thể xuất hiện khá rõ ràng.

Nói cách khác, quy tắc {Tã giấy}} → {{Bia} rất thú vị vì mối quan hệ này là bất ngờ và có thể tư vấn cho một sự kiện bán kèm mới cho các nhà bán lẻ. Việc kết hợp kiến thức chủ quan vào tính toán mẫu là một nhiệm vụ phức tạp vì nó cần một lượng dữ liệu đáng kể trước đó từ các chuyên gia miền.

Sau đây là một số cách tiếp cận để kết hợp kiến thức thiên lệch vào nhiệm vụ khám phá mẫu như sau -

Hình ảnh hóa - Cách tiếp cận này cần một môi trường thân thiện với người dùng để duy trì người dùng trong vòng lặp. Nó cũng cho phép các chuyên gia miền kết nối với hệ thống khai thác dữ liệu bằng cách thực thi và thử nghiệm các mẫu đã phát hiện.

Phương pháp dựa trên mẫu - Cách tiếp cận này cho phép người dùng hạn chế loại mẫu được sao chép bởi thuật toán khai thác. Thay vì ghi lại tất cả các quy tắc được trích xuất, chỉ những quy tắc cần mẫu do người dùng chỉ định mới được khôi phục cho người dùng.

Thước đo mức độ thú vị chủ quan - Một thước đo chủ quan có thể được biểu diễn dựa trên dữ liệu miền bao gồm phân cấp khái niệm hoặc giới hạn khuếch đại của các phần tử. Thước đo có thể được sử dụng để lọc các mẫu có thể truy cập được và không thể thực hiện được.