Computer >> Máy Tính >  >> Lập trình >> Lập trình

Làm cách nào để chúng tôi có thể cải thiện hơn nữa hiệu quả của việc khai thác dựa trên Apriori?

Có một số biến thể của thuật toán Apriori đã được dự kiến ​​nhằm mục tiêu phát triển hiệu quả của thuật toán ban đầu như sau -

Kỹ thuật dựa trên băm (băm các nhóm mục thành các nhóm tương ứng) - Một kỹ thuật dựa trên băm có thể được sử dụng để giảm kích thước của k-itemets ứng viên, C k , cho k> 1. Ví dụ:khi quét từng giao dịch trong cơ sở dữ liệu để tạo tập 1 mục thường xuyên, L 1 , từ 1-itemsets ứng viên trong C 1 , nó có thể tạo một số tập hợp 2 mục cho mỗi giao dịch, băm (tức là ánh xạ) chúng thành một số nhóm của cấu trúc bảng băm và tăng số lượng nhóm tương đương.

Giảm giao dịch - Một giao dịch không bao gồm một số k-itemets thường xuyên không thể bao gồm một số -itemsets (k + 1) thường xuyên. Do đó, một giao dịch như vậy có thể được đánh dấu hoặc xóa để xem xét thêm vì các lần quét cơ sở dữ liệu tiếp theo cho tập hợp j-itemsets, trong đó j> k, sẽ không cần đến nó.

Phân vùng - Một kỹ thuật phân vùng có thể được sử dụng cần hai lần quét cơ sở dữ liệu để khai thác các tập phổ biến. Nó bao gồm hai giai đoạn liên quan đến Trong giai đoạn I, thuật toán chia nhỏ các giao dịch của D thành n phân vùng không chồng chéo. Nếu ngưỡng hỗ trợ tối thiểu cho các giao dịch trong D là min_sup, do đó, số lượng hỗ trợ tối thiểu cho một phân vùng là min_sup × số lượng giao dịch trong phân vùng đó.

Đối với mỗi phân vùng, tất cả các tập phổ biến trong phân vùng được phát hiện. Chúng được định nghĩa là các tập phổ biến cục bộ. Quá trình sử dụng một cấu trúc dữ liệu cụ thể, đối với mỗi tập hợp mục, ghi lại TID của các giao dịch bao gồm các mục trong tập hợp mục. Điều này cho phép nó tìm thấy tất cả k-itemets cục bộ thường xuyên, cho k =1, 2 ... chỉ trong một lần quét cơ sở dữ liệu.

Một tập phổ biến cục bộ có thể hoặc không thể thường xuyên liên quan đến toàn bộ cơ sở dữ liệu, D. Bất kỳ tập phổ biến nào có thể liên quan thường xuyên D phải xuất hiện dưới dạng tập phổ biến là một phần của phân vùng. Do đó, tất cả các tập phổ biến cục bộ là tập phổ biến hơi D. Tập hợp các tập phổ biến từ tất cả các phân vùng tạo thành tập phổ biến ứng viên chung cho D. Trong Giai đoạn II, lần quét thứ hai của D được tổ chức trong đó hỗ trợ thực tế của từng ứng viên được đánh giá quyết định các tập phổ biến toàn cầu.

Lấy mẫu - Ý tưởng cơ bản của phương pháp chọn mẫu là chọn một mẫu ngẫu nhiên S của dữ liệu D đã cho, và sau đó tìm kiếm các tập phổ biến trong S chứ không phải D. Trong phương pháp này, nó có thể đánh đổi một mức độ chính xác nào đó bằng hiệu quả. Kích thước mẫu của S sao cho việc tìm kiếm các tập phổ biến thường xuyên trong S có thể được hoàn thành trong bộ nhớ chính và do đó chỉ cần một lần quét các giao dịch trong S nói chung.