Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phương pháp tạo tập phổ biến là gì?

Apriori là các thuật toán đã giải quyết mạnh mẽ sự bùng nổ tổ hợp của việc tạo tập phổ biến thường xuyên. Nó thực hiện điều này bằng cách sử dụng nguyên tắc Apriori để rút ngắn vùng tìm kiếm theo cấp số nhân. Mặc dù nâng cao hiệu suất quan trọng, thuật toán thu được chi phí I / O đáng kể vì nó cần thực hiện nhiều lần chuyển qua tập bản ghi giao dịch.

Hành động của thuật toán Apriori có thể làm suy giảm về cơ bản đối với các tập dữ liệu dày đặc do chiều rộng giao dịch được nâng cao. Một số phương pháp đã được sản xuất để khắc phục những nhược điểm này và nâng cao hiệu quả của thuật toán Apriori.

Sau đây là mô tả cấp cao về các phương pháp này như sau -

Truyền qua mạng lưới mục - Một tìm kiếm các tập phổ biến có thể được coi là một quá trình duyệt trên mạng tinh thể tập phổ biến. Các phương pháp tìm kiếm được thực hiện bởi một phương pháp thuật toán cách kiến ​​trúc mạng được duyệt qua trong giai đoạn tạo tập phổ biến. Một số phương pháp tìm kiếm ưu việt hơn những phương pháp khác, dựa trên thành phần của các tập phổ biến trong mạng tinh thể.

Chung đến cụ thể so với Cụ thể thành Chung - Thuật toán Apriori cần một cách tiếp cận tìm kiếm từ tổng quát đến cụ thể, trong đó các cặp tập thường xuyên (k- l) -item được kết hợp để thu được k-itemets ứng viên. Phương pháp tìm kiếm từ chung đến cụ thể này hiệu quả, được hỗ trợ, độ dài tối đa của một tập phổ biến không quá dài.

Phương pháp tìm kiếm cụ thể đến tổng quát sẽ xem các tập phổ biến xác định hơn trước, trước khi khám phá các tập phổ biến thường xuyên hơn. Phương pháp này rất hữu ích để tìm các tập phổ biến tối đa trong các giao dịch dày đặc, trong đó biên giới tập phổ biến nằm gần cuối mạng.

Nguyên tắc Apriori có thể được sử dụng để lược bớt một số tập con của tập phổ biến cực đại. Đặc biệt, nếu tập k-itemset ứng cử viên là thường xuyên lớn nhất, nó không phải xác định bất kỳ tập con nào của nó có kích thước k - 1. Nhưng nếu tập k-itemset ứng viên là không thường xuyên, thì bắt buộc phải kiểm tra tất cả k-1 tập con của nó. trong lần lặp tiếp theo.

Một phương pháp khác là kết nối cả hai phương pháp tìm kiếm chung với cụ thể và cụ thể với tổng thể. Phương pháp tiếp cận hai chiều này cần thêm không gian để lưu các tập phổ biến ứng viên, nhưng nó có thể hỗ trợ xác định kịp thời biên giới tập hợp phổ biến.

Các lớp tương đương - Có một phương pháp khác để hình dung đường truyền là trước tiên phân chia mạng tinh thể thành một nhóm rời rạc gồm các nút (hoặc các lớp giống nhau). Thuật toán tạo tập phổ biến tìm kiếm các tập phổ biến trong một lớp tương đương cụ thể trước khi thay đổi sang một lớp tương đương khác.

Phương pháp cấp khôn ngoan được sử dụng trong Apriori, thuật toán có thể được coi là phân vùng mạng dựa trên sự hỗ trợ của kích thước tập phổ biến; tức là, thuật toán tìm một số tập phổ biến 1 trước khi thực hiện với các tập phổ biến có kích thước cao hơn. Các lớp tương đương cũng có thể được biểu diễn theo nhãn tiền tố hoặc hậu tố của một tập phổ biến.