Các kỹ thuật để khai thác các mẫu phủ định là gì?

Lớp kỹ thuật đầu tiên được tạo ra để khai thác các mẫu không thường xuyên coi mỗi mục là một biến nhị phân đối xứng. Thông tin giao dịch có thể được mã hóa bằng cách bổ sung nó với các mục tiêu cực. Nó hiển thị một ví dụ về việc thay đổi dữ liệu ban đầu thành các giao dịch có cả mục tích cực và tiêu cực. Bằng cách sử dụng các thuật toán tạo tập phổ biến hiện tại bao gồm Apriori trên các giao dịch tăng cường, một số tập phổ biến phủ định có thể được tạo ra.

Cách tiếp cận như vậy chỉ có thể thực hiện được nếu một số biến được coi là nhị phân đối xứng (tức là, nó được xem đối với các mẫu phủ định chỉ chứa phủ định của một số lượng nhỏ các mục). Nếu mỗi mục nên được coi là nhị phân đối xứng, thì vấn đề sẽ trở nên khó khăn về mặt tính toán vì những lý do sau.

Số lượng vật phẩm tăng gấp đôi khi mỗi vật phẩm được tăng thêm với vật phẩm phủ định tương ứng của nó. Thay vì khám phá mạng tập hợp vật phẩm có kích thước 2 ^d , trong đó d là số lượng mục trong tập dữ liệu ban đầu, mạng tinh thể trở nên cao hơn.

Việc cắt tỉa dựa trên hỗ trợ không hiệu quả hơn khi các mục tiêu cực được tăng cường. Đối với mọi biến x, x hoặc x ^’ đã cung cấp cao hơn hoặc bằng 50%. Do đó, ngay cả khi ngưỡng hỗ trợ lớn tới 50%, một nửa số mục sẽ thường xuyên xảy ra.

Đối với các ngưỡng thấp hơn, một số mục và có thể là các bộ mục bao gồm chúng sẽ thường xuyên xảy ra. Các phương pháp cắt tỉa dựa trên hỗ trợ do Apriori thực hiện chỉ hiệu quả khi sự hỗ trợ cho hầu hết các tập hợp vật phẩm thấp; do đó, các tập phổ biến khác nhau phát triển theo cấp số nhân.

Chiều rộng của mỗi giao dịch được cải thiện khi các mục tiêu cực được tăng cường. Xem xét rằng có d mục có sẵn trong tập dữ liệu ban đầu. Đối với các tập dữ liệu thưa thớt bao gồm các giao dịch trong rổ thị trường, độ rộng của mỗi giao dịch ảnh hưởng nhỏ hơn nhiều so với d.

Theo đó, kích thước tối đa của một tập phổ biến, được giới hạn bởi chiều rộng giao dịch tối đa, w _max , ảnh hưởng về mặt liên kết là nhỏ. Khi các mục phủ định được chứa, chiều rộng của các giao dịch tăng lên d vì một mục có trong giao dịch hoặc không có trong giao dịch, nhưng không phải cả hai.

Vì chiều rộng giao dịch tối đa đã tăng từ w _max thành d, điều này sẽ làm tăng số lượng các tập phổ biến thường xuyên thay đổi nhanh chóng. Do đó, một số thuật toán hiện tại có xu hướng bị hỏng khi chúng đã quen với tập dữ liệu dài.

Cách tiếp cận brute-force trước đây rất tốn kém về mặt tính toán vì nó buộc chúng ta phải quyết định hỗ trợ cho một số lượng lớn các mẫu tích cực và tiêu cực. Thay vì bổ sung tập dữ liệu với các mục phủ định, một cách tiếp cận khác là quyết định hỗ trợ của các tập mục phủ định tùy thuộc vào sự hỗ trợ của các mục tích cực tương quan của chúng.