Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các quy tắc kết hợp đa cấp khai thác từ cơ sở dữ liệu giao dịch là gì?

Các phương pháp tiếp cận để khai thác các quy tắc kết hợp đa cấp dựa trên khung hỗ trợ tin cậy. Chiến lược từ trên xuống được sử dụng khi số lượng được tích lũy để tính toán các tập phổ biến thường xuyên ở mỗi cấp khái niệm, bắt đầu từ cấp khái niệm 1 và làm việc đối với các cấp khái niệm cụ thể thấp hơn cho đến khi có thể tìm thấy các tập phổ biến hơn bằng cách sử dụng thuật toán Apriori.

Dữ liệu có thể được tổng quát hóa bằng cách thay thế các khái niệm cấp thấp trong dữ liệu bằng các khái niệm cấp cao hơn hoặc tổ tiên của chúng từ một hệ thống phân cấp khái niệm. Trong phân cấp khái niệm, được biểu diễn dưới dạng cây với gốc là D tức là dữ liệu liên quan đến nhiệm vụ.

Lĩnh vực ứng dụng phổ biến của hiệp hội đa cấp là phân tích giỏ thị trường, nghiên cứu thói quen mua hàng của khách hàng bằng cách tìm kiếm các nhóm mặt hàng thường xuyên được mua cùng nhau được hiển thị trong khái niệm phân cấp khái niệm.

Mỗi nút chỉ ra một mục hoặc tập hợp mục đã được kiểm tra. Có nhiều cách tiếp cận khác nhau để tìm các tập phổ biến ở bất kỳ mức độ trừu tượng nào. Một số phương pháp đang được sử dụng là 'sử dụng hỗ trợ tối thiểu thống nhất cho tất cả các cấp', sử dụng hỗ trợ tối thiểu giảm ở các cấp thấp, độc lập theo từng cấp.

Cơ sở dữ liệu đa cấp cần một bảng giao dịch được mã hóa dữ liệu phân cấp hơn là bảng giao dịch ban đầu. Điều này rất hữu ích khi chúng ta chỉ quan tâm đến một phần của cơ sở dữ liệu giao dịch chẳng hạn như thực phẩm, thay vì tất cả các mặt hàng. Bằng cách này, trước tiên, chúng tôi có thể thu thập tập hợp dữ liệu có liên quan và sau đó làm việc lặp đi lặp lại trên tập hợp liên quan đến nhiệm vụ. Do đó, trong bảng giao dịch, mỗi mục được mã hóa dưới dạng một chuỗi các chữ số.

Sử dụng hỗ trợ tối thiểu thống nhất cho tất cả các cấp - Khi sử dụng ngưỡng hỗ trợ tối thiểu thống nhất, quy trình tìm kiếm được đơn giản hóa. Một kỹ thuật tối ưu hóa có thể được áp dụng, dựa trên kiến ​​thức rằng tổ tiên là tập hợp con của con cháu của nó, việc tìm kiếm tránh kiểm tra các tập vật phẩm chứa bất kỳ vật phẩm nào mà tổ tiên không có hỗ trợ tối thiểu.

Hạn chế chính của phương pháp hỗ trợ thống nhất là các mục ở cấp độ trừu tượng thấp hơn sẽ xảy ra thường xuyên như các mục ở cấp độ trừu tượng cao hơn.

Sử dụng hỗ trợ tối thiểu giảm ở các cấp thấp hơn - Mỗi cấp độ trừu tượng có ngưỡng hỗ trợ tối thiểu của nó. Mức trừu tượng càng thấp, ngưỡng tương đương càng nhỏ. Các danh mục tìm kiếm sau đây để khai thác liên kết nhiều cấp với mức hỗ trợ giảm là -

  • Mức độ độc lập theo cấp độ - Đây là một tìm kiếm theo chiều rộng đầy đủ, kiến ​​thức nền tảng về các tập phổ biến thường xuyên được sử dụng để cắt tỉa. Tại đây, mỗi nút được kiểm tra bất kể nút cha nào được tìm thấy là thường xuyên.

  • Lọc chéo cấp theo một mục duy nhất - Một mục ở mức thứ i được xác định nếu và chỉ khi nút cha của nó ở mức (i-1) là thường xuyên.

  • Lọc chéo cấp độ theo k-itemset - Một tập phổ biến ở cấp thứ i được xác định nếu và chỉ khi tập phổ biến A cha tương đương của nó ở cấp (i-1) là thường xuyên.