Học quy tắc kết hợp là một loại kỹ thuật học tập không giám sát nhằm kiểm tra sự phụ thuộc của một phần tử dữ liệu này vào phần tử dữ liệu khác và thiết kế phù hợp để có thể tiết kiệm chi phí hơn. Nó cố gắng khám phá một số mối quan hệ hoặc liên kết thú vị giữa các biến của tập dữ liệu. Nó phụ thuộc vào các quy tắc khác nhau để tìm các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu.
Học quy tắc kết hợp là cách tiếp cận quan trọng nhất của học máy và nó được sử dụng trong phân tích Rổ thị trường, khai thác sử dụng web, sản xuất liên tục, v.v. Trong phân tích rổ thị trường, đây là cách tiếp cận được một số nhà bán lẻ lớn sử dụng để tìm mối quan hệ giữa các mặt hàng.
Khai thác web có thể được xem là ứng dụng của các phương pháp khai thác dữ liệu thích ứng với internet, mặc dù khai thác dữ liệu được định nghĩa là ứng dụng của thuật toán để khám phá các mẫu trên hầu hết dữ liệu có cấu trúc được cố định trong một quá trình khám phá tri thức.
Khai thác web có một thuộc tính đặc biệt để hỗ trợ tập hợp nhiều kiểu dữ liệu. Web có một số khía cạnh mang lại nhiều cách tiếp cận cho quá trình khai thác, chẳng hạn như các trang web bao gồm văn bản, các trang web được kết nối qua siêu liên kết và hoạt động của người dùng có thể được theo dõi thông qua nhật ký máy chủ web.
Trong phân tích giỏ thị trường, thói quen mua hàng của khách hàng được phân tích bằng cách tìm ra mối liên hệ giữa các mặt hàng khác nhau mà khách hàng đặt trong giỏ hàng của họ. Bằng cách phát hiện ra các liên kết như vậy, các nhà bán lẻ sản xuất các phương pháp tiếp thị bằng cách phân tích yếu tố nào được người dùng thường xuyên mua. Sự liên kết này có thể dẫn đến tăng doanh số bán hàng bằng cách hỗ trợ các nhà bán lẻ thực hiện tiếp thị có chọn lọc và lập kế hoạch cho khu vực kệ hàng của họ.
Các loại học quy tắc kết hợp
Có các kiểu học quy tắc kết hợp như sau -
Thuật toán Apriori - Thuật toán này cần các bộ dữ liệu thường xuyên để tạo ra các luật kết hợp. Nó được thiết kế để hoạt động trên cơ sở dữ liệu bao gồm các giao dịch. Thuật toán này cần tìm kiếm theo chiều rộng và cây băm để tính toán tập hợp một cách hiệu quả.
Nó thường được sử dụng để phân tích giỏ thị trường và hỗ trợ tìm hiểu các sản phẩm có thể mua cùng nhau. Nó có thể được sử dụng trong lĩnh vực chăm sóc sức khỏe để khám phá phản ứng của thuốc cho bệnh nhân.
Thuật toán Eclat - Thuật toán Eclat biểu diễn sự chuyển đổi lớp tương đương. Thuật toán này cần một phương pháp tìm kiếm theo chiều sâu để khám phá các tập phổ biến trong cơ sở dữ liệu giao dịch. Nó triển khai thực thi nhanh hơn Thuật toán Apriori.
Thuật toán tăng trưởng F-P - Thuật toán tăng trưởng F-P đại diện cho Mô hình thường xuyên. Đây là phiên bản nâng cao của Thuật toán Apriori. Nó mô tả cơ sở dữ liệu dưới dạng cấu trúc cây được gọi là mẫu hoặc cây thường xuyên. Cây thường xuyên này nhằm mục đích trích xuất các mẫu thường xuyên nhất.