Học quy tắc kết hợp là một loại kỹ thuật học tập không giám sát nhằm kiểm tra sự phụ thuộc của một phần tử dữ liệu vào phần tử dữ liệu khác và ánh xạ theo đó để nó có thể mang tính thương mại hơn. Nó cố gắng khám phá một số mối quan hệ hoặc liên kết thú vị giữa các biến của tập dữ liệu. Nó phụ thuộc vào một số quy tắc để tìm mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu.
Học quy tắc kết hợp là khái niệm cơ bản của học máy và nó được sử dụng trong phân tích giỏ thị trường, khai thác sử dụng web, sản xuất liên tục, v.v. Do đó, phân tích giỏ thị trường là một cách tiếp cận được một số nhà bán lẻ lớn sử dụng để tìm mối liên hệ giữa các mặt hàng.
Trong phân tích giỏ thị trường, thói quen mua hàng của khách hàng được phân tích bằng cách tìm mối liên hệ giữa các mặt hàng khác nhau mà khách hàng đặt trong giỏ hàng của họ.
Bằng cách phát hiện ra những liên kết như vậy, các nhà bán lẻ tạo ra các phương pháp tiếp thị bằng cách phân tích những mặt hàng nào thường được khách hàng mua. Sự liên kết này có thể dẫn đến tăng doanh số bán hàng bằng cách hỗ trợ các nhà bán lẻ thực hiện tiếp thị có chọn lọc và lập kế hoạch cho khu vực kệ hàng của họ.
Lĩnh vực ứng dụng phổ biến của hiệp hội đa cấp là phân tích giỏ thị trường, nghiên cứu thói quen mua hàng của khách hàng bằng cách tìm kiếm các nhóm mặt hàng thường xuyên được mua cùng nhau được hiển thị trong khái niệm phân cấp khái niệm.
Các quy tắc kết hợp có hai thứ nguyên hoặc vị từ trở lên có thể được gọi là quy tắc kết hợp nhiều chiều. Ví dụ:
Tuổi (X, "20 ... 29") ^ nghề nghiệp (X, "Sinh viên") => mua (X, "Máy tính xách tay")
Quy tắc này chứa ba vị từ (tuổi, nghề nghiệp và mua), mỗi vị từ chỉ xuất hiện một lần trong quy tắc, các quy tắc như vậy được gọi là quy tắc kết hợp giữa các chiều. Các quy tắc có các vị từ lặp lại hoặc chứa nhiều lần xuất hiện của một số vị từ được gọi là các quy tắc kết hợp thứ nguyên kết hợp.
Ví dụ:
Tuổi (X, "20 ... 29") ^ mua (X, "Máy tính xách tay") => mua (X, "Máy in")
Các thuộc tính cơ sở dữ liệu phải là phân loại hoặc định lượng.
Thuộc tính phân loại có một số lượng hữu hạn các giá trị có thể có, không có thứ tự giữa các giá trị còn được gọi là thuộc tính danh nghĩa.
Các thuộc tính định lượng là số và có một trình tự ngầm định giữa các giá trị. Ba cách tiếp cận cơ bản liên quan đến việc xử lý các thuộc tính định lượng như sau -
-
Trong cách tiếp cận đầu tiên, các thuộc tính định lượng được tùy ý sử dụng hệ thống phân cấp khái niệm được xác định trước, xảy ra trước khi khai thác. Các thuộc tính số tùy ý với các giá trị phạm vi của chúng có thể được coi là thuộc tính phân loại.
-
Trong cách tiếp cận thứ hai, các thuộc tính định lượng được phân loại trong các thùng và nó dựa trên sự phân bố của dữ liệu. Các thùng này có thể được kết hợp thêm trong quá trình khai thác. Do đó, quá trình tùy biến là năng động và được thiết lập.
-
Trong cách tiếp cận thứ ba, các thuộc tính định lượng được tùy ý để nắm bắt ý nghĩa ngữ nghĩa của dữ liệu khoảng thời gian đó. Giai đoạn tùy chỉnh mạnh mẽ này đã xử lý khoảng cách giữa các điểm dữ liệu.