Một quy trình khai thác dữ liệu có thể khám phá ra hàng nghìn quy tắc từ một tập hợp thông tin nhất định, hầu hết các quy tắc này đều độc lập hoặc tẻ nhạt đối với người dùng. Người dùng có cảm giác tốt nhất về “hướng” khai thác có thể dẫn đến các mẫu thú vị và “dạng” của các mẫu hoặc quy tắc mà họ có thể muốn khám phá.
Do đó, một phương pháp heuristic tốt là yêu cầu người dùng xác định trực giác hoặc kỳ vọng như những ràng buộc để hạn chế không gian tìm kiếm. Chiến lược này được gọi là khai thác dựa trên ràng buộc.
Các thuật toán dựa trên ràng buộc cần có các ràng buộc để giảm khu vực tìm kiếm trong bước tạo tập phổ biến (bước tạo quy tắc kết hợp chính xác với bước tạo quy tắc kết hợp của các thuật toán toàn diện).
Hạn chế chung là ngưỡng hỗ trợ tối thiểu. Nếu một ràng buộc không được kiểm soát, việc đưa nó vào giai đoạn khai thác có thể hỗ trợ giảm đáng kể không gian thăm dò do xác định được ranh giới bên trong mạng không gian tìm kiếm, theo đó không cần thăm dò.
Điều quan trọng của các ràng buộc được xác định rõ ràng - chúng chỉ tạo ra các quy tắc kết hợp hấp dẫn người dùng. Phương thức này khá nhỏ và không gian quy tắc được giảm xuống, do đó các phương thức còn lại thỏa mãn các ràng buộc.
Phân cụm dựa trên ràng buộc khám phá các cụm thỏa mãn các tùy chọn hoặc ràng buộc do người dùng xác định. Nó phụ thuộc vào đặc điểm của các ràng buộc, phân cụm dựa trên ràng buộc có thể áp dụng hơn là các cách tiếp cận khác nhau.
Các ràng buộc có thể bao gồm những điều sau đây như sau -
Ràng buộc loại kiến thức - Những điều này xác định loại kiến thức sẽ được khai thác, bao gồm cả liên kết hoặc tương quan.
Ràng buộc dữ liệu - Những thứ này xác định tập hợp thông tin liên quan đến nhiệm vụ, chẳng hạn như ràng buộc về thứ nguyên / mức - Những thứ này xác định thứ nguyên (hoặc thuộc tính) mong muốn của thông tin, hoặc phương pháp của phân cấp khái niệm, sẽ được sử dụng trong khai thác.
Ràng buộc về mức độ thú vị - Các ngưỡng này xác định các ngưỡng dựa trên các thước đo bằng số về mức độ thú vị của quy tắc, bao gồm hỗ trợ, độ tin cậy và sự tương quan.
Ràng buộc quy tắc - Những điều này xác định hình thức của các quy tắc được khai thác. Những ràng buộc như vậy có thể được định nghĩa là siêu mô-đun (mẫu quy tắc), là số lượng vị từ tối đa hoặc tối thiểu có thể xuất hiện trong tiền đề hoặc hậu quả của quy tắc hoặc dưới dạng mối quan hệ giữa các thuộc tính, giá trị thuộc tính và / hoặc tổng hợp.
Các ràng buộc sau có thể được mô tả bằng cách sử dụng giao diện người dùng và ngôn ngữ truy vấn khai thác dữ liệu khai thác mức cao. Hình thức khai thác dựa trên ràng buộc này cho phép người dùng xác định các quy tắc mà họ có thể muốn khám phá, do đó bằng cách tạo ra quá trình khai thác dữ liệu hiệu quả hơn.
Hơn nữa, một trình tối ưu hóa truy vấn khai thác phức tạp có thể được sử dụng để thực hiện các ràng buộc do người dùng xác định, do đó tạo ra quá trình khai thác hiệu quả hơn. Khai thác dựa trên ràng buộc thúc đẩy khai thác và phân tích khám phá tương tác.