Phân cụm dựa trên ràng buộc tìm các cụm thỏa mãn các tùy chọn hoặc ràng buộc do người dùng nêu. Nó dựa trên bản chất của các ràng buộc, phân cụm dựa trên ràng buộc có thể áp dụng thay vì các cách tiếp cận khác nhau. Có một số loại ràng buộc như sau -
-
Ràng buộc đối với từng đối tượng - Nó có thể xác định các ràng buộc đối với các đối tượng được phân cụm. Ví dụ, trong một ứng dụng bất động sản, người ta có thể chỉ muốn tập hợp không gian những biệt thự sang trọng trị giá hơn một triệu đô la. Ràng buộc này giới hạn tập hợp các đối tượng được phân cụm. Nó có thể đơn giản được quản lý bằng cách xử lý trước (ví dụ:triển khai lựa chọn bằng cách sử dụng truy vấn SQL), sau đó vấn đề giảm xuống một ví dụ về phân cụm không bị giới hạn.
-
Ràng buộc đối với việc lựa chọn các tham số phân nhóm - Người dùng có thể thiết lập một vùng mong muốn cho mỗi tham số phân cụm. Các tham số phân cụm thường khá cụ thể đối với thuật toán phân cụm đã cho. Ví dụ về các tham số chứa k, số cụm mong muốn trong thuật toán k-mean; hoặc ε (bán kính) và MinPts (số điểm tối thiểu) trong thuật toán DBSCAN.
Mặc dù các tham số do người dùng tuyên bố như vậy có thể giữ chặt chẽ các kết quả phân cụm, nhưng chúng thường bị giới hạn trong chính thuật toán. Do đó, việc tinh chỉnh và xử lý chúng thường không được coi là một dạng phân cụm dựa trên ràng buộc.
-
Ràng buộc về khoảng cách hoặc chức năng tương tự - Nó có thể xác định một số khoảng cách hoặc các hàm tương tự cho các thuộc tính xác định của các đối tượng được nhóm lại, hoặc các thước đo khoảng cách khác nhau cho các cặp đối tượng giới hạn. Ví dụ:khi phân nhóm các vận động viên, nó có thể sử dụng một số lược đồ trọng số cho chiều cao, trọng lượng cơ thể, tuổi và trình độ kỹ năng.
-
Các ràng buộc do người dùng chỉ định đối với thuộc tính của các cụm riêng lẻ - Người dùng có thể muốn chỉ định các tính năng mong muốn của các cụm kết quả, điều này có thể giữ vững quá trình phân nhóm.
Hãy xem xét một công ty cung cấp dịch vụ chuyển nhà trọn gói muốn quyết định vị trí cho các trạm dịch vụ trong thành phố. Công ty có cơ sở dữ liệu về người dùng đăng ký tên, vị trí, khoảng thời gian của người dùng do khách hàng bắt đầu sử dụng dịch vụ của công ty và giá trung bình hàng tháng. Nó có thể hình thành vấn đề lựa chọn vị trí này như một ví dụ của phân nhóm không bị giới hạn bằng cách sử dụng chức năng khoảng cách được tính toán dựa trên vị trí của khách hàng.
Một phương pháp thông minh hơn là phân chia khách hàng thành hai hạng - khách hàng có giá trị cao (yêu cầu dịch vụ thường xuyên, thường xuyên) và khách hàng bình thường (yêu cầu dịch vụ không thường xuyên). Nó có thể tiết kiệm chi phí và hỗ trợ dịch vụ tốt, ban quản lý giải quyết các hạn chế sau -
-
Mỗi trạm phải phục vụ tối thiểu 100 khách hàng có giá trị cao.
-
Mỗi ga phải phục vụ tối thiểu 5.000 khách hàng phổ thông. Tính năng gộp dựa trên ràng buộc sẽ xem xét các ràng buộc như vậy trong quá trình phân nhóm.
-
-
Phân nhóm bán giám sát dựa trên giám sát "một phần" - Chất lượng của phân nhóm không được giám sát về cơ bản có thể được cải thiện bằng cách sử dụng một số hình thức giám sát yếu kém. Điều này có thể ở dạng ràng buộc từng cặp (tức là các cặp đối tượng được gắn nhãn thuộc sở hữu của cùng một cụm hoặc khác nhau). Quá trình phân nhóm bị ràng buộc như vậy được gọi là phân nhóm bán giám sát.