Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các bước liên quan đến Hệ thống phân cụm quy tắc kết hợp là gì?

Có các bước sau liên quan đến hệ thống phân cụm quy tắc kết hợp như sau -

Thùng rác - Các thuộc tính định lượng có thể có nhiều giá trị đại diện cho miền của chúng. Nó có thể nghĩ về việc lưới 2-D sẽ lớn như thế nào nếu nó có thể vẽ tuổi và thu nhập dưới dạng các trục, trong đó mọi giá trị tuổi có thể được tạo ra một vị trí cụ thể trên một trục và tương tự, mọi giá trị thu nhập có thể được tạo ra một giá trị cụ thể vị trí trên trục khác.

Nó có thể duy trì lưới ở kích thước có thể quản lý được, thay vào đó nó có thể phân vùng các thuộc tính định lượng thành các khoảng. Các khoảng thời gian này rất mạnh ở chỗ chúng có thể được kết hợp với nhau trong giai đoạn khai thác. Giai đoạn phân vùng được định nghĩa là binning, nghĩa là, trong đó các khoảng được coi là "thùng".

Có ba lĩnh vực chiến lược binning phổ biến như sau -

Ghép thùng có chiều rộng bằng nhau - Trong thùng có chiều rộng bằng nhau, trong đó kích thước khoảng của mỗi thùng là như nhau.

Phân loại tần số bằng nhau - Trong phân chia tần số bằng nhau, trong đó mỗi thùng có số bộ giá trị được gán xấp xỉ bằng nhau.

binning dựa trên phân cụm - Trong phân nhóm dựa trên phân nhóm, nơi phân nhóm được thực hiện trên thuộc tính định lượng để nhóm các điểm lân cận (được đánh giá dựa trên các thước đo khoảng cách khác nhau) vào cùng một thùng.

ARCS cần xếp thùng có chiều rộng bằng nhau, trong đó kích thước thùng cho mọi thuộc tính định lượng được người dùng nhập vào. Mảng 2-D cho mọi tổ hợp bin có thể bao gồm cả hai thuộc tính định lượng được tạo ra.

Mỗi ô mảng ảnh hưởng đến phân phối số lượng tương ứng cho mỗi lớp có thể đạt được của thuộc tính phân loại của phía bên phải quy tắc. Bằng cách tạo cấu trúc dữ liệu này, dữ liệu liên quan đến tác vụ được yêu cầu chỉ được quét một lần. Cùng một mảng 2-D có thể được sử dụng để tạo ra các quy tắc cho một số giá trị của thuộc tính phân loại, phụ thuộc vào hai thuộc tính định lượng giống nhau.

Tìm tập hợp vị từ thường xuyên - Bởi vì mảng 2-D bao gồm phân phối số lượng cho mọi danh mục được thiết lập, nó có thể được quét để khám phá các bộ vị từ thường xuyên (những bộ đáp ứng hỗ trợ tối thiểu) cũng đáp ứng độ tin cậy tối thiểu.

Thuật toán kiểm tra lưới, tìm kiếm các cụm quy tắc hình chữ nhật. Trong phương pháp này, các nhóm thuộc tính định lượng xuất hiện trong một cụm quy tắc có thể được kết hợp và do đó, sự tùy biến động của các thuộc tính định lượng sẽ xuất hiện.

Phương pháp dựa trên lưới mô tả rằng các quy tắc kết hợp ban đầu có thể được nhóm lại thành các vùng hình chữ nhật. Trước khi thực hiện phân cụm, các phương pháp làm mịn có thể được sử dụng để loại bỏ nhiễu và các giá trị ngoại lai khỏi bản ghi. Các cụm hình chữ nhật có thể đơn giản hóa thông tin.

Các phương pháp tiếp cận không dựa trên lưới đã được khuyến nghị để khám phá các quy tắc kết hợp định lượng tổng quát hơn, trong đó một số thuộc tính định lượng và phân loại có thể xuất hiện ở một trong hai bên của các quy tắc.

Trong cách tiếp cận này, các thuộc tính định lượng được phân lập động bằng cách sử dụng phân chia cùng tần số và các phân vùng được kết hợp phụ thuộc vào thước đo mức độ hoàn chỉnh từng phần, định lượng dữ liệu bị mất do phân vùng.