Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các thuật toán của Grid-Based Clustering là gì?

Lưới là một phương pháp hiệu quả để tổ chức một tập hợp dữ liệu, tối thiểu ở các kích thước thấp. Khái niệm này là chia các giá trị áp dụng của mỗi thuộc tính thành nhiều khoảng liền nhau, tạo thành một tập hợp các ô lưới. Mỗi đối tượng giảm dần thành một ô lưới có các khoảng thuộc tính tương đương bao gồm các giá trị của đối tượng.

Các đối tượng có thể được tạo thành lưới ô trong một lần chuyển qua bản ghi và dữ liệu về mỗi ô, bao gồm số điểm trong ô, cũng có thể được thu thập đồng thời.

Có nhiều cách để thực hiện phân cụm bằng cách sử dụng lưới, nhưng hầu hết các phương pháp đều dựa trên mật độ. Thuật toán phân cụm dựa trên lưới như sau -

  • Biểu diễn một tập hợp các ô lưới.

  • Tạo đối tượng vào các ô thích hợp và tính toán mật độ của mỗi ô.

  • Loại bỏ các ô có mật độ dưới ngưỡng xác định, r.

  • Tạo thành các cụm từ tập hợp các ô dày đặc liền kề.

Xác định ô lưới - Đây là bước cơ bản trong quy trình, nhưng cũng ít rõ ràng nhất, vì có một số phương pháp để chia các giá trị có thể có của mỗi thuộc tính thành một số khoảng liền nhau. Đối với các thuộc tính liên tục, một phương pháp là chia các giá trị thành các khoảng có độ rộng bằng nhau. Nếu phương pháp này được sử dụng cho từng thuộc tính, do đó các ô lưới kết quả đều có thể tích tương tự nhau và mật độ của ô dễ dàng được xác định là nhiều điểm trong ô.

Mật độ của ô lưới - Nó có thể xác định mật độ của một ô lưới giống như nhiều điểm chia cho thể tích của vùng. Nói cách khác, mật độ là số điểm trên một lượng diện tích, bất kể kích thước của khu vực đó.

Hình thành các cụm từ các ô lưới dày đặc - Hình thành các cụm từ tập hợp các ô dày đặc liền kề tương đối dễ dàng. Có một số vấn đề như nó được yêu cầu xác định những gì nó có thể xác định bởi các ô liền kề. Phương pháp phân cụm có một số nhược điểm có thể được giải quyết bằng cách tạo ra thuật toán tinh vi hơn một chút. Ví dụ:có thể có một phần ô trống trên ranh giới của một cụm.

Nó có thể áp dụng để cải thiện phân nhóm dựa trên lưới cơ bản bằng cách sử dụng dữ liệu mật độ cao hơn. Trong một số trường hợp, bản ghi có cả thuộc tính không gian và không gian. Nói cách khác, có nhiều thuộc tính khác nhau xác định khu vực của đối tượng theo thời gian hoặc không gian, trong khi các thuộc tính khác nhau xác định các phần tử khác của đối tượng.

Một ví dụ là những ngôi nhà, có cả diện tích và nhiều đặc điểm, bao gồm giá cả hoặc diện tích sàn tính bằng feet vuông. Do tự tương quan theo không gian (hoặc thời gian), các đối tượng trong một ô cụ thể có cùng giá trị cho các thuộc tính khác của chúng.