Computer >> Máy Tính >  >> Lập trình >> Lập trình

Phương pháp dựa trên lưới là gì?

Các phương pháp phân nhóm dựa trên lưới sử dụng cấu trúc dữ liệu lưới đa độ phân giải. Itquantizing các vùng đối tượng thành một số lượng hữu hạn các ô tạo thành cấu trúc lưới mà trên đó tất cả các hoạt động phân cụm đều được thực hiện. Lợi ích của themethod là thời gian xử lý nhanh, thường không phụ thuộc vào số lượng đối tượng dữ liệu, vẫn chỉ phụ thuộc vào nhiều ô trong mỗi chiều trong không gian được yêu cầu hóa.

Một ví dụ của phương pháp dựa trên lưới liên quan đến STING, khám phá dữ liệu thống kê được lưu trữ trong các ô lưới, WaveCluster, phân cụm các đối tượng bằng cách sử dụng cách tiếp cận dạng sóng và CLIQUE, xác định phương pháp dựa trên lưới và mật độ để phân nhóm trong không gian dữ liệu chiều cao .

STING là một phương pháp phân nhóm đa phân giải dựa trên lưới, trong đó khu vực không gian được chia thành các ô hình chữ nhật. Nhìn chung, có một số cấp độ của các ô hình chữ nhật như vậy tương ứng với nhiều cấp độ phân giải và các ô này hình thành cơ chế phân cấp mỗi ô ở mức cao sẽ tách ra để tạo thành một số ô ở mức thấp hơn tiếp theo. Dữ liệu thống kê về các thuộc tính trong mỗi ô lưới (bao gồm giá trị trung bình, giá trị lớn nhất và giá trị nhỏ nhất) được tính toán trước và lưu trữ.

Các tham số thống kê của các ô cấp cao hơn có thể được tính đơn giản từ tham số của các ô cấp thấp hơn. Các tham số này chứa các thông số sau:tham số độc lập thuộc tính, số lượng và các tham số phụ thuộc thuộc tính, giá trị trung bình, stdev (độ lệch chuẩn), min (tối thiểu), max (tối đa); và loại phân phối mà giá trị thuộc tính trong ô tuân theo, bao gồm bình thường, đồng nhất, theo cấp số nhân hoặc không (nếu phân phối là ẩn danh).

Khi các bản ghi được tải vào cơ sở dữ liệu, các tham số count, mean, stdev, min và max của các ô cấp dưới cùng được tính trực tiếp từ các bản ghi. Giá trị của phân phối có thể được chỉ định bởi người dùng nếu loại phân phối được biết trước hoặc có được bằng các thử nghiệm giả thuyết bao gồm χ 2 kiểm tra.

Loại phân phối của ô cấp cao hơn có thể được tính toán phụ thuộc vào phần lớn các loại phân phối của các ô cấp thấp hơn tương ứng của nó cùng với quy trình lọc ngưỡng. Nếu phân phối của các ô cấp thấp hơn không đồng ý với nhau và từ chối kiểm tra ngưỡng, thì loại phân phối của ô cấp cao được đặt thành không.

Các tham số thống kê có thể được sử dụng trong các phương pháp tiếp cận dựa trên lưới từ trên xuống dưới asfollow. Đầu tiên, một lớp trong kiến ​​trúc phân cấp được quyết định mà từ đó thủ tục trả lời truy vấn sẽ bắt đầu. Lớp này thường bao gồm một số lượng nhỏ các tế bào. Đối với mọi ô trong lớp hiện tại, nó có thể tính toán khoảng tin cậy (hoặc phạm vi xác suất ước tính) phản ánh mức độ liên quan của ô với truy vấn nhất định.