Computer >> Máy Tính >  >> Lập trình >> Lập trình

Đặc điểm dữ liệu là gì?

Sau đây là một số đặc điểm của dữ liệu có thể ảnh hưởng mạnh đến phân tích cụm như sau -

Kích thước cao - Trong các tập dữ liệu chiều cao, khái niệm mật độ truyền thống của người Euclide, là một số điểm trên một đơn vị thể tích, trở nên quan trọng. Người ta coi rằng khi đa chiều tăng lên, khối lượng tăng ngày càng lớn và trừ khi nhiều điểm tăng theo cấp số nhân với đa chiều, mật độ có xu hướng bằng 0.

Nó cũng có thể ảnh hưởng gần nhau để trở nên đồng đều hơn trong các khu vực có chiều cao. Có một phương pháp khác để xem xét thực tế này là có nhiều thứ nguyên (thuộc tính) hơn góp phần vào sự gần nhau giữa hai điểm và điều này có xu hướng tạo ra sự gần gũi đồng nhất hơn.

Bởi vì hầu hết các kỹ thuật phân cụm phụ thuộc vào độ gần hoặc mật độ, chúng có thể gặp khó khăn với thông tin nhiều chiều. Một phương pháp để giải quyết những vấn đề như vậy là sử dụng các phương pháp giảm kích thước.

Kích thước - Một số thuật toán phân cụm hoạt động tốt cho các tập dữ liệu kích thước vừa hoặc nhỏ không thể quản lý các tập dữ liệu cao hơn.

Độ thưa thớt - Dữ liệu thưa thớt bao gồm các thuộc tính không đối xứng, trong đó các giá trị 0 không quan trọng bằng các giá trị khác 0. Do đó, các biện pháp tương tự phù hợp với các thuộc tính không đối xứng thường được sử dụng.

Tiếng ồn và ngoại lệ - Một điểm chung (ngoại lệ) có thể làm suy giảm nghiêm trọng việc triển khai các thuật toán phân cụm, đặc biệt là các thuật toán bao gồm các phương tiện K dựa trên nguyên mẫu. Nói cách khác, nhiễu có thể gây ra các kỹ thuật, bao gồm các liên kết đơn lẻ, tham gia các cụm không được kết hợp.

Trong các trường hợp chung, các thuật toán để loại bỏ nhiễu và các giá trị ngoại lai được sử dụng trước khi sử dụng thuật toán phân cụm. Hơn nữa, một số thuật toán có thể xác định các điểm xác định nhiễu và ngoại lệ trong giai đoạn phân nhóm và sau đó loại bỏ chúng hoặc loại bỏ các tác động tiêu cực của chúng.

Loại thuộc tính và tập dữ liệu - Tập dữ liệu có thể thuộc nhiều loại, bao gồm có cấu trúc, đồ thị hoặc có thứ tự, trong khi các thuộc tính có thể là phân loại (danh nghĩa hoặc thứ tự) hoặc định lượng (khoảng hoặc tỷ lệ) và là nhị phân, rời rạc hoặc liên tục.

Nhiều độ gần và các thước đo mật độ phù hợp với nhiều loại dữ liệu. Trong một số tình huống, dữ liệu có thể được yêu cầu tách biệt hoặc phân quyền để có thể sử dụng phép đo độ gần hoặc thuật toán phân nhóm mong muốn.

Một khó khăn khác xuất hiện khi các thuộc tính có nhiều loại, ví dụ:liên tục và danh nghĩa. Trong phương pháp này, khoảng cách và mật độ phức tạp hơn để xác định và cung cấp nhiều đặc biệt hơn. Cuối cùng, các cấu trúc dữ liệu và thuật toán cụ thể có thể được yêu cầu để quản lý một số loại dữ liệu một cách hiệu quả.

Quy mô - Nhiều thuộc tính như chiều cao và cân nặng, có thể được đo trên nhiều thang đo. Những khác biệt này có thể ảnh hưởng mạnh mẽ đến khoảng cách hoặc sự giống nhau giữa hai đối tượng và do đó, kết quả của phân tích cụm. Cân nhắc nhóm một nhóm người tùy thuộc vào chiều cao của họ, được tính bằng mét và cân nặng của họ được tính bằng kilôgam.