Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các ví dụ về phân cụm trong khai thác dữ liệu là gì?

Quá trình kết hợp một tập hợp các đối tượng vật lý hoặc trừu tượng thành các lớp của các đối tượng giống nhau được gọi là phân cụm. Cụm là một tập hợp các đối tượng dữ liệu giống nhau trong cùng một cụm và khác biệt với các đối tượng trong các cụm khác. Một nhóm các đối tượng dữ liệu có thể được coi là một nhóm trong một số ứng dụng. Phân tích cụm là một hoạt động thiết yếu của con người.

Phân tích cụm được sử dụng để tạo thành các nhóm hoặc cụm của các bản ghi giống nhau tùy thuộc vào các biện pháp khác nhau được thực hiện trên các bản ghi này. Thiết kế quan trọng là xác định các cụm theo những cách có thể hữu ích cho mục tiêu của phân tích. Dữ liệu này đã được sử dụng trong một số lĩnh vực, chẳng hạn như thiên văn học, khảo cổ học, y học, hóa học, giáo dục, tâm lý học, ngôn ngữ học và xã hội học.

Có một số ví dụ về phân cụm như sau -

Sinh học - Các nhà sinh vật học đã dành vài năm để tạo ra một phân loại (phân loại theo thứ bậc) của tất cả các sinh vật sống như giới, họ, lớp, loạt, họ, chi và loài. Do đó, không có gì ngạc nhiên khi một số nghiên cứu ban đầu trong phân tích cụm đã tìm cách đưa ra một quy luật về phân loại số có thể tìm ra các cấu trúc phân loại như vậy.

Hơn nữa, các nhà sinh học đã sử dụng phân cụm để phân tích lượng dữ liệu di truyền khổng lồ có thể truy cập được. Ví dụ, phân nhóm đã được sử dụng để khám phá các nhóm gen có cùng chức năng.

Truy xuất thông tin - World Wide Web bao gồm hàng tỷ trang Web và kết quả của một truy vấn tới công cụ tìm kiếm có thể khôi phục hàng triệu trang. Phân cụm có thể được sử dụng để nhóm các kết quả tìm kiếm này thành một vài cụm, mỗi cụm lấy một phần tử cụ thể của truy vấn.

Ví dụ:truy vấn "phim" có thể khôi phục các trang Web được kết hợp thành các danh mục bao gồm đánh giá, đoạn giới thiệu, ngôi sao và rạp chiếu. Mỗi cụm có thể được chia thành các danh mục con (cụm con), tạo cấu trúc phân cấp hỗ trợ phân tích kết quả truy vấn của người dùng.

Khí hậu - Nó có thể được tìm hiểu khí hậu trái đất cần thiết để khám phá các mô hình trong khí quyển và đại dương. Phân tích cụm đã được sử dụng để khám phá các dạng áp suất khí quyển của các Vùng cực và các khu vực của đại dương có tác động thiết yếu đến khí hậu đất liền.

Tâm lý và Y học - Một bệnh hoặc tình trạng thường có nhiều thay đổi và nghiên cứu cụm có thể được sử dụng để nhận ra nhiều danh mục phụ này. Ví dụ, phân nhóm có thể được sử dụng để xác định một số loại trầm cảm. Phân tích cụm cũng được sử dụng để xác định các mô hình phân bổ theo không gian hoặc thời gian của bệnh.

Doanh nghiệp - Doanh nghiệp thu thập lượng dữ liệu khổng lồ về người dùng hiện tại và tiềm năng. Nó thường được sử dụng để phân đoạn người dùng thành một số lượng nhỏ các nhóm để phân tích nhiều hơn và các sự kiện tiếp thị.