Computer >> Máy Tính >  >> Lập trình >> Lập trình

Phân cụm là gì?

Quá trình kết hợp một tập hợp các đối tượng vật lý hoặc trừu tượng thành các lớp của các đối tượng giống nhau được gọi là phân cụm. Cụm là một tập hợp các đối tượng dữ liệu giống nhau trong cùng một cụm và khác biệt với các đối tượng trong các cụm khác. Một nhóm các đối tượng dữ liệu có thể được coi là một nhóm trong một số ứng dụng. Phân tích cụm là một hoạt động thiết yếu của con người.

Phân tích cụm được sử dụng để tạo thành các nhóm hoặc cụm của các bản ghi giống nhau tùy thuộc vào các biện pháp khác nhau được thực hiện trên các bản ghi này. Thiết kế quan trọng là xác định các cụm theo những cách có thể hữu ích cho mục tiêu của phân tích. Dữ liệu này đã được sử dụng trong một số lĩnh vực, chẳng hạn như thiên văn học, khảo cổ học, y học, hóa học, giáo dục, tâm lý học, ngôn ngữ học và xã hội học.

Có một cách sử dụng nổi tiếng của phân tích cụm trong tiếp thị là để phân khúc thị trường - người dùng được phân khúc dựa trên dữ liệu nhân khẩu học và lịch sử giao dịch, đồng thời các kỹ thuật tiếp thị được điều chỉnh cho phù hợp với từng phân khúc.

Một thuật ngữ khác là để phân tích cấu trúc thị trường xác định các nhóm sản phẩm giống nhau theo các biện pháp cạnh tranh tương tự. Trong tiếp thị và dự báo chính trị, nhóm các vùng lân cận sử dụng mã zip bưu điện của Hoa Kỳ đã được sử dụng mạnh mẽ để nhóm các vùng lân cận theo lối sống.

Trong tài chính, phân tích cụm có thể được sử dụng để tạo danh mục đầu tư cân bằng - Với dữ liệu về một số cơ hội đầu tư (ví dụ:cổ phiếu), người ta có thể tìm thấy các cụm tùy thuộc vào các biến hiệu suất tài chính bao gồm lợi nhuận (hàng ngày, hàng tuần hoặc hàng tháng), biến động, beta và các đặc điểm khác, bao gồm cả ngành và vốn hóa thị trường. Chọn chứng khoán từ nhiều cụm có thể giúp tạo ra một danh mục đầu tư cân bằng.

Có một hoạt động khác của phân tích cụm trong tài chính là phân tích thị trường. Đối với một ngành nhất định, nó quan tâm đến việc tìm kiếm các nhóm của cùng một công ty dựa trên các thước đo như tốc độ tăng trưởng, lợi nhuận, quy mô ngành, phạm vi sản phẩm và sự hiện diện trên một số thị trường quốc tế. Sau đó, các nhóm này có thể được phân tích để tìm hiểu cấu trúc thị trường và quyết định, ví dụ, ai là đối thủ cạnh tranh.

Phân tích cụm có thể được sử dụng cho một lượng lớn dữ liệu. Ví dụ, các công cụ tìm kiếm trên Internet sử dụng phương pháp phân cụm để phân cụm các truy vấn mà người dùng gửi. Sau đó, chúng có thể được sử dụng để phát triển các thuật toán tìm kiếm.

Nói chung, dữ liệu cơ bản được sử dụng để phân cụm là một bảng các phép đo trên các biến khác nhau, trong đó mỗi cột xác định một biến và một hàng xác định một bản ghi. Mục đích là tạo thành các nhóm dữ liệu để các bản ghi giống nhau nằm trong cùng một nhóm. Số lượng cụm có thể được chỉ định trước hoặc quyết định từ dữ liệu.