Computer >> Máy Tính >  >> Lập trình >> Lập trình

Phân tích cụm là gì?

Phân tích cụm là một hoạt động thiết yếu của con người. Phân tích cụm được sử dụng để tạo thành các nhóm hoặc cụm của các bản ghi giống nhau tùy thuộc vào các biện pháp khác nhau được thực hiện trên các bản ghi này. Thiết kế quan trọng là xác định các cụm theo những cách có thể hữu ích cho mục tiêu của phân tích. Dữ liệu này đã được sử dụng trong một số lĩnh vực, chẳng hạn như thiên văn học, khảo cổ học, y học, hóa học, giáo dục, tâm lý học, ngôn ngữ học và xã hội học.

Phân tích cụm là một nhánh của thống kê đã được nghiên cứu rộng rãi trong vài năm. Lợi ích của việc sử dụng kỹ thuật này là các cấu trúc hoặc cụm thú vị có thể được khám phá trực tiếp từ dữ liệu mà không cần sử dụng bất kỳ kiến ​​thức nền tảng nào, chẳng hạn như phân cấp khái niệm.

Các thuật toán phân cụm được sử dụng trong thống kê, như PAM hoặc CLARA, được báo cáo là không hiệu quả theo quan điểm độ phức tạp tính toán. Theo mối quan tâm về hiệu quả, một thuật toán mới có tên CLARANS (Phân cụm các ứng dụng lớn dựa trên Tìm kiếm ngẫu nhiên) đã được phát triển để phân tích cụm.

Có một cách sử dụng nổi tiếng của phân tích cụm trong tiếp thị là để phân khúc thị trường - người dùng được phân khúc dựa trên dữ liệu nhân khẩu học và lịch sử giao dịch, đồng thời các kỹ thuật tiếp thị được điều chỉnh cho phù hợp với từng phân khúc.

Một thuật ngữ khác là để phân tích cấu trúc thị trường xác định các nhóm sản phẩm giống nhau theo các biện pháp cạnh tranh tương tự. Trong tiếp thị và dự báo chính trị, nhóm các vùng lân cận sử dụng mã zip bưu điện của Hoa Kỳ đã được sử dụng mạnh mẽ để nhóm các vùng lân cận theo lối sống.

Trong tài chính, phân tích cụm có thể được sử dụng để tạo danh mục đầu tư cân bằng - Với dữ liệu về một số cơ hội đầu tư như cổ phiếu. Nó có thể khám phá các cụm tùy thuộc vào các biến hiệu suất tài chính bao gồm lợi nhuận như hàng ngày, hàng tuần hoặc hàng tháng, biến động, beta, v.v., bao gồm cả ngành và vốn hóa thị trường.

Có một hoạt động khác của phân tích cụm trong tài chính là phân tích thị trường. Đối với một ngành nhất định, nó quan tâm đến việc tìm kiếm các nhóm của cùng một công ty dựa trên các thước đo như tốc độ tăng trưởng, lợi nhuận, quy mô ngành, phạm vi sản phẩm và sự hiện diện trên một số thị trường quốc tế. Sau đó, các nhóm này có thể được phân tích để tìm hiểu cấu trúc thị trường và quyết định, ví dụ, ai là đối thủ cạnh tranh.

Phân tích cụm có thể được sử dụng cho một lượng lớn dữ liệu. Ví dụ, các công cụ tìm kiếm trên Internet sử dụng phương pháp phân cụm để phân cụm các truy vấn mà người dùng gửi. Sau đó, chúng có thể được sử dụng để phát triển các thuật toán tìm kiếm.

Nói chung, dữ liệu cơ bản được sử dụng để phân cụm là một bảng các phép đo trên các biến khác nhau, trong đó mỗi cột xác định một biến và một hàng xác định một bản ghi. Mục đích là tạo thành các nhóm dữ liệu để các bản ghi giống nhau nằm trong cùng một nhóm. Số lượng cụm có thể được chỉ định trước hoặc quyết định từ dữ liệu.