Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phương pháp phân cụm luồng dữ liệu là gì?

Phân cụm luồng dữ liệu được mô tả là nhóm dữ liệu xuất hiện liên tục bao gồm dữ liệu điện thoại, dữ liệu đa phương tiện, giao dịch tiền tệ, v.v. Phân cụm luồng dữ liệu thường được coi là một thuật toán phân luồng và mục tiêu là, được cung cấp một chuỗi điểm, để tạo ra một phân nhóm tốt nhất của luồng, sử dụng một lượng nhỏ bộ nhớ và thời gian.

Một số ứng dụng cần sự phân nhóm tự động của những dữ liệu đó thành tập hợp dựa trên những điểm tương đồng của chúng. Ví dụ chứa các ứng dụng để phát hiện xâm nhập web, phân tích luồng nhấp chuột trên Web và phân tích thị trường chứng khoán.

Có một số phương pháp động để phân cụm các tập dữ liệu tĩnh, phân cụm các luồng dữ liệu đặt thêm lực vào các thuật toán như vậy. Có thể thấy mô hình luồng dữ liệu gồm các thuật toán tính toán cần thiết để tạo ra một lần truyền dữ liệu duy nhất, với bộ nhớ bị giới hạn và thời gian xử lý xác định, trong khi luồng có thể rất năng động và phát triển theo thời gian.

Có một số phương pháp luận về phân nhóm luồng dữ liệu như sau -

Tính toán và lưu trữ tóm tắt dữ liệu trong quá khứ - Do không gian bộ nhớ có hạn và yêu cầu phản hồi nhanh, hãy tính các bản tóm tắt của dữ liệu đã xem trước đó, lưu các kết quả có liên quan và sử dụng các bản tóm tắt đó để tính toán các số liệu thống kê quan trọng khi cần thiết.

Áp dụng chiến lược chia để trị - Nó có thể chia các luồng dữ liệu thành các phần dựa trên thứ tự đến, tính toán các bản tóm tắt cho các phần này, và sau đó hợp nhất các phần tóm tắt. Trong phương pháp này, các mô hình cao hơn có thể được xây dựng từ các khối xây dựng nhỏ hơn.

Phân nhóm tăng dần các luồng dữ liệu đến - Do dữ liệu luồng giới thiệu hệ thống liên tục và tăng dần, các cụm được thay đổi sẽ ngày càng phức tạp.

Thực hiện phân tích microclustering cũng như macroclustering - Các cụm luồng có thể được tính theo hai bước như sau -

  • Nó có thể tính toán và lưu trữ các bản tóm tắt ở cấp độ vi cụm, nơi các vi cụm được hình thành bằng cách áp dụng thuật toán phân cụm từ dưới lên có thứ bậc.

  • Nó có thể tính toán các cụm macro (chẳng hạn như bằng cách sử dụng một thuật toán phân cụm khác để nhóm các nhóm vi mô) ở cấp độ do người dùng chỉ định. Phép tính hai bước này nén dữ liệu một cách hiệu quả và cung cấp kết quả trong một vùng sai số nhỏ hơn.

Khám phá chi tiết nhiều thời gian để phân tích sự phát triển của cụm - Vì dữ liệu gần đây hơn thường đóng vai trò khác với dữ liệu từ xa (tức là cũ hơn) trong phân tích dữ liệu luồng, hãy sử dụng mô hình khung thời gian nghiêng để lưu trữ ảnh chụp nhanh của dữ liệu tóm tắt tại các thời điểm khác nhau.

Chia nhóm luồng thành các quy trình trực tuyến và ngoại tuyến - Trong khi dữ liệu đang truyền trực tuyến, các bản tóm tắt cơ bản về ảnh chụp nhanh dữ liệu phải được tính toán, lưu trữ và cập nhật từng bước.

Do đó, một quy trình trực tuyến là cần thiết để duy trì các cụm thay đổi động như vậy. Trong khi đó, người dùng có thể đặt ra các truy vấn để hỏi về các cụm trong quá khứ, hiện tại hoặc đang phát triển. Phân tích như vậy có thể được thực hiện ngoại tuyến hoặc như một quy trình độc lập với bảo trì cụm trực tuyến.