Computer >> Máy Tính >  >> Lập trình >> Lập trình

Làm cách nào chúng ta có thể tìm thấy các cụm không gian con từ dữ liệu chiều cao?

Có một số phương pháp đã được phân loại thành ba nhóm chính bao gồm kỹ thuật tìm kiếm không gian con, kỹ thuật phân nhóm dựa trên tương quan và kỹ thuật phân nhóm.

Kỹ thuật tìm kiếm không gian con - Một phương pháp tìm kiếm không gian con tìm kiếm một số không gian con cho các cụm. Do đó, một cụm là một tập hợp con của các đối tượng giống nhau trong một không gian con. Sự giống nhau có được bằng các biện pháp thông thường bao gồm khoảng cách hoặc mật độ.

Ví dụ, thuật toán CLIQUE là một kỹ thuật phân cụm không gian con. Nó có thể chỉ định các không gian con và các cụm trong các không gian con đó trong một chuỗi tăng dần số chiều và sử dụng tính đơn độc tố để cắt bớt các không gian con mà trong đó không có cụm nào có thể tiếp tục. Một thách thức lớn hơn mà kỹ thuật tìm kiếm không gian con phải đối mặt là làm thế nào để tìm kiếm một chuỗi không gian con một cách hiệu quả.

Có hai loại phương pháp như sau -

  • Phương pháp từ dưới lên bắt đầu từ các không gian con có chiều thấp và chỉ tìm kiếm các không gian con có chiều cao hơn khi có thể có các cụm trong các chiều lớn hơn đó. Có một số phương pháp cắt tỉa được phân tích để giảm bớt nhiều không gian con có chiều cao hơn cần được tìm kiếm. CLIQUE là một ví dụ của phương pháp tiếp cận từ dưới lên.

  • Phương pháp từ trên xuống bắt đầu từ không gian hoàn chỉnh và tìm kiếm không gian con nhỏ hơn và nhỏ hơn một cách đệ quy. Các phương pháp từ trên xuống chỉ hiệu quả nếu ảnh hưởng của giả định cục bộ, điều này cần rằng không gian con của một cụm có thể được quyết định bởi vùng lân cận cục bộ.

Phương pháp phân nhóm dựa trên tương quan - Trong khi các phương pháp tìm kiếm không gian con tìm kiếm các cụm có điểm giống nhau được tính toán bằng cách sử dụng các số liệu thông thường như khoảng cách hoặc mật độ, các phương pháp dựa trên mối tương quan có thể tìm các cụm được đại diện bằng mô hình tương quan nâng cao.

Cách tiếp cận dựa trên PCA trước tiên sử dụng PCA (Phân tích các thành phần chính) để thay đổi một tập hợp các thứ nguyên mới, không tương quan và do đó khai thác các cụm trong không gian mới hoặc không gian con của nó. Ngoài PCA, các phép biến đổi không gian khác có thể được sử dụng, bao gồm cả phép biến đổi Hough hoặc các kích thước fractal.

Phương pháp phân tán - Trong một số ứng dụng, yêu cầu phải phân cụm đồng thời cả đối tượng và thuộc tính. Các cụm kết quả được gọi là hai cụm và đáp ứng bốn yêu cầu như sau -

  • Nó chỉ là một nhóm nhỏ các đối tượng thực hiện trong một cụm.

  • Một cụm chỉ chứa một số lượng nhỏ các thuộc tính.

  • Một đối tượng có thể tham gia vào một số cụm hoặc không tham gia vào bất kỳ cụm nào.

  • Một thuộc tính có thể được bao gồm trong một số cụm hoặc không được chứa trong bất kỳ cụm nào.

Kỹ thuật phân tán lần đầu tiên được đề xuất để giải quyết các yêu cầu về khám phá dữ liệu biểu hiện gen. Gen là một hệ thống truyền các tính trạng từ một cấu trúc sống cho con cái của nó. Nói chung, một gen bao gồm một đoạn DNA.

Gen rất quan trọng đối với tất cả các sinh vật vì chúng xác định một số protein và chuỗi RNA chức năng. Chúng ảnh hưởng đến dữ liệu để xây dựng và hỗ trợ các tế bào của sinh vật sống và truyền các đặc điểm di truyền cho thế hệ con cái.

Kiểu gen là cấu tạo di truyền của một tế bào, một sinh vật hoặc một cá thể. Kiểu hình là đặc điểm rõ ràng của sinh vật. Biểu hiện gen là cấp độ quan trọng trong di truyền mà ở đó các kiểu gen gây ra kiểu hình.