Computer >> Máy Tính >  >> Lập trình >> Lập trình

BIRCH là gì?

BIRCH đại diện cho Giảm lặp lại cân bằng và phân cụm bằng cách sử dụng cấu trúc phân cấp. Nó được thiết kế để phân nhóm một lượng lớn các bản ghi số bằng cách tích hợp phân nhóm phân cấp và các phương pháp phân nhóm khác bao gồm phân vùng lặp lại.

BIRCH đưa ra hai khái niệm, tính năng phân cụm và cây tính năng phân cụm (cây CF), được sử dụng để tóm tắt mô tả cụm. Các cấu trúc này tạo điều kiện thuận lợi cho phương pháp phân nhóm để đạt được tốc độ và khả năng mở rộng tốt nhất trong cơ sở dữ liệu khổng lồ và cũng tạo ra nó hiệu quả cho việc phân nhóm gia tăng và năng động của các đối tượng đến.

Cho trước n đối tượng hoặc điểm dữ liệu d chiều trong một cụm và nó có thể đại diện cho tâm x 0 , bán kính R và đường kính D của cụm như sau -

$$ x_ {0} =\ frac {\ sum_ {i =1} ^ {n} x_ {i}} {n} $$

$$ R =\ sqrt {\ frac {\ sum_ {i =1} ^ {n} (x_ {i} -x_ {0}) ^ {2}} {n}} $$

$$ D =\ sqrt {\ frac {\ sum_ {i =1} ^ {n} \ sum_ {j =1} ^ {n} (x_ {i} -x_ {j}) ^ {2}} {n (n-1)}} $$

trong đó R là khoảng cách trung bình từ các phần tử thành viên đến tâm và D là khoảng cách theo chiều cặp trung bình bên trong một cụm. Cả R và D đều đảo ngược độ chặt của cụm xung quanh tâm. Tính năng phân cụm (CF) là một vectơ ba chiều tóm tắt dữ liệu về các cụm đối tượng. Cho trước n đối tượng hoặc điểm d chiều trong một cụm, {x i }, sau đó CF của cụm được biểu diễn là

CF =(n, LL, SS)

trong đó n là số điểm trong cụm, LS là tổng tuyến tính của n điểm $ \ sum_ {i =1} ^ {n} (x_ {i}) $ và SS là tổng bình phương của các điểm dữ liệu (tức là, $ \ sum_ {i =1} ^ {n} x_ {i} ^ {2} $)

Tính năng phân cụm là một bản tóm tắt thống kê cho cụm đã cho:khoảnh khắc thứ 0, thứ nhất và thứ hai của cụm theo quan điểm thống kê. Tính năng phân cụm là một phần bổ sung. Ví dụ, giả sử rằng chúng ta có hai cụm rời rạc, C1 và C2, thường giữ các đặc điểm phân nhóm, CF1 và CF2. Tính năng phân cụm cho cụm được hình thành bằng cách kết hợp C1 và C2 chỉ đơn giản là CF1 + CF2.

Các tính năng phân cụm đủ để tính toán tất cả các phép đo cần thiết để phát triển các quyết định phân nhóm trong BIRCH. BIRCH sử dụng lưu trữ hiệu quả bằng cách sử dụng các tính năng phân cụm để tóm tắt dữ liệu về các nhóm đối tượng, do đó bỏ qua yêu cầu lưu tất cả các đối tượng.

Cây CF là một cây cân bằng chiều cao giúp lưu các đặc điểm phân cụm để phân nhóm theo thứ bậc. Một nút không phải lá trên cây có con cháu hoặc "con". Các nút không phải lá lưu trữ tổng số CF của các con của chúng và do đó tóm tắt dữ liệu nhóm về các con của chúng.

Một cây CF có hai tham số bao gồm hệ số phân nhánh, B và ngưỡng T. Phần tử phân nhánh xác định số lượng con tối đa trên mỗi nút không phải là lá. Tham số ngưỡng xác định đường kính tối đa của các cụm con được lưu tại các nút lá của cây. Hai tham số này giữ kích thước của cây kết quả.