Computer >> Máy Tính >  >> Lập trình >> Lập trình

Thuật toán SOM là gì?


SOM đại diện cho Bản đồ tính năng tự tổ chức. Nó là một kỹ thuật phân cụm và trực quan hóa dữ liệu phụ thuộc vào quan điểm mạng nơ-ron. Bất kể cơ sở mạng nơ-ron của SOM là gì, nó chỉ đơn giản được trình bày ở mức tối thiểu trong bối cảnh có sự thay đổi của phân nhóm dựa trên nguyên mẫu.

Thuật toán của SOM như sau -

  • Khởi tạo các trung tâm.

  • lặp lại

  • Chọn đối tượng tiếp theo.

  • Xác định tâm gần nhất với đối tượng.

  • Làm mới trung tâm này và các trung tâm gần, tức là trong một vùng lân cận xác định.

  • cho đến khi các trung tâm không thay đổi nhiều hoặc một ngưỡng nằm ngoài khoảng cách.

  • Tạo từng đối tượng đến trung tâm gần nhất của nó và khôi phục các trung tâm và cụm.

Khởi tạo - Bước này (dòng 1) có thể được thực hiện theo nhiều cách. Một phương pháp là chọn ngẫu nhiên từng phần tử của centroid từ phạm vi giá trị được quan sát trong dữ liệu cho phần tử đó.

Mặc dù phương pháp này hoạt động, nhưng về cơ bản nó không phải là phương pháp tốt nhất, đặc biệt là để tạo ra sự hội tụ nhanh chóng. Một phương pháp khác là chọn ngẫu nhiên các trung tâm ban đầu từ các điểm dữ liệu có thể truy cập được. Điều này rất giống với việc chọn ngẫu nhiên các centroid cho K-means.

Lựa chọn đối tượng - Bước đầu tiên trong vòng lặp (dòng 3) là lựa chọn đối tượng tiếp theo. Điều này là đơn giản, nhưng có một số khó khăn. Bởi vì sự hội tụ có thể yêu cầu một số bước, mỗi đối tượng dữ liệu có thể được sử dụng nhiều lần, đặc biệt nếu nhiều đối tượng nhỏ. Nhưng nếu số lượng đối tượng lớn, thì không bắt buộc phải sử dụng từng đối tượng. Nó cũng có thể áp dụng để cải thiện ảnh hưởng của các nhóm đối tượng cụ thể bằng cách cải thiện tần suất của họ trong tập huấn luyện.

Nhiệm vụ - Việc xác định tâm gần nhất (dòng 4) rất dễ dàng, mặc dù cần mô tả về thước đo khoảng cách. Số liệu khoảng cách Euclide được sử dụng, cũng như số liệu sản phẩm chấm. Khi sử dụng khoảng cách sản phẩm chấm, các vectơ dữ liệu thường được chuẩn hóa trước và các vectơ tham chiếu được chuẩn hóa ở mọi bước. Trong phương pháp này, việc sử dụng số liệu sản phẩm chấm cũng giống như sử dụng số đo cosin.

Cập nhật - Bước cập nhật (dòng 5) khó. Gọi m1 ..., mk, là các tâm. Đối với bước thời gian t, gọi p (t) là đối tượng (điểm) hiện tại và coi trọng tâm gần nhất với p (t) là mj. Do đó, tại thời điểm t + 1, tâm thứ j được làm mới bằng cách sử dụng phương trình sau.

$$ \ mathrm {mj (t + 1) =mj (t) + hj (t) (p (t) - mj (t))} $$

Chấm dứt - Việc xác định thời điểm thích hợp cho một tập hợp các trung tâm ổn định là một vấn đề cần thiết. Lý tưởng nhất, sự lặp lại phải tiếp tục cho đến khi sự hội tụ xuất hiện, nghĩa là cho đến khi các vectơ tham chiếu không thay đổi hoặc thay đổi nhỏ. Chi phí hội tụ sẽ dựa trên nhiều yếu tố, bao gồm dữ liệu và 𝛼 (t).