Computer >> Máy Tính >  >> Lập trình >> Lập trình

Hàm Khoảng cách là gì?

Khoảng cách là phương pháp MBR tính toán độ tương đồng. Đối với một số chỉ số khoảng cách thực, khoảng cách từ điểm A đến điểm B, được biểu thị bằng d (A, B), có bốn đặc điểm như sau -

  • Được xác định rõ ràng - Khoảng cách giữa hai điểm được xác định liên tục và là một số thực không âm, d (A, B) ≥ 0.

  • Danh tính - Khoảng cách từ một điểm đến chính nó liên tục bằng 0, do đó d (A, A) =0.

  • Tính giao hoán - Phương hướng không tạo ra sự khác biệt, do đó khoảng cách từ A đến B cũng tương tự như khoảng cách từ B đến A:d (A, B) =d (B, A). Ví dụ:tính năng này loại trừ đường một chiều.

  • Bất bình đẳng tam giác - Có thể thăm một điểm trung gian C trên phương từ A đến B không bao giờ nén khoảng cách, do đó d (A, B) ≥ d (A, C) + d (C, B).

Đối với MBR, các điểm chắc chắn là dữ liệu trong cơ sở dữ liệu. Mô tả về khoảng cách này là cơ sở cho sự tương đồng về tính toán, nhưng MBR hoạt động khá tốt khi một số ràng buộc này được tạo thành một chút.

Ví dụ:hàm khoảng cách trong nghiên cứu điển hình về định nghĩa câu chuyện thời sự không thể thay đổi được vì vậy khoảng cách từ một câu chuyện tin tức A đến một câu chuyện B khác không liên tục giống như khoảng cách từ B đến A. Nhưng phép đo độ tương đồng có lợi cho mục đích phân loại .

Thực tế là khoảng cách được xác định nghĩa là mỗi dữ liệu có một hàng xóm ở đâu đó trong cơ sở dữ liệu và MBR bắt buộc các hàng xóm phải hoạt động. Thuộc tính nhận dạng tạo ra khoảng cách tuân theo khái niệm trực quan rằng dữ liệu tương tự nhất với dữ liệu nhất định là chính bản ghi ban đầu.

Tính giao hoán và Bất đẳng thức tam giác tạo ra các láng giềng gần nhất là cục bộ và được xác định rõ ràng. Việc chèn một dữ liệu mới vào cơ sở dữ liệu sẽ không đưa một bản ghi hiện có đến gần hơn. Sự giống nhau là vấn đề chỉ dành cho hai dữ liệu tại một thời điểm. Mặc dù thước đo khoảng cách có thể phát hiện ra những người hàng xóm gần nhất đã được xác định rõ ràng, nhưng tập hợp những người hàng xóm gần nhất có thể có một số tính năng đặc biệt.

Tập hợp các vùng lân cận phụ thuộc vào cách hàm khoảng cách dữ liệu kết hợp các hàm khoảng cách vùng. Trên thực tế, láng giềng gần nhất thứ hai sử dụng hàm tổng kết là láng giềng xa nhất sử dụng Euclide, v.v ... Nó được so sánh với số liệu tổng kết hoặc chuẩn hóa, ảnh hưởng của hệ mét Euclid có lợi cho những láng giềng nơi tất cả các khu vực đều gần nhau.

Các hàm tổng kết, Euclide và chuẩn hóa cũng có thể bao gồm các trọng số để mỗi vùng đóng góp một lượng khác nhau cho hàm khoảng cách dữ liệu. MBR thường tạo ra kết quả tốt khi một số trọng số bằng 1. Tuy nhiên, đôi khi trọng số có thể được sử dụng để bao gồm kiến ​​thức tiên nghiệm, bao gồm một lĩnh vực cụ thể bị nghi ngờ là có ảnh hưởng lớn đến việc phân loại.