Các biện pháp tương tự cung cấp khuôn khổ dựa trên một số quyết định khai thác dữ liệu. Các nhiệm vụ bao gồm phân loại và phân nhóm thường xem xét sự tồn tại của một số thước đo độ tương tự, trong khi các trường có kỹ thuật kém để đánh giá độ giống nhau thường thấy rằng tìm kiếm thông tin là một chức năng cồng kềnh.
Có một số ứng dụng của các biện pháp tương tự như sau -
Truy xuất thông tin - Mục tiêu của hệ thống truy xuất thông tin (IR) là đáp ứng nhu cầu của người dùng. Nói cách khác, nhu cầu thường được biểu hiện dưới dạng một truy vấn văn bản ngắn được giới thiệu trong hộp văn bản của một số công cụ tìm kiếm trực tuyến. Các hệ thống IR thường không trực tiếp trả lời một truy vấn, thay vào đó, chúng trình bày một danh sách các bản ghi được xếp hạng được đánh giá có liên quan đến truy vấn đó bằng một số biện pháp tương tự.
Bởi vì các biện pháp tương tự có tác dụng phân nhóm và phân loại thông tin liên quan đến một truy vấn, người dùng thường sẽ tìm thấy cách giải thích mới về nhu cầu thông tin của họ có thể hữu ích hoặc có thể không hữu ích cho họ khi định dạng lại truy vấn của họ.
Trong trường hợp khi truy vấn là một bản ghi từ tập hợp ban đầu, các biện pháp tương tự có thể được sử dụng để phân cụm và phân loại các bản ghi trong một tập hợp. Nói tóm lại, các biện pháp tương tự có thể chèn một kiến trúc thô sơ vào một tập hợp không có cấu trúc trước đó.
Động lực
Các biện pháp tương tự được sử dụng trong hệ thống IR có thể làm sai lệch nhận thức của một người về toàn bộ tập dữ liệu. Ví dụ:nếu người dùng nhập truy vấn vào công cụ tìm kiếm và không tìm thấy câu trả lời thỏa đáng trong mười trang web được trả lại hàng đầu, thì thường sẽ cố gắng định dạng lại truy vấn này một hoặc hai lần.
Các biện pháp tương tự cổ điển
Phép đo độ tương tự được định nghĩa là một ánh xạ từ một cặp bộ giá trị kích thước k sang một số vô hướng. Theo quy ước, tất cả các thước đo độ tương tự phải ánh xạ đến phạm vi [-1, 1] hoặc [0, 1], trong đó điểm tương tự là 1 biểu thị mức độ tương tự tối đa. Thước đo độ tương đồng phải thể hiện các đặc điểm mà giá trị của chúng sẽ tăng lên khi một số thuộc tính trong hai mục đang được so sánh tăng lên.
Xúc xắc
Hệ số xúc xắc là tổng quát của giá trị trung bình hài của các phép đo độ chính xác và thu hồi. Một hệ thống có trung bình sóng hài cao về mặt lý thuyết nên gần với một hệ thống truy xuất lý tưởng ở chỗ nó có thể quản lý các giá trị chính xác cao ở mức độ nhớ cao. Giá trị trung bình hài cho độ chính xác và thu hồi được đưa ra bởi
$$ E =\ frac {2} {\ frac {1} {P} + \ frac {1} {R}} $$
trong khi hệ số Xúc xắc được ký hiệu là
$$ sim (d, d_ {j}) =D (A, B) =\ frac {| A \ cap B |} {\ alpha | A | + (1- \ alpha) | B |} \ cong \ frac {\ propto \ sum_ {k =1} ^ {n} w_ {kq} w_ {kj}} {\ propto \ sum_ {k =1} ^ {n} \ mathrm {w} _ {kq} ^ {2} + (1- \ propto) \ sum_ {k =1} ^ {n} \ mathrm {w} _ {kj} ^ {2}} $$
với α ε [0, 1]. Nó có thể hiển thị rằng hệ số Xúc xắc là một trung bình hài có trọng số, đặt α =½.
Chồng chéo
Hệ số chồng chéo cố gắng quyết định mức độ mà hai tập hợp chồng chéo lên nhau. Hệ số chồng chéo được so sánh như
$$ sim (d, d_ {j}) =D (A, B) =\ frac {| A \ cap B |} {min (| A |, | B |)} \ cong \ frac {\ propto \ sum_ {k =1} ^ {n} w_ {kq} w_ {kj}} {\ propto \ sum_ {k =1} ^ {n} \ mathrm {w} _ {kq} ^ {2} + \ sum_ {k =1} ^ {n} \ mathrm {w} _ {kj} ^ {2}} $$
Hệ số chồng chéo được tính bằng toán tử tối đa thay cho giá trị tối thiểu.