Computer >> Máy Tính >  >> Lập trình >> Lập trình

Trình đánh giá thuộc tính đơn trong khai thác dữ liệu là gì?

Trong các trình đánh giá thuộc tính đơn, nó có thể được sử dụng với các phương pháp tìm kiếm của Trình xếp hạng để tạo danh sách được xếp hạng mà từ đó trình xếp hạng loại bỏ một số nhất định. Nó cũng được sử dụng trong phương pháp RankSearch.

Đánh giá thuộc tính cứu trợ dựa trên phiên bản - Nó lấy mẫu các thể hiện một cách ngẫu nhiên và kiểm tra các thể hiện lân cận của các lớp bằng nhau và nhiều lớp. Nó hoạt động trên dữ liệu lớp rời rạc và liên tục. Các tham số xác định nhiều trường hợp để lấy mẫu, các hàng xóm khác nhau để kiểm tra, xem có tính trọng lượng các hàng xóm theo khoảng cách hay không và một hàm số mũ điều khiển mức độ phân rã của trọng số theo khoảng cách ngày càng tăng.

Đánh giá thuộc tính InfoGain - Nó tính toán các thuộc tính bằng cách tính toán thu được thông tin của chúng liên quan đến lớp. Nó tùy ý hóa các thuộc tính số trước tiên bằng cách sử dụng các phương pháp tùy chỉnh dựa trên MDL. Cách tiếp cận này, cùng với ba cách sau, có thể coi bị thiếu là một giá trị độc lập hoặc phân phối số lượng giữa các giá trị khác tương ứng với tần suất của chúng.

Đánh giá thuộc tính chi bình phương - Nó tính toán các thuộc tính bằng cách tính toán thống kê chi bình phương liên quan đến lớp.

Đánh giá thuộc tính tỷ lệ tăng - Nó tính toán các thuộc tính bằng cách tính toán tỷ lệ khuếch đại của chúng liên quan đến lớp.

Đánh giá thuộc tính không đối xứng - Nó tính toán một thuộc tính bằng cách tính toán độ không đảm bảo đối xứng của nó liên quan đến lớp.

Đánh giá OneRAttribute - Nó cần thước đo độ chính xác rõ ràng được thông qua bởi bộ phân loại OneR. Nó có thể cần dữ liệu đào tạo để tính toán, như OneR làm hoặc nó có thể sử dụng xác thực chéo nội bộ - Nhiều nếp gấp là một tham số. Nó có thể chọn phương pháp tùy chỉnh đơn giản của OneR - Kích thước nhóm tối thiểu là một tham số.

Đánh giá thuộc tính SVM - Nó tính toán các thuộc tính bằng cách sử dụng loại bỏ tính năng đệ quy với một máy vector hỗ trợ tuyến tính. Các thuộc tính được chọn từng thuộc tính tùy thuộc vào kích thước của các hệ số của chúng, phân loại lại sau mỗi người.

Thật vậy, một tỷ lệ có thể được sử dụng cho đến khi vẫn còn một số thuộc tính nhất định, sau đó chuyển sang phương pháp số cố định sẽ nhanh chóng loại bỏ nhiều thuộc tính và sau đó xem xét từng thuộc tính còn lại một cách chuyên sâu hơn.

Các tham số khác nhau được chuyển đến máy vectơ hỗ trợ - độ phức tạp, epsilon, dung sai và phương pháp lọc được sử dụng.

Các thành phần chính và Phân tích ngữ nghĩa tiềm ẩn biến đổi tập hợp các thuộc tính. Trong trường hợp Thành phần chính, các thuộc tính mới được xếp hạng theo thứ tự giá trị riêng của chúng. Theo tùy chọn, một tập hợp con được chọn bằng cách chọn đủ ký tự riêng để chiếm một tỷ lệ nhất định của phương sai (95% theo mặc định). Cuối cùng, dữ liệu đã giảm có thể được chuyển đổi trở lại không gian ban đầu.

Phân tích ngữ nghĩa tiềm ẩn áp dụng phân tách giá trị đơn lẻ cho dữ liệu đào tạo. Phân tích giá trị đơn lẻ liên quan đến phân tích các thành phần chính - cả hai đều tạo ra các hướng là sự kết hợp tuyến tính của các giá trị thuộc tính ban đầu nhưng khác ở chỗ nó được tính từ ma trận chứa các giá trị dữ liệu gốc chứ không phải ma trận tương quan thuộc tính hoặc hiệp phương sai.