Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các cách tiếp cận của Tiết kiệm không giám sát là gì?

Một thuộc tính là rời rạc nếu nó có một số lượng giá trị có thể có tương đối nhỏ (hữu hạn) trong khi một thuộc tính liên tục được coi là có một số lượng lớn các giá trị có thể có (vô hạn).

Nói cách khác, thuộc tính dữ liệu rời rạc có thể được xem như một hàm có phạm vi là một nhóm hữu hạn trong khi thuộc tính dữ liệu liên tục là một hàm có phạm vi là một nhóm có thứ tự hoàn toàn vô hạn, thường là một khoảng.

Việc tiết chế nhằm mục đích giảm số lượng giá trị có thể mà một thuộc tính liên tục nhận được bằng cách phân chia chúng thành nhiều khoảng thời gian. Có hai phương pháp để giải quyết vấn đề tùy tiện. Một là lượng hóa mọi thuộc tính trong trường hợp không có một số kiến ​​thức về các lớp của các cá thể trong lớp đào tạo được gọi là sự tùy ý hóa không giám sát.

Thứ hai là tạo các lớp có tính đến khi tùy ý hóa có giám sát. Trước đây là khả năng duy nhất khi giải quyết các vấn đề phân cụm trong đó các lớp không xác định hoặc không tồn tại.

Cách rõ ràng để loại bỏ một thuộc tính số là chia phạm vi của nó thành một số lượng xác định trước trong các khoảng bằng nhau:một thước đo cố định, không phụ thuộc vào dữ liệu. Điều này thường được hoàn thành vào thời điểm thu thập thông tin.

Trong phương pháp tùy ý không được giám sát, nó có nguy cơ làm hỏng sự khác biệt mà lẽ ra lại có lợi trong quy trình học tập bằng cách sử dụng phân cấp quá thô lỗ hoặc, theo tùy chọn bất lợi của ranh giới, không cần thiết phải gộp một số trường hợp của nhiều lớp lại với nhau .

Việc phân chia theo chiều rộng bằng nhau thường phân phối các bản sao rất lộn xộn - Một số thùng bao gồm một số phiên bản trong khi những thùng khác không có. Điều này có thể làm giảm nghiêm trọng khả năng của thuộc tính giúp xây dựng cấu trúc quyết định tốt. Sẽ tốt hơn nếu cho phép các khoảng thời gian có nhiều kích thước, chọn chúng sao cho số lượng ví dụ đào tạo tương tự thuộc từng khoảng thời gian.

Phương pháp này được gọi là phân nhóm tần số bằng nhau, chia phạm vi của thuộc tính thành một số thùng được xác định trước dựa trên sự phân bố các phiên bản dọc theo trục đó, đôi khi được gọi là cân bằng biểu đồ vì nếu nó có thể lấy biểu đồ văn bản của các thùng kết quả thì nó sẽ thường xuyên bằng phẳng. Nếu nó có thể coi nhiều thùng là một tài nguyên, thì phương pháp này sẽ phát huy tác dụng tốt nhất của nó.

Phân loại tần số bằng nhau là rõ ràng đối với các lớp của phiên bản và điều này có thể tạo ra ranh giới xấu. Ví dụ:nếu một số trường hợp trong thùng có một lớp và một số trường hợp trong thùng lớn hơn sau có một lớp khác ngoại trừ lớp đầu tiên, có lớp ban đầu, chắc chắn điều đó tạo ra ý nghĩa tôn trọng các phân chia lớp và chứa trường hợp đầu tiên đó trong bin trước đó, hy sinh thuộc tính cùng tần số vì lợi ích của tính đồng nhất.