Khai thác dữ liệu Weka là gì?

Weka là một tập hợp các thuật toán học máy cho các dịch vụ khai thác dữ liệu. Các thuật toán có thể được sử dụng trực tiếp cho tập dữ liệu hoặc từ chương trình Java của riêng bạn. Nó bao gồm các công cụ để xử lý trước dữ liệu, phân loại, hồi quy, phân cụm, quy tắc kết hợp và trực quan hóa. Nó cũng có thể áp dụng để sản xuất các lược đồ học máy mới.

Một phương pháp sử dụng Weka là sử dụng phương pháp tiếp cận học tập đối với tập dữ liệu và phân tích kết quả đầu ra của nó để tìm hiểu thêm về bản ghi. Thứ hai là cần các mô hình đã học để đưa ra dự đoán về các trường hợp mới.

Thứ ba là sử dụng nhiều người học và so sánh hiệu suất của họ để chọn một người để dự đoán. Trong giao diện Weka tương tác, nó có thể chọn phương pháp học theo yêu cầu từ menu. Một số phương thức có các tham số có thể điều chỉnh được, có thể tạo thông qua trang thuộc tính hoặc trình chỉnh sửa đối tượng. Một cấu trúc tính toán chung được sử dụng để tính toán hiệu suất của tất cả các bộ phân loại.

Nó có thể cho biết cách sử dụng các bộ lọc khác nhau, liệt kê các thuật toán lọc và mô tả các tham số của chúng. Weka cũng bao gồm triển khai các thuật toán để học các quy tắc liên kết, phân nhóm dữ liệu mà không có giá trị lớp nào được chỉ định và chọn các thuộc tính có liên quan trong dữ liệu.

Phương pháp đơn giản nhất để sử dụng Weka là thông qua giao diện người dùng đồ họa được gọi là Explorer. Điều này cung cấp quyền truy cập vào một số cơ sở của nó bằng cách sử dụng lựa chọn menu và điền vào biểu mẫu. Ví dụ:nó có thể đọc nhanh tập dữ liệu từ tài liệu ARFF (hoặc bảng tính) và xây dựng cây quyết định từ đó.

Giao diện Explorer cung cấp cho chúng ta bằng cách hiển thị các lựa chọn dưới dạng menu, buộc chúng ta phải làm việc theo thứ tự phù hợp bằng cách làm xám các lựa chọn cho đến khi chúng phù hợp và bằng cách hiển thị các tùy chọn dưới dạng biểu mẫu cần điền. Các chú giải công cụ có lợi sẽ bật lên khi con chuột lướt qua các phần tử trên màn hình để hiểu chúng làm gì. Các giá trị mặc định hợp lý cung cấp rằng nó có thể nhận được kết quả với một nỗ lực tối thiểu — nhưng nó sẽ phải suy nghĩ về giá trị đó để hiểu ý nghĩa của kết quả.

Giao diện Dòng tri thức cho phép chúng tôi tạo cấu trúc để xử lý thông tin được phân luồng. Hạn chế của giao diện Explorer là nó ảnh hưởng đến mọi thứ trong bộ nhớ chính khi nó có thể mở một tập dữ liệu, nó trực tiếp tải tất cả vào.

Điều này có nghĩa là Trình khám phá có thể được sử dụng cho các vấn đề quy mô vừa và nhỏ. Tuy nhiên, Weka bao gồm một số thuật toán gia tăng có thể được sử dụng để xử lý các tập dữ liệu khổng lồ. Giao diện Dòng tri thức cho phép chúng tôi kéo các hộp xác định các thuật toán học tập và nguồn dữ liệu xung quanh màn hình và kết nối chúng với cấu hình theo yêu cầu.

Nó cho phép chúng tôi xác định luồng dữ liệu bằng cách kết nối các thành phần xác định nguồn dữ liệu, công cụ tiền xử lý, thuật toán học, phương pháp tính toán và mô-đun trực quan hóa. Nếu các bộ lọc và thuật toán học tập phù hợp cho việc học tập gia tăng, dữ liệu sẽ được tải và xử lý bổ sung.