Có các bước xử lý trước sau đây có thể được sử dụng đối với dữ liệu để tạo điều kiện thúc đẩy độ chính xác, hiệu quả và khả năng mở rộng của giai đoạn phân loại hoặc dự đoán như sau -
-
Làm sạch dữ liệu - Điều này xác định quá trình xử lý trước dữ liệu để loại bỏ hoặc giảm nhiễu bằng cách sử dụng các phương pháp làm mịn và hoạt động của các giá trị bị thiếu (ví dụ:bằng cách khôi phục một giá trị bị thiếu với giá trị xuất hiện chung nhất cho thuộc tính đó hoặc với giá trị có thể xảy ra tốt nhất được thiết lập trên số liệu thống kê). Mặc dù các thuật toán phân loại khác nhau có một số cấu trúc để quản lý thông tin bị nhiễu hoặc bị thiếu, nhưng bước này có thể giúp giảm nhầm lẫn trong quá trình học.
-
Phân tích mức độ liên quan - Có nhiều thuộc tính khác nhau trong dữ liệu có thể không liên quan đến nhiệm vụ phân loại hoặc dự đoán. Ví dụ, dữ liệu ghi lại ngày trong tuần mà phần mềm cho vay ngân hàng được điền là không chắc có liên quan đến sự thành công của phần mềm. Hơn nữa, một số thuộc tính khác nhau có thể bị thừa.
Do đó, phân tích mức độ liên quan có thể được thực hiện trên dữ liệu để xóa một số thuộc tính không liên quan hoặc dư thừa khỏi quy trình học. Trong học máy, bước này được gọi là lựa chọn tính năng. Nó chứa các thuộc tính như vậy có thể làm chậm và có thể làm sai bước học.
Một cách chính xác, thời gian được sử dụng để phân tích mức độ phù hợp, khi được chèn vào thời gian được sử dụng để học từ tập hợp con tính năng "giảm" kết quả và phải ít hơn thời gian được sử dụng để học từ tập hợp tính năng ban đầu. Do đó, phân tích như vậy có thể giúp tăng hiệu quả phân loại và khả năng mở rộng.
-
Chuyển đổi dữ liệu - Dữ liệu có thể được tổng quát hóa thành một cách tiếp cận ở cấp độ lớn hơn. Hệ thống phân cấp khái niệm có thể được sử dụng cho những mục tiêu này. Điều này đặc biệt hữu ích đối với các thuộc tính có giá trị liên tục. Ví dụ:các giá trị toán học cho thu nhập thuộc tính có thể được tổng quát hóa thành trường rời rạc bao gồm thấp, trung bình và cao. Tương tự như vậy, các thuộc tính có giá trị danh nghĩa, chẳng hạn như đường phố, có thể được khái quát hóa thành các khái niệm cấp lớn hơn, chẳng hạn như thành phố.
Bởi vì tổng quát hóa rút ngắn dữ liệu đào tạo ban đầu, ít hoạt động đầu vào / đầu ra hơn có thể được đưa vào trong quá trình học. Dữ liệu cũng có thể được chuẩn hóa, đặc biệt khi mạng nơ-ron hoặc kỹ thuật chứa các phép đo khoảng cách được sử dụng trong bước học tập.
Chuẩn hóa bao gồm điều chỉnh tỷ lệ tất cả các giá trị cho một thuộc tính nhất định để chúng giảm xuống bên trong một khu vực cụ thể nhỏ, bao gồm -1,0 đến 1,0 hoặc 0 đến 1,0. Ví dụ:trong các cách tiếp cận áp dụng phép đo khoảng cách này, điều này có thể tránh các thuộc tính có phạm vi cao ban đầu (chẳng hạn như thu nhập) từ