Phân tích thành phần chính là một thuật toán học tập không giám sát được sử dụng để giảm kích thước trong học máy. Đây là một quá trình thống kê biến các quan sát về các đối tượng tương quan thành một tập hợp các đối tượng địa lý không tương quan tuyến tính với sự hỗ trợ của dữ liệu trực giao. Các tính năng mới được chuyển đổi này được gọi là Thành phần chính.
Nó là một công cụ nổi tiếng được sử dụng để phân tích dữ liệu khám phá và mô hình dự đoán. Đó là một cách tiếp cận để tạo ra một thiết kế mạnh mẽ từ tập dữ liệu đã cho bằng cách giảm các phương sai.
PCA hoạt động bằng cách xử lý phương sai của từng thuộc tính vì thuộc tính cao cho thấy sự phân chia giữa các lớp và do đó nó làm giảm số chiều. Một số ứng dụng trong thế giới thực của PCA là xử lý hình ảnh, hệ thống khuyến nghị phim, tối ưu hóa việc phân bổ công suất trong các kênh truyền thông khác nhau. Đây là một phương pháp trích xuất tính năng, vì vậy nó bao gồm các biến quan trọng và loại bỏ biến ít quan trọng nhất.
Phân tích các thành phần chính còn được gọi là phương pháp Karhunen-Loeve, hoặc K-L. Nó có thể tìm kiếm k vectơ trực giao n chiều có thể được sử dụng tốt nhất để biểu diễn dữ liệu, trong đó k ≤ n. Dữ liệu ban đầu được chiếu lên một khu vực nhỏ hơn nhiều, dẫn đến giảm kích thước. Nó kết nối bản chất của các thuộc tính bằng cách tạo ra một tập hợp các biến thay thế nhỏ hơn. Dữ liệu ban đầu sau đó có thể được chiếu vào tập hợp nhỏ hơn này.
Có các bước sau được sử dụng trong PCA như sau -
-
Dữ liệu đầu vào được chuẩn hóa để mỗi thuộc tính nằm trong một phạm vi tương tự. Bước này giúp đảm bảo rằng các thuộc tính có miền lớn sẽ không lấn át các thuộc tính có miền nhỏ hơn.
-
PCA đánh giá k vectơ trực chuẩn hỗ trợ cơ sở cho dữ liệu đầu vào chuẩn hóa. Đây là các vectơ đơn vị mà mỗi điểm theo phương vuông góc với các vectơ khác. Các vectơ này được định nghĩa là các thành phần chính. Dữ liệu đầu vào là một tập hợp tuyến tính của các thành phần chính.
-
Các thành phần chính được sắp xếp theo thứ tự giảm dần “ý nghĩa” hoặc sức mạnh. Các thành phần chính về cơ bản đóng vai trò như một tập hợp các trục mới cho dữ liệu, cung cấp thông tin quan trọng về phương sai. Nghĩa là, các trục được sắp xếp sao cho trục đầu tiên hiển thị phương sai nhiều nhất trong số dữ liệu, trục thứ hai hiển thị phương sai cao nhất tiếp theo, v.v.
-
Bởi vì các thành phần được sắp xếp theo thứ tự giảm dần của “mức độ quan trọng”, kích thước của dữ liệu có thể được giảm xuống bằng cách loại bỏ các thành phần yếu hơn, cụ thể là những thành phần có phương sai thấp. Bằng cách sử dụng các thành phần chính mạnh nhất, sẽ có thể tạo lại một số liệu gần đúng tốt của dữ liệu gốc.