Mô hình tuyến tính tổng quát là gì?

Mô hình tuyến tính tổng quát xác định thẩm quyền lý thuyết mà hồi quy tuyến tính có thể được sử dụng để mô hình hóa các biến phản ứng phân loại. Trong các mô hình tuyến tính tổng quát, phương sai của biến phản hồi, y, là một hàm của giá trị trung bình của y, không giống như trong hồi quy tuyến tính, trong đó phương sai của y là không đổi.

Mô hình tuyến tính tổng quát (GLM) là sự mở rộng của các mô hình tuyến tính truyền thống. Thuật toán này phù hợp với các mô hình tuyến tính tổng quát với thông tin bằng cách tối đa hóa khả năng logli. Hình phạt ròng đàn hồi có thể được sử dụng để chính quy hóa tham số. Việc tính toán điều chỉnh mô hình là song song, hoàn toàn nhanh chóng và hoàn toàn phù hợp với các mô hình có số lượng dự đoán xác định với các hệ số khác không.

Có hai loại mô hình tuyến tính tổng quát hóa như hồi quy logistic và hồi quy Poisson. Hồi quy logistic mô hình hóa xác suất của các sự kiện khác nhau xuất hiện dưới dạng một hàm tuyến tính của một nhóm các biến dự báo. Dữ liệu đếm thường xuyên hiển thị phân phối Poisson và thường được mô hình hóa bằng cách sử dụng hồi quy Poisson.

Mô hình tuyến tính lôgic phân bố xác suất đa chiều rời rạc chính xác. Chúng có thể được sử dụng để tính toán giá trị xác suất liên quan đến các ô khối dữ liệu. Ví dụ:giả sử dữ liệu đã cho đó cho các thuộc tính thành phố, mặt hàng, năm và doanh số bán hàng. Trong cách tiếp cận log-tuyến tính, tất cả các thuộc tính nên được phân loại và do đó các thuộc tính có giá trị liên tục (như bán hàng) nên được loại bỏ.

Phương pháp này có thể được sử dụng để tính xác suất của mỗi ô trong khối lập phương cơ sở 4-D cho các thuộc tính đã cho, phụ thuộc vào khối lập phương 2-D cho thành phố và mục, thành phố và năm, thành phố và doanh số và khối lập phương 3-D cho mặt hàng, năm và doanh số bán hàng. Trong phương pháp này, phương pháp lặp lại có thể được sử dụng để tạo các khối dữ liệu chuỗi cao hơn từ các khối lowerorder.

Phương pháp này mở rộng quy mô tốt để cho phép nhiều thứ nguyên. Ngoài dự đoán, mô hình log-tuyến tính có lợi cho việc nén dữ liệu (vì các khối lập phương nhỏ hơn thường chiếm ít diện tích hơn khối lập phương cơ sở) và làm mịn dữ liệu (vì tính toán ô trong các khối lập phương bậc nhỏ hơn ít phụ thuộc vào các biến thể lấy mẫu hơn ô tính toán trong khối cơ sở).

Quy nạp cây quyết định có thể phù hợp để dự đoán các giá trị liên tục (có thứ tự), thay vì nhãn lớp. Có hai loại cây là cây hồi quy dự đoán và cây mô hình. Cây hồi quy được đề xuất như một phần tử của hệ thống học tập CART.

Mỗi lá cây hồi quy đều lưu một dự đoán có giá trị liên tục, là giá trị trung bình của thuộc tính được dự đoán cho các bộ đào tạo nắm được lá đó. Ngược lại, trong cây mô hình, mỗi lá ảnh hưởng đến một mô hình hồi quy và một phương trình tuyến tính đa biến cho thuộc tính được dự đoán. Cây hồi quy và mô hình ảnh hưởng đến hiệu quả hơn hồi quy tuyến tính khi dữ liệu không được xác định rõ bằng mô hình tuyến tính đơn giản.