Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các kỹ thuật khai thác dữ liệu thống kê là gì?

Có nhiều kỹ thuật khai thác dữ liệu thống kê như sau -

Hồi quy - Các cách tiếp cận này được sử dụng để dự báo giá trị của một biến phản hồi (phụ thuộc) từ một hoặc nhiều biến dự báo (độc lập) trong đó các biến là số. Có một số dạng hồi quy, bao gồm tuyến tính, nhiều, trọng số, đa thức, không tham số và mạnh mẽ (các kỹ thuật mạnh mẽ có lợi khi lỗi không thỏa mãn điều kiện bình thường hoặc khi dữ liệu bao gồm các giá trị ngoại lệ đáng kể).

Mô hình tuyến tính tổng quát - Các mô hình này và sự tổng quát hóa của chúng (các mô hình cộng tổng quát), cho phép một biến phản ứng phân loại (hoặc một số biến đổi của nó) được liên kết với một tập hợp các biến dự báo giống như mô hình hóa một biến phản hồi số sử dụng hồi quy tuyến tính. Mô hình tuyến tính tổng quát chứa hồi quy logistic và hồi quy Poisson.

Phân tích phương sai - Các phương pháp này phân tích dữ liệu thực nghiệm cho hai hoặc nhiều quần thể được xác định bởi một biến phản ứng số và một hoặc nhiều biến phân loại (nhân tố). Nói chung, một bài toán ANOVA (phân tích phương sai một nhân tố) có so sánh k tập hợp hoặc định nghĩa xử lý để quyết định xem ít nhất hai phương sai có khác nhau hay không.

Mô hình hiệu ứng hỗn hợp - Các mô hình này dùng để phân tích dữ liệu được nhóm — dữ liệu có thể được phân loại theo một hoặc nhiều biến nhóm. Chúng thường xác định mối quan hệ giữa một biến phản hồi và một số biến số trong dữ liệu được kết hợp theo một hoặc nhiều yếu tố. Các lĩnh vực ứng dụng điển hình như dữ liệu đa cấp, dữ liệu đo lặp lại, thiết kế khối và dữ liệu dọc.

Phân tích nhân tố - Phương pháp này có thể xác định những biến nào được hợp nhất để tạo thành một nhân tố nhất định. Ví dụ, đối với một số dữ liệu tâm thần, việc đo lường trực tiếp một yếu tố cụ thể được quan tâm (bao gồm cả trí thông minh) là không khả thi; tuy nhiên, nó có thể áp dụng để đo các đại lượng khác (bao gồm cả điểm kiểm tra của học sinh) phản ánh yếu tố quan tâm. Ở đây, không có biến nào được chỉ định là phụ thuộc.

Phân tích phân biệt - Phương pháp này có thể dự đoán một biến phản ứng phân loại. Không giống như các mô hình tuyến tính tổng quát, nó ngụ ý rằng các biến độc lập tuân theo phân phối chuẩn đa biến.

Quá trình cố gắng xác định một số hàm phân biệt (tập tuyến tính của các biến độc lập) phân biệt giữa các nhóm được đại diện bởi biến phản hồi. Phân tích phân biệt đối xử thường được sử dụng trong khoa học xã hội.

Phân tích chuỗi thời gian - Có một số kỹ thuật thống kê để phân tích dữ liệu chuỗi thời gian, bao gồm các phương pháp tự động hồi quy, mô hình ARIMA đơn biến (đường trung bình động tích hợp tự động hồi quy) và mô hình chuỗi thời gian bộ nhớ dài.

Phân tích tỷ lệ sống sót - Có một số phương pháp thống kê được thiết lập tốt để phân tích tỷ lệ sống sót. Những phương pháp này ban đầu được thiết kế để dự báo xác suất mà một bệnh nhân đang điều trị y tế có thể sống sót ít nhất đến thời điểm t.

Kiểm soát chất lượng - Một số thống kê có thể được sử dụng để chuẩn bị các biểu đồ để kiểm soát chất lượng, bao gồm biểu đồ Shewhart và biểu đồ CUSUM (cả hai đều hiển thị thống kê tóm tắt của nhóm). Các thống kê này chứa giá trị trung bình, độ lệch chuẩn, phạm vi, số lượng, đường trung bình động, độ lệch chuẩn di chuyển và phạm vi di chuyển.