Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phương pháp luận của khai thác dữ liệu thống kê là gì?

Trong kỹ thuật khai thác dữ liệu thống kê, nó được tạo ra để xử lý hiệu quả lượng lớn dữ liệu thường đa chiều và có thể thuộc một số loại phức tạp.

Có một số phương pháp thống kê được thiết lập tốt để phân tích dữ liệu, đặc biệt là đối với dữ liệu số. Những phương pháp này đã được sử dụng rộng rãi cho các hồ sơ khoa học (ví dụ:hồ sơ từ các thí nghiệm trong vật lý, kỹ thuật, sản xuất, tâm lý học và y học) và thông tin từ kinh tế và khoa học xã hội.

Có nhiều phương pháp khác nhau về khai thác dữ liệu thống kê như sau -

Hồi quy - Nói chung, các kỹ thuật này được sử dụng để dự báo giá trị của một biến phản hồi (phụ thuộc) từ các biến dự báo mới (độc lập), trong đó các biến là số. Có một số dạng hồi quy, bao gồm tuyến tính, nhiều, trọng số, đa thức, không tham số và mạnh mẽ (các phương pháp mạnh mẽ có lợi khi lỗi giảm xuống để đáp ứng các điều kiện bình thường hoặc khi dữ liệu bao gồm các giá trị ngoại lệ quan trọng).

Mô hình tuyến tính tổng quát - Các mô hình này và sự tổng quát hóa của chúng (các mô hình cộng tổng quát), cho phép biến phản ứng phân loại (danh nghĩa) (một số biến đổi của nó) được liên kết với một tập hợp các biến dự báo theo cách tương tự như mô hình hóa biến phản hồi toán học sử dụng hồi quy tuyến tính . Mô hình tuyến tính tổng quát liên quan đến hồi quy logistic và hồi quy Poisson.

Phân tích phương sai - Phương pháp này phân tích thông tin thực nghiệm cho hai hoặc nhiều quần thể được xác định bởi một biến phản ứng số và các biến phân loại mới (nhân tố). Nói chung, một bài toán ANOVA (phân tích phương sai một nhân tố) có so sánh k tập hợp hoặc định nghĩa xử lý để quyết định xem ít nhất hai phương sai có khác nhau hay không.

Mô hình hiệu ứng hỗn hợp - Các mô hình này dùng để khám phá dữ liệu được nhóm — dữ liệu có thể được phân loại theo một hoặc nhiều biến nhóm. Chúng thường xác định các mối quan hệ giữa một biến phản hồi và một số biến số trong dữ liệu được kết hợp theo một hoặc nhiều yếu tố. Có một số lĩnh vực ứng dụng như dữ liệu đa cấp, dữ liệu đo lường lặp lại, thiết kế khối và dữ liệu dọc.

Phân tích nhân tố - Phương pháp này có thể xác định những biến nào được kết hợp để tạo ra một nhân tố nhất định. Ví dụ, đối với một số dữ liệu tâm thần, nó không thể áp dụng để tính toán trực tiếp một yếu tố cụ thể được quan tâm (ví dụ:trí thông minh); tuy nhiên, nó có thể áp dụng để đo các đại lượng khác phản ánh yếu tố quan tâm. Do đó, không có biến nào được coi là phụ thuộc.

Phân tích phân biệt đối xử - Kỹ thuật này có thể dự đoán một biến phản ứng phân loại. Không giống như các mô hình tuyến tính tổng quát, nó coi rằng các biến độc lập tuân theo phân phối chuẩn đa biến. Quá trình cố gắng quyết định một số hàm phân biệt (tập tuyến tính của các biến độc lập) phân biệt giữa các nhóm được đại diện bởi biến phản hồi. Phân tích phân biệt đối xử thường được sử dụng trong khoa học xã hội.

Phân tích tỷ lệ sống sót - Có nhiều phương pháp thống kê được thiết lập tốt để phân tích tỷ lệ sống sót. Những kỹ thuật này ban đầu được thiết kế để dự báo xác suất mà một bệnh nhân trải qua phân tích y tế có thể sống sót ít nhất đến thời điểm t.

Kiểm soát chất lượng - Có nhiều số liệu thống kê được sử dụng để chuẩn bị các biểu đồ để kiểm soát chất lượng, bao gồm biểu đồ Shewhart và biểu đồ CUSUM. Những thống kê này liên quan đến giá trị trung bình, độ lệch chuẩn, phạm vi, số lượng, đường trung bình động, độ lệch chuẩn di chuyển và phạm vi di chuyển.