Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các loại mô hình khai thác dữ liệu là gì?

Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.

Kỹ thuật khai thác dữ liệu có thể được sử dụng để tạo ba loại mô hình cho ba loại nhiệm vụ như lập hồ sơ mô tả, lập hồ sơ theo hướng và dự đoán.

Hồ sơ mô tả - Mô hình mô tả xác định những gì có trong bản ghi. Đầu ra là nhiều biểu đồ hoặc số hoặc đồ họa xác định điều gì đang xảy ra. Kiểm tra giả thuyết làm cho các mô hình mô tả. Nói cách khác, cả định hướng và dự đoán đều có mục tiêu khi mô hình đang được xây dựng.

Trong các mô hình cấu hình, tiêu điểm là từ một khung thời gian tương tự như đầu vào. Trong các mô hình dự đoán, tiêu điểm là từ khung thời gian tiếp theo. Dự đoán xác định các thiết kế khám phá trong dữ liệu từ một giai đoạn có khả năng xác định kết quả trong giai đoạn tiếp theo. Lý do để tăng cường sự khác biệt giữa lập hồ sơ và dự đoán là nó có mối liên hệ với phương pháp lập mô hình, đặc biệt là phân tích thời gian trong quá trình hình thành tập mô hình.

Hồ sơ được hướng dẫn - Lập hồ sơ là một cách tiếp cận quen thuộc đối với nhiều vấn đề. Nó không cần liên quan đến bất kỳ phân tích dữ liệu phức tạp nào. Ví dụ, khảo sát là một phương pháp phổ biến để xây dựng hồ sơ khách hàng. Bản khảo sát cho biết khách hàng và khách hàng tiềm năng trông như thế nào hoặc ít nhất là cách người trả lời khảo sát trả lời câu hỏi.

Tiểu sử thường dựa trên các biến nhân khẩu học, chẳng hạn như vị trí địa lý, giới tính và tuổi. Vì quảng cáo được bán theo cùng những biến số này, nên hồ sơ nhân khẩu học có thể chuyển trực tiếp thành chiến lược truyền thông.

Dự đoán - Hồ sơ sử dụng dữ liệu từ quá khứ để mô tả những gì đã xảy ra trong quá khứ. Dự đoán tiến thêm một bước nữa. Dự đoán sử dụng dữ liệu từ quá khứ để dự đoán những gì có thể xảy ra trong tương lai. Đây là cách sử dụng thông tin động.

Mặc dù mối tương quan giữa số dư lưu trữ thấp và quyền sở hữu CD không thể có lợi trong hồ sơ của người sở hữu CD, việc có số dư lưu trữ cao có khả năng (kết hợp với các chỉ số khác) là một yếu tố dự báo cho việc mua CD trong tương lai.

Việc xây dựng một mô hình dự đoán đòi hỏi phải có sự tách biệt về thời gian giữa các đầu vào hoặc yếu tố dự đoán của mô hình và đầu ra của mô hình, điều được dự đoán. Nếu phân vùng này không được hỗ trợ, mô hình sẽ không hoạt động.