Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các khái niệm cơ bản của khai phá dữ liệu là gì?

Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.

Có nhiều khái niệm khác nhau về khai thác dữ liệu như sau -

Phân loại - Phân loại là thủ tục khám phá một mô hình đại diện và phân biệt các lớp hoặc khái niệm dữ liệu, với mục tiêu là có thể sử dụng mô hình để dự đoán lớp của các đối tượng mà nhãn lớp là ẩn danh. Mô hình dẫn xuất dựa trên việc phân tích một nhóm các bản ghi huấn luyện (tức là các đối tượng dữ liệu có nhãn lớp quen thuộc).

Dự đoán - Dự đoán cũng giống như phân loại, ngoại trừ dự đoán, kết quả được trình bày sai trong tương lai.

Ví dụ về chức năng dự đoán trong kinh doanh và nghiên cứu bao gồm -

  • Nó có thể dự đoán giá trị của một cổ phiếu trong ba tháng tới.

  • Có thể dự đoán tỷ lệ tử vong do giao thông sẽ tăng lên trong năm tới nếu giới hạn tốc độ được nâng lên.

  • Có thể dự đoán đội chiến thắng trong Giải bóng chày thế giới mùa thu năm nay, dựa trên sự tương ứng với các số liệu thống kê của đội.

  • Có thể dự đoán liệu một phân tử xác định trong việc khám phá thuốc có bắt đầu tạo ra một loại thuốc mới hiệu quả về chi phí cho một công ty dược phẩm hay không.

Hệ thống khuyến nghị và quy tắc liên kết - Các quy tắc kết hợp, hoặc phân tích mối quan hệ, được thiết kế để tìm các mẫu liên kết chung như vậy giữa các mục trong cơ sở dữ liệu lớn. Các quy tắc có thể được sử dụng trong một số phương pháp. Ví dụ:các cửa hàng tạp hóa có thể sử dụng thông tin đó để đặt sản phẩm.

Họ có thể sử dụng các quy tắc cho khuyến mại hàng tuần hoặc cho các sản phẩm gói. Các quy tắc liên kết có nguồn gốc từ cơ sở dữ liệu bệnh viện về các triệu chứng của bệnh nhân trong các lần nhập viện liên tiếp có thể giúp tìm ra "triệu chứng nào tiếp nối với triệu chứng nào khác" để giúp dự đoán các triệu chứng trong tương lai cho bệnh nhân trở về.

Giảm dữ liệu - Khai thác dữ liệu được sử dụng với dữ liệu được chọn trong một cơ sở dữ liệu số lượng lớn. Khi quá trình phân tích và khai thác dữ liệu được hoàn thành trên một lượng lớn bản ghi thì sẽ mất rất nhiều thời gian để xử lý, điều này khiến việc này trở nên bất khả thi và không khả thi.

Nó có thể làm giảm thời gian xử lý phân tích dữ liệu, các kỹ thuật giảm dữ liệu được sử dụng để giảm bớt sự biểu diễn của tập dữ liệu có khối lượng nhỏ hơn nhiều bằng cách duy trì tính toàn vẹn của dữ liệu gốc. Bằng cách giảm dữ liệu, hiệu quả của quá trình khai thác dữ liệu được cải thiện, tạo ra kết quả phân tích tương tự.

Việc giảm dữ liệu nhằm mục đích xác định nó một cách gọn gàng hơn. Khi kích thước dữ liệu nhỏ hơn, việc sử dụng các thuật toán thuần thục và có chi phí tính toán cao sẽ dễ dàng hơn. Việc giảm dữ liệu có thể là về số lượng hàng (bản ghi) hoặc về số lượng cột (kích thước).