Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Thách thức chính là phân tích dữ liệu để trích xuất dữ liệu thiết yếu có thể được sử dụng để giải quyết một vấn đề hoặc cho sự phát triển của công ty. Có nhiều công cụ và kỹ thuật năng động có sẵn để khai thác dữ liệu và khám phá khả năng phán đoán tốt hơn từ nó.
Có nhiều kỹ thuật khai thác dữ liệu khác nhau như sau -
Phân loại - Phân loại là một kỹ thuật khai thác dữ liệu tạo ra các phần tử của một tập hợp dữ liệu để hỗ trợ việc dự đoán và phân tích hiệu quả hơn. Có một số phương pháp nhằm tạo ra hiệu quả phân tích các tập dữ liệu rất lớn.
Phân loại là một trong những nhiệm vụ quan trọng nhất trong khai thác dữ liệu. Nó đề cập đến một quá trình gán các nhãn lớp được xác định trước cho các cá thể dựa trên các thuộc tính của chúng. Có một sự giống nhau giữa phân loại và phân cụm, trông thì giống nhau, nhưng nó lại khác. Sự khác biệt chính giữa phân loại và phân nhóm là phân loại liên quan đến việc phân cấp các phần tử theo tư cách thành viên của chúng trong các nhóm được xác định trước.
Phân nhóm - Giai đoạn kết hợp một tập hợp các đối tượng vật lý hoặc trừu tượng thành các lớp của các đối tượng tương tự được gọi là phân cụm. Cụm là một tập hợp các đối tượng dữ liệu giống nhau trong cùng một cụm và khác biệt với các đối tượng trong các cụm khác. Một nhóm các đối tượng dữ liệu có thể được coi là một nhóm trong một số ứng dụng. Phân tích cụm là một hoạt động thiết yếu của con người.
Hồi quy −Các phương pháp tiếp cận này được sử dụng để dự báo giá trị của một biến phản hồi (phụ thuộc) từ một hoặc nhiều biến dự báo (độc lập) trong đó các biến là số. Có một số dạng hồi quy, bao gồm tuyến tính, nhiều, trọng số, đa thức, không tham số và mạnh mẽ (các kỹ thuật mạnh mẽ có lợi khi lỗi không thỏa mãn điều kiện bình thường hoặc khi dữ liệu bao gồm các giá trị ngoại lệ đáng kể).
Phát hiện bên ngoài - Loại kỹ thuật khai thác dữ liệu này liên quan đến việc quan sát các mục dữ liệu trong tập dữ liệu, không khớp với một mẫu dự kiến hoặc hành vi mong đợi. Kỹ thuật này có thể được sử dụng trong các lĩnh vực khác nhau như xâm nhập, phát hiện, phát hiện gian lận, v.v. Nó còn được gọi là Phân tích ngoại lệ hoặc khai thác ngoại lệ.
Mẫu tuần tự - Mẫu tuần tự là một kỹ thuật khai phá dữ liệu chuyên dùng để tính toán dữ liệu tuần tự để tìm ra các mẫu tuần tự. Nó bao gồm việc tìm kiếm các chuỗi con thú vị trong một tập hợp các trình tự, trong đó tỷ lệ của một chuỗi có thể được đo lường theo một số yếu tố như độ dài, tần suất xuất hiện, v.v.