Kiểm tra giả thuyết là cách tiếp cận đơn giản nhất để tích hợp dữ liệu vào quy trình ra quyết định của công ty. Mục đích của việc kiểm tra giả thuyết là chứng minh hoặc bác bỏ những ý tưởng đã định trước và nó là một phần của hầu hết các nỗ lực khai thác dữ liệu.
Công cụ khai thác dữ liệu cung cấp dữ liệu trả về giữa các phương pháp, trước tiên nghĩ ra các mô tả khả thi cho hành vi quan sát được và để các giả thuyết đó ra lệnh tính toán dữ liệu.
Kiểm tra giả thuyết là điều mà các nhà khoa học và thống kê thường dành cả đời để làm. Giả thuyết là một lời giải thích được đề xuất mà giá trị của nó có thể được kiểm tra bằng cách phân tích dữ liệu. Thông tin như vậy có thể dễ dàng được thu thập bằng cách quan sát hoặc tạo ra thông qua một thử nghiệm, bao gồm cả việc gửi thư thử nghiệm.
Kiểm tra giả thuyết có giá trị nhất khi nó tiết lộ rằng các giả định hướng dẫn hành động của một tổ chức trong lĩnh vực công nghiệp là sai. Ví dụ:hãy xem xét rằng quảng cáo của một tổ chức phụ thuộc vào một số giả thuyết về thị trường mục tiêu cho một sản phẩm hoặc dịch vụ và đặc điểm của các câu trả lời. Cần kiểm tra xem những giả thuyết này có được tạo ra từ các phản hồi thực tế hay không.
Một cách tiếp cận là sử dụng các số gọi đến khác nhau trong các quảng cáo khác nhau và ghi lại số mà mỗi người phản hồi quay số. Sau đó, thông tin thu thập được trong cuộc gọi có thể được so sánh với hồ sơ dân số mà quảng cáo được thiết kế để tiếp cận.
Chìa khóa để tạo ra các giả thuyết là nhận được thông tin đầu vào đa dạng từ khắp tổ chức và cả bên ngoài tổ chức, nếu thích hợp. Thông thường, tất cả những gì cần thiết để bắt đầu dòng chảy ý tưởng là một tuyên bố rõ ràng về bản thân vấn đề — đặc biệt nếu đó là thứ mà trước đây chưa được công nhận là vấn đề.
Điều này xảy ra thường xuyên hơn người ta có thể cho rằng các vấn đề không được phát hiện vì chúng không được nắm bắt bằng các chỉ số đang được sử dụng để đánh giá hiệu suất của tổ chức.
Nếu một tổ chức luôn tính toán lực lượng bán hàng của mình dựa trên nhiều lần bán hàng mới được thực hiện mỗi tháng, thì nhân viên bán hàng có thể không bao giờ suy nghĩ nhiều về câu hỏi người dùng mới còn hoạt động trong bao lâu hoặc họ chi tiêu bao nhiêu trong suốt mối quan hệ với tổ chức.
Kiểm tra giả thuyết chắc chắn là hữu ích, nhưng sẽ có lúc nó không đủ. Các kỹ thuật khai thác dữ liệu được mô tả trong phần còn lại của cuốn sách này đều được thiết kế để học những điều mới bằng cách tạo các mô hình dựa trên dữ liệu.
Theo nghĩa chung nhất, mô hình là một lời giải thích hoặc mô tả về cách thức hoạt động của một thứ gì đó phản ánh thực tế đủ tốt để nó có thể được sử dụng để đưa ra suy luận về thế giới thực.