Tổng quát hóa dữ liệu tóm tắt dữ liệu bằng cách thay thế các giá trị cấp tương đối (chẳng hạn như giá trị số cho độ tuổi thuộc tính) bằng các khái niệm cấp cao hơn (chẳng hạn như trẻ, trung gian và cao cấp). Với số lượng lớn dữ liệu được lưu trong cơ sở dữ liệu, sẽ rất hữu ích nếu bạn có thể xác định các khái niệm bằng các thuật ngữ ngắn gọn và súc tích bằng các phương pháp trừu tượng tổng quát (thay vì thấp).
Nó cho phép các tập dữ liệu được tổng quát hóa ở nhiều mức độ trừu tượng, tạo điều kiện thuận lợi cho người dùng trong việc kiểm tra hành vi chung của dữ liệu. Ví dụ:với cơ sở dữ liệu AllElectronics, thay vì kiểm tra các giao dịch của khách hàng đơn lẻ, người quản lý bán hàng có thể thích xem dữ liệu được tổng quát hóa ở các cấp cao hơn, bao gồm tóm tắt theo nhóm người dùng theo vùng địa lý, tần suất mua hàng cho mỗi nhóm và thu nhập của người dùng. Điều này dẫn chúng ta đến khái niệm về mô tả khái niệm, là một dạng tổng quát hóa dữ liệu.
Khái niệm thường được định nghĩa là tập hợp dữ liệu bao gồm người mua thường xuyên, sinh viên tốt nghiệp, v.v. Là một nhiệm vụ khai thác dữ liệu, mô tả khái niệm không phải là một liệt kê dữ liệu đơn giản. Thay vào đó, mô tả khái niệm tạo ra mô tả để mô tả và so sánh dữ liệu. Nó còn được gọi là mô tả lớp, khi khái niệm được định nghĩa một lớp đối tượng.
Đặc tính hóa hỗ trợ tóm tắt ngắn gọn và súc tích của tập dữ liệu đã cho, trong khi so sánh khái niệm hoặc lớp (còn được gọi là phân biệt) hỗ trợ mô tả so sánh hai hoặc nhiều tập dữ liệu. Có những trường hợp sau như sau -
Tổng hợp và kiểu dữ liệu phức tạp - Kho dữ liệu và công cụ OLAP phụ thuộc vào mô hình dữ liệu đa chiều xem thông tin ở dạng khối dữ liệu, bao gồm các thứ nguyên (hoặc thuộc tính) và các thước đo (dịch vụ tổng hợp).
Tuy nhiên, một số hệ thống OLAP hiện tại giới hạn thứ nguyên trong các bản ghi không phải số và các thước đo đối với thông tin số. Cơ sở dữ liệu có thể liên quan đến các thuộc tính của một số kiểu dữ liệu, chẳng hạn như số, không phải số, không gian, văn bản hoặc hình ảnh, những thuộc tính này phải liên quan đến mô tả khái niệm.
Người dùng kiểm soát so với tự động hóa - Xử lý phân tích trực tuyến trong kho dữ liệu là giai đoạn do người dùng kiểm soát. Việc lựa chọn các thứ nguyên và phần mềm của các dịch vụ OLAP, bao gồm xem chi tiết, tổng hợp, cắt và phân loại, thường do người dùng hướng dẫn và quản lý.
Mặc dù điều khiển trong một số hệ thống OLAP thân thiện với người dùng, nhưng người dùng cần hiểu rõ nhất về tầm quan trọng của từng thứ nguyên. Hơn nữa, nó có thể tìm thấy một mô tả thông tin thỏa đáng, người dùng có thể được yêu cầu xác định một chuỗi dài các hoạt động OLAP.
Mong muốn có một giai đoạn tự động hơn hỗ trợ người dùng quyết định thứ nguyên (hoặc thuộc tính) nào phải được đưa vào phân tích và mức độ mà tập dữ liệu đã cho phải được tổng quát hóa để tạo ra một bản tóm tắt thú vị về các bản ghi.