Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các kỹ thuật của sự riêng biệt hóa và tạo thứ bậc khái niệm cho dữ liệu phân loại là gì?

Dữ liệu phân loại là dữ liệu rời rạc. Thuộc tính phân loại có một số lượng cố định các giá trị riêng biệt, không có trình tự giữa các giá trị liên quan đến khu vực địa lý, loại công việc và loại mục. Có nhiều phương pháp khác nhau để tạo phân cấp khái niệm cho dữ liệu phân loại như sau -

  • Đặc tả thứ tự từng phần của các thuộc tính một cách rõ ràng ở cấp giản đồ bởi người dùng hoặc chuyên gia - Phân cấp khái niệm cho các thuộc tính phân loại hoặc kích thước nói chung chứa một nhóm các thuộc tính. Người dùng hoặc chuyên gia có thể chỉ cần đại diện cho một hệ thống phân cấp khái niệm bằng cách xác định thứ tự một phần hoặc toàn bộ các thuộc tính ở cấp giản đồ.

Ví dụ:cơ sở dữ liệu quan hệ hoặc vùng thứ nguyên của kho dữ liệu có thể bao gồm nhóm thuộc tính sau như đường phố, thành phố, tỉnh hoặc bang và quốc gia. Hệ thống phân cấp có thể được biểu diễn bằng cách xác định tổng thứ tự giữa các thuộc tính này ở cấp giản đồ, bao gồm đường phố

  • Đặc tả một phần của hệ thống phân cấp bằng cách nhóm dữ liệu rõ ràng - Đây là định nghĩa thủ công của một phần của hệ thống phân cấp khái niệm. Trong một cơ sở dữ liệu cao, sẽ không thực tế nếu biểu diễn toàn bộ hệ thống phân cấp khái niệm bằng cách liệt kê giá trị rõ ràng. Ngược lại, nó chỉ có thể đại diện cho các nhóm rõ ràng cho một phần nhỏ dữ liệu cấp trung gian.

  • Đặc điểm kỹ thuật của một tập hợp các thuộc tính, nhưng không phải thứ tự một phần của chúng - Người dùng có thể mô tả một tập hợp các thuộc tính tạo thành một hệ thống phân cấp khái niệm, nhưng loại bỏ việc trình bày rõ ràng thứ tự từng phần của chúng. Hệ thống có thể cố gắng tự động tạo thứ tự thuộc tính để xây dựng một hệ thống phân cấp khái niệm có ý nghĩa.

Dựa trên quan sát này, một hệ thống phân cấp khái niệm có thể được tạo tự động dựa trên nhiều giá trị riêng biệt cho mỗi thuộc tính trong tập thuộc tính đã cho. Thuộc tính có các giá trị khác biệt nhất nằm ở cấp thấp nhất của hệ thống phân cấp. Thuộc tính có nhiều giá trị khác biệt càng thấp thì thuộc tính càng cao trong hệ thống phân cấp khái niệm đã tạo. Quy tắc heuristic này hoạt động tốt trong một số trường hợp. Người dùng hoặc chuyên gia có thể sử dụng một số hoán đổi hoặc điều chỉnh cấp cục bộ khi cần thiết sau khi phân tích hệ thống phân cấp đã tạo.

  • Đặc điểm kỹ thuật của chỉ một phần thuộc tính - Người dùng có thể có một ý tưởng mơ hồ về những gì bắt buộc phải có trong hệ thống phân cấp, ví dụ:tên người dùng chỉ có thể chỉ định họ và tên và không bao gồm tên đệm. Hệ thống phân cấp được chỉ định một phần như vậy được quản lý bằng cách cài đặt ngữ nghĩa dữ liệu trong thiết kế cơ sở dữ liệu để ghim các thuộc tính lại với nhau bằng kết nối ngữ nghĩa nhanh chóng.