Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các kỹ thuật của sự riêng biệt hóa và tạo hệ thống phân cấp khái niệm cho dữ liệu số là gì?

Việc xác định phân cấp khái niệm cho các thuộc tính số là phức tạp và tốn nhiều công sức vì sự đa dạng rộng rãi của phạm vi dữ liệu áp dụng và sự cập nhật thường xuyên của các giá trị dữ liệu. Có nhiều phương pháp tạo phân cấp khái niệm cho dữ liệu số như sau -

Thùng rác - Binning là một kỹ thuật chia nhỏ từ trên xuống dựa trên một số lượng thùng xác định. Các phương pháp này cũng được sử dụng như các phương pháp tùy biến để giảm số lượng và tạo hệ thống phân cấp khái niệm. Các kỹ thuật này có thể được sử dụng đệ quy cho các phân vùng kết quả để tạo phân cấp khái niệm. Binning không sử dụng dữ liệu lớp và do đó, là một kỹ thuật tùy biến không được giám sát. Nó dễ bị ảnh hưởng bởi số lượng thùng do người dùng chỉ định và sự hiện diện của các yếu tố ngoại lệ.

Phân tích biểu đồ - Giống như binning, phân tích biểu đồ là một kỹ thuật tùy biến không được giám sát bởi vì nó không sử dụng dữ liệu lớp. Biểu đồ phân vùng các giá trị cho một thuộc tính, A, thành các phạm vi riêng biệt được gọi là nhóm. Ví dụ:trong biểu đồ có chiều rộng bằng nhau, các giá trị được phân chia thành các phân vùng hoặc phạm vi có kích thước bằng nhau cho giá, trong đó mỗi nhóm có chiều rộng là $ 10). Với biểu đồ tần suất bằng nhau, các giá trị được phân vùng sao cho mỗi phân vùng chứa cùng một số bộ dữ liệu.

Thuật toán phân tích biểu đồ có thể được áp dụng đệ quy cho từng phân vùng để tự động tạo hệ thống phân cấp khái niệm đa cấp, với thủ tục kết thúc khi đạt đến số lượng cấp khái niệm được chỉ định trước.

Kích thước khoảng thời gian tối thiểu cũng có thể được sử dụng cho mỗi cấp độ để điều khiển quy trình đệ quy. Điều này chỉ định chiều rộng tối thiểu của một phân vùng hoặc số lượng giá trị tối thiểu cho mỗi phân vùng ở mỗi cấp.

Tiết kiệm dựa trên Entropy - Entropy thường được sử dụng các biện pháp tùy biến. Nó lần đầu tiên được giới thiệu bởi Claude Shannon trong công trình tiên phong của họ về lý thuyết thông tin và khái niệm thu được thông tin.

Tùy ý hóa dựa trên Entropy là một kỹ thuật tách từ trên xuống có giám sát. Nó khám phá dữ liệu phân phối lớp trong quá trình tính toán và xác định các điểm phân tách (giá trị dữ liệu để phân vùng một phạm vi thuộc tính).

Phân tích cụm - Phân tích cụm là một phương pháp phân tích dữ liệu phổ biến. Một thuật toán phân cụm có thể được áp dụng để tùy chỉnh thuộc tính số, A, bằng cách phân chia các giá trị của A thành các cụm hoặc nhóm.

Phân cụm xem xét sự phân bố của A, cũng như mức độ gần nhau của các điểm dữ liệu và do đó có thể tạo ra kết quả tùy chỉnh chất lượng cao. Phân cụm có thể được sử dụng để tạo phân cấp khái niệm cho A bằng cách tuân theo chiến lược tách từ trên xuống hoặc chiến lược hợp nhất từ ​​dưới lên, trong đó mỗi cụm tạo thành một nút của phân cấp khái niệm.