Computer >> Máy Tính >  >> Lập trình >> Lập trình

AOI là gì?

AOI là viết tắt của Attribute-Oriented Induction. Phương pháp quy nạp hướng thuộc tính để mô tả khái niệm lần đầu tiên được đề xuất vào năm 1989, một vài năm trước khi ra đời phương pháp khối dữ liệu. Cách tiếp cận khối dữ liệu về cơ bản dựa trên các chế độ xem cụ thể hóa của dữ liệu, thường đã được tính toán trước trong kho dữ liệu.

Nói chung, nó thực hiện tổng hợp ngoại tuyến trước đó OLAP hoặc truy vấn khai thác dữ liệu được gửi để xử lý. Nói cách khác, phương pháp tiếp cận quy nạp hướng thuộc tính nói chung là phương pháp phân tích dữ liệu trực tuyến, dựa trên tổng quát hóa, hướng truy vấn.

Ý tưởng chung của quy nạp hướng thuộc tính là trước tiên thu thập dữ liệu liên quan đến nhiệm vụ bằng cách sử dụng truy vấn cơ sở dữ liệu và sau đó thực hiện tổng quát hóa dựa trên việc kiểm tra số lượng các giá trị riêng biệt của từng thuộc tính trong tập hợp dữ liệu có liên quan.

Tổng quát hóa được thực hiện bằng cách loại bỏ thuộc tính hoặc tổng quát hóa thuộc tính. Tổng hợp được thực hiện bằng cách kết hợp các bộ giá trị tổng quát giống hệt nhau và tích lũy số lượng cụ thể của chúng. Điều này làm giảm kích thước của tập dữ liệu tổng quát. Liên kết tổng quát thu được có thể được ánh xạ thành nhiều dạng để trình bày cho người dùng, bao gồm cả biểu đồ hoặc quy tắc.

Quá trình quy nạp hướng thuộc tính như sau -

  • Đầu tiên, việc tập trung dữ liệu phải được thực hiện trước khi quy nạp theo hướng thuộc tính. Bước này tương ứng với mô tả của các bản ghi liên quan đến nhiệm vụ (tức là dữ liệu để phân tích). Dữ liệu được thu thập dựa trên dữ liệu được hỗ trợ trong truy vấn khai thác dữ liệu.

  • Bởi vì truy vấn khai thác dữ liệu thường chỉ liên quan đến một phần của cơ sở dữ liệu, việc chọn tập hợp dữ liệu có liên quan không chỉ giúp khai thác hiệu quả hơn mà còn thay đổi kết quả đáng kể hơn so với khai thác toàn bộ cơ sở dữ liệu.

  • Nó có thể được chỉ định tập hợp các thuộc tính có liên quan (tức là các thuộc tính để khai thác, như được chỉ ra trong DMQL với sự liên quan đến điều khoản) có thể khó khăn cho người dùng. Người dùng chỉ có thể chọn một vài thuộc tính quan trọng, trong khi thiếu những thuộc tính khác cũng có thể đóng vai trò trong biểu diễn.

  • Ví dụ:giả sử rằng nơi sinh thứ nguyên được xác định bởi thuộc tính thành phố, tỉnh hoặc tiểu bang và quốc gia. Nó có thể cho phép tổng quát hóa về thứ nguyên nơi sinh, các thuộc tính khác xác định thứ nguyên này cũng nên được bao gồm.

  • Nói cách khác, việc hệ thống tự động liên quan đến tỉnh hoặc bang và quốc gia vì các thuộc tính liên quan cho phép thành phố được khái quát hóa thành các cấp khái niệm lớn hơn này trong giai đoạn giới thiệu.

  • Ở khía cạnh khác, giả sử rằng người dùng có thể đã đưa vào quá nhiều thuộc tính bằng cách chỉ định tất cả các thuộc tính có thể có bằng mệnh đề “liên quan đến *”. Trong trường hợp này, tất cả các thuộc tính trong mối quan hệ được chỉ định bởi mệnh đề from sẽ được đưa vào phân tích.

  • Một số thuộc tính không có khả năng đóng góp vào một biểu diễn thú vị. Phương pháp phân tích dựa trên tương quan hoặc dựa trên entropy có thể được sử dụng để thực hiện phân tích mức độ liên quan của thuộc tính và lọc ra các thuộc tính không liên quan hoặc có liên quan yếu về mặt thống kê từ quá trình khai thác mô tả.