Computer >> Máy Tính >  >> Lập trình >> Lập trình

Tại sao sử dụng Hỗ trợ và Sự tin cậy trong khai thác dữ liệu?

Hỗ trợ là một biện pháp quan trọng bởi vì một quy tắc có mức hỗ trợ rất thấp có thể dễ dàng xuất hiện một cách tình cờ. Theo quan điểm kinh doanh, một quy tắc hỗ trợ thấp cũng khả thi vì nó không thể mang lại lợi nhuận khi nâng cao các mặt hàng mà người dùng hiếm khi mua cùng nhau.

Quy tắc kết hợp là một mô tả ngụ ý của dạng X → Y trong đó X và Y là các tập phổ biến rời rạc, tức là $ \ mathrm {X \ cap \:Y =\ phi} $. Độ bền của một quy tắc kết hợp có thể được tính toán dựa trên sự hỗ trợ và độ tin cậy của nó. Bộ phận hỗ trợ quyết định cách cung cấp quy tắc có thể truy cập được cho một tập dữ liệu nhất định, trong khi độ tin cậy quyết định tần suất các mục trong Y xuất hiện trong các giao dịch bao gồm X.

Độ tin cậy đo lường độ chính xác của suy luận được tạo ra bởi một quy tắc. Đối với dạng quy tắc nhất định X → Y, độ tin cậy càng lớn thì Y càng được chấp nhận trong các giao dịch bao gồm X. Độ tin cậy cũng hỗ trợ ước tính xác suất có điều kiện của Y cho X.

Kết quả phân tích liên kết phải được thực hiện cẩn thận. Suy luận được tạo ra bởi một quy tắc kết hợp về cơ bản không biểu thị quan hệ nhân quả. Thay vào đó, nó gợi ý một mối quan hệ đồng xuất hiện mạnh mẽ giữa các yếu tố trong tiền đề và hệ quả của quy tắc. Nhân quả Kiến thức cần thiết về các thuộc tính nhân quả và ảnh hưởng trong thông tin và thường chứa các mối quan hệ xuất hiện theo thời gian.

Vấn đề khai thác quy tắc kết hợp có thể được phát biểu như sau -

Khám phá quy tắc liên kết - Với một tập hợp các giao dịch T, hãy khám phá một số quy tắc có hỗ trợ ≥ minsup và độ tin cậy ≥ minconf, trong đó minsup và minconf là ngưỡng hỗ trợ và độ tin cậy tương đương.

Phương pháp brute-force cho các quy tắc liên kết khai thác là tính toán hỗ trợ và độ tin cậy cho mỗi quy tắc áp dụng. Phương pháp này rất tốn kém vì có một số quy tắc có thể được sao chép theo cấp số nhân từ một tập dữ liệu.

Một bước ban đầu để nâng cao việc triển khai các thuật toán khai thác quy tắc kết hợp là tách rời các yêu cầu hỗ trợ và độ tin cậy. Nếu tập phổ biến là số lẻ, do đó tất cả sáu quy tắc ứng cử viên có thể được loại bỏ trực tiếp mà không cần phải tính toán các giá trị tin cậy của chúng.

Do đó, một chiến lược phổ biến ngoài khơi bằng một số thuật toán khai thác quy tắc kết hợp là phân tách các vấn đề thành hai nhiệm vụ phụ chính -

Tạo tập hợp mục thường xuyên - Mục tiêu là khám phá một số tập vật phẩm cần một ngưỡng. Các tập phổ biến này được gọi là tập phổ biến.

Tạo quy tắc - Mục tiêu là trích xuất một số quy tắc có độ tin cậy cao từ các tập phổ biến được phát hiện ở bước trước. Những quy tắc này được gọi là quy tắc mạnh mẽ. Các yêu cầu tính toán đối với việc tạo tập phổ biến thường tốn kém hơn so với tạo quy tắc.