Computer >> Máy Tính >  >> Lập trình >> Lập trình

Tại sao chúng ta cần KDD?


Các kỹ thuật truyền thống để biến dữ liệu thành kiến ​​thức phụ thuộc vào phân tích và diễn giải thủ công. Ví dụ, trong ngành chăm sóc sức khỏe, các bác sĩ chuyên khoa đã quen thuộc với việc phân tích một cách có hệ thống các xu hướng hiện tại và những thay đổi trong dữ liệu chăm sóc sức khỏe hàng quý.

Các chuyên gia hỗ trợ một báo cáo chi tiết phân tích cho tổ chức chăm sóc sức khỏe tài trợ; báo cáo này trở thành cơ sở cho việc ra quyết định trong tương lai và lập kế hoạch quản lý chăm sóc sức khỏe. Có một số loại ứng dụng, bao gồm các nhà địa chất hành tinh sàng lọc thông qua các hình ảnh cảm nhận từ xa về các hành tinh và tiểu hành tinh, xác định vị trí cẩn thận và lập danh mục các đối tượng địa chất được quan tâm như hố va chạm.

Hình thức kiểm tra thủ công tập dữ liệu này chậm, tốn kém và mang tính chủ quan cao. Khi khối lượng dữ liệu tạo ra đáng kể, loại phân tích dữ liệu thủ công này đang trở nên hoàn toàn không thực tế trong một số lĩnh vực.

Trong kinh doanh, các lĩnh vực ứng dụng KDD chính bao gồm tiếp thị, tài chính (đặc biệt là đầu tư), phát hiện gian lận, sản xuất, viễn thông và đại lý web.

Tiếp thị - Trong tiếp thị, ứng dụng cơ bản là hệ thống tiếp thị cơ sở dữ liệu, hệ thống này phân tích cơ sở dữ liệu khách hàng để nhận ra một số nhóm khách hàng và dự báo hành vi của họ.

Đầu tư - Một số công ty sử dụng khai thác dữ liệu để đầu tư, nhưng hầu hết không đại diện cho hệ thống của họ. Một ngoại lệ là Quản lý vốn LBS. Hệ thống của nó sử dụng các hệ thống chuyên nghiệp, mạng lưới thần kinh và thuật toán di truyền để xử lý danh mục đầu tư tổng trị giá 600 triệu đô la; kể từ khi bắt đầu hoạt động vào năm 1993, hệ thống này đã hoạt động tốt hơn thị trường chứng khoán rộng lớn.

Phát hiện gian lận - Hệ thống HNC Falcon và Nestor PRISM được sử dụng để kiểm tra gian lận thẻ tín dụng, theo dõi hàng triệu tài khoản. Hệ thống FAIS từ Mạng lưới thực thi tội phạm tài chính của Kho bạc Hoa Kỳ có thể xác định các giao dịch tài chính có thể biểu thị hoạt động rửa tiền.

Sản xuất - Hệ thống xử lý sự cố CASSIOPEE, được phát triển như một phần tử của liên doanh giữa General Electric và SNECMA. Nó được ba hãng hàng không lớn của châu Âu sử dụng để chẩn đoán và dự đoán các vấn đề đối với Boeing 737.

Viễn thông - Máy phân tích chuỗi cảnh báo viễn thông (TASA) được phát triển với sự hợp tác của một nhà sản xuất thiết bị viễn thông và ba mạng điện thoại (Mannila, Toivonen và Verkamo 1995). Hệ thống sử dụng một cơ sở hạ tầng mới để định vị các đợt báo động thường xuyên xảy ra từ luồng cảnh báo và hiển thị chúng dưới dạng quy tắc.

Có rất nhiều bộ quy tắc đã được khám phá có thể được khám phá bằng các công cụ truy xuất dữ liệu linh hoạt cung cấp khả năng tương tác và lặp lại. Trong phương pháp này, TASA cung cấp các thiết bị cắt tỉa, nhóm và sắp xếp thứ tự để tinh chỉnh kết quả của một tìm kiếm thô bạo cơ bản cho các quy tắc.

Làm sạch dữ liệu - Hệ thống MERGE-PURGE được sử dụng để xác định các yêu cầu phúc lợi trùng lặp (Hernandez và Stolfo 1995). Nó được sử dụng mạnh mẽ trên dữ liệu từ Bộ Phúc lợi của Bang Washington.