Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phương pháp khai thác dữ liệu bảo vệ quyền riêng tư là gì?

Khai thác dữ liệu bảo vệ quyền riêng tư là một ứng dụng của nghiên cứu khai thác dữ liệu nhằm đáp ứng tính bảo mật của quyền riêng tư trong khai thác dữ liệu. Nó được gọi là khai thác dữ liệu nhạy cảm về quyền riêng tư hoặc bảo mật. Nó giải quyết việc thu được kết quả khai thác dữ liệu thực mà không tiết lộ các giá trị dữ liệu nhạy cảm cơ bản.

Hầu hết các phương pháp khai thác dữ liệu bảo vệ quyền riêng tư sử dụng nhiều hình thức chuyển đổi khác nhau trên dữ liệu để thực hiện việc bảo vệ quyền riêng tư. Nói chung, các phương pháp như vậy làm giảm mức độ chi tiết của mô tả để giữ quyền riêng tư.

Ví dụ:họ có thể tổng quát hóa dữ liệu từ người dùng đơn lẻ thành nhóm người dùng. Việc giảm mức độ chi tiết này gây ra mất dữ liệu và có thể ảnh hưởng đến tiện ích của kết quả khai thác dữ liệu. Đây là sự đánh đổi giữa mất mát dữ liệu và quyền riêng tư.

Các phương pháp khai thác dữ liệu bảo vệ quyền riêng tư có thể được định nghĩa thành các phần tử sau như sau -

Phương pháp ngẫu nhiên hóa - Các phương thức này chèn nhiễu vào dữ liệu để che một số giá trị của dữ liệu. Nhiễu được thêm vào phải lớn để không thể tìm nạp các giá trị dữ liệu riêng lẻ, đặc biệt là các giá trị nhạy cảm.

Nó phải được bổ sung một cách khéo léo để kết quả cuối cùng của việc khai thác dữ liệu nói chung được bảo toàn. Có nhiều phương pháp khác nhau được thiết kế để thay đổi các phân phối tổng hợp từ dữ liệu bị xáo trộn.

Phương pháp ẩn danh k và đa dạng l - Cả hai phương pháp này đều thay đổi dữ liệu đơn lẻ để chúng không thể được xác định cụ thể. Trong phương pháp ẩn danh k, mức độ chi tiết của biểu diễn dữ liệu được giảm đi một cách thích hợp để một số bản đồ dữ liệu đã cho lên tối thiểu k bản ghi khác trong dữ liệu. Nó cần các kỹ thuật như tổng quát hóa và triệt tiêu.

Phương pháp ẩn danh k yếu ở chỗ, nếu có sự đồng nhất của các giá trị nhạy cảm trong một nhóm, thì những giá trị đó có thể được suy ra cho dữ liệu đã thay đổi. Mô hình đa dạng l được thiết kế để quản lý điểm yếu này bằng cách thực thi nhiều giá trị nhạy cảm trong nhóm để cung cấp tính năng ẩn danh. Mục tiêu là tạo ra sự khó khăn đủ để đối thủ sử dụng kết hợp các thuộc tính dữ liệu để nhận ra chính xác các bản ghi đơn lẻ.

Bảo toàn quyền riêng tư được phân phối - Các tập dữ liệu lớn có thể được phân vùng và phân phối theo chiều ngang (tức là các tập dữ liệu được phân vùng thành nhiều tập dữ liệu con và được phân phối trên một số trang web) hoặc theo chiều dọc (tức là các tập dữ liệu được phân vùng và phân phối theo các thuộc tính của chúng) hoặc trong một cả hai.

Mặc dù các trang web đơn lẻ không thể yêu cầu chia sẻ toàn bộ tập dữ liệu của họ, nhưng họ có thể đồng ý chia sẻ dữ liệu hạn chế với việc sử dụng một số giao thức. Tác dụng hoàn chỉnh của các phương pháp này là hỗ trợ quyền riêng tư cho từng đối tượng, đồng thời thay đổi kết quả tổng hợp trên một số dữ liệu.

Hạ cấp hiệu quả của kết quả khai thác dữ liệu - Trong một số trường hợp, mặc dù không thể có sẵn dữ liệu, nhưng kết quả của việc khai thác dữ liệu (ví dụ:quy tắc liên kết và mô hình phân loại) có thể dẫn đến vi phạm quyền riêng tư. Giải pháp có thể là hạ cấp hiệu quả khai thác dữ liệu bằng cách thay đổi dữ liệu hoặc kết quả khai thác, bao gồm ẩn một số quy tắc kết hợp hoặc phần nào làm sai lệch một số mô hình phân loại.