ROC là gì?

ROC là viết tắt của đường cong đặc tính hoạt động của máy thu. Đây là một phương pháp đồ họa để hiển thị sự cân bằng giữa tỷ lệ dương tính thực sự và tỷ lệ dương tính giả của bộ phân loại. Trong đường cong ROC, tỷ lệ dương tính thực (TPR) được vẽ phía trước trục g và tỷ lệ dương tính giả (FPR) được hiển thị trên trục r. Mỗi điểm phía trước đường cong tương quan với một trong các mô hình được thuyết phục bởi bộ phân loại.

Có một số điểm quan trọng dọc theo đường cong ROC có các diễn giải nổi tiếng -

(TPR:O, FPR:0) - Mô hình dự đoán mọi trường hợp là một lớp phủ định.

(TPR:l, FPR:I) - Mô hình dự đoán mọi trường hợp là một lớp tích cực.

(TPR:l, FPR:O) - Hình mẫu lý tưởng.

Mô hình phân loại tốt nhất phải được đặt càng gần càng tốt ở phía trên bên trái, trong khi mô hình tạo ra các phỏng đoán ngẫu nhiên phải nằm dọc theo đường chéo chính, liên kết các điểm (TPR:0, FPR:0) và (TPR:I, FPR:1). Đoán ngẫu nhiên xác định rằng một bản ghi được xác định là một lớp dương với xác suất cố định p, bất kể tập thuộc tính của nó là gì.

Nó có thể vẽ một đường cong ROC, bộ phân loại phải có khả năng tạo ra một đầu ra có giá trị liên tục có thể được sử dụng để xếp hạng các dự đoán của nó, từ dữ liệu có nhiều khả năng được xác định là lớp tích cực đến dữ liệu ít có khả năng nhất. Các kết quả đầu ra này có thể tương quan với các xác suất sau được tạo ra bởi bộ phân loại Bayes hoặc các đầu ra có giá trị số được phát triển bởi một mạng nơ-ron nhân tạo. Quy trình sau có thể được sử dụng để tạo đường cong ROC -

Nó đang xem xét rằng các đầu ra có giá trị liên tục được đại diện cho lớp tích cực, sắp xếp dữ liệu thử nghiệm theo chuỗi tăng dần các giá trị đầu ra của chúng.

Nó có thể chọn dữ liệu kiểm tra được xếp hạng thấp nhất (tức là dữ liệu có giá trị đầu ra thấp nhất). Nó có thể gán dữ liệu đã chọn và những dữ liệu được xếp hạng theo sau nó vào lớp tích cực. Phương pháp này tương tự như xác định tất cả dữ liệu thử nghiệm là lớp tích cực. Bởi vì tất cả các trường hợp tích cực được xác định chính xác và các trường hợp tiêu cực bị phân loại sai, TPR:FPR:I.

Nó có thể chọn dữ liệu thử nghiệm tiếp theo từ danh sách đã sắp xếp. Nó xác định dữ liệu đã chọn và những dữ liệu được xếp hạng theo sau nó là tích cực, trong khi những dữ liệu được xếp hạng dưới nó là tiêu cực. Nó có thể làm mới số lượng TP và FP bằng cách xác định nhãn lớp thực của dữ liệu đã chọn trước đó.

Nếu dữ liệu được chọn trước đó là một lớp tích cực, số lượng TP sẽ giảm và số lượng FP vẫn tương tự như trước đó. Nếu dữ liệu được chọn trước đó là lớp phủ định, số lượng FP sẽ giảm và số lượng TP vẫn tương tự như trước đó.

Lặp lại Bước 3 và làm mới số TP và FP tương ứng cho đến khi dữ liệu thử nghiệm được xếp hạng lớn nhất được chọn.

Nó có thể xoay TPR ngược lại với FPR của bộ phân loại.