Các yếu tố của MBR là gì?

Có nhiều phần tử khác nhau của MBR như sau -

Chọn Bộ đào tạo - Tập huấn luyện bao gồm 49.652 tin bài, được hỗ trợ bởi dịch vụ truy xuất tin tức cho mục tiêu này. Những câu chuyện này xuất hiện từ khoảng ba tháng tin tức và từ gần 100 nguồn khác nhau.

Trung bình mỗi câu chuyện bao gồm 2.700 từ và có tám mã được tạo cho nó. Tập hợp đào tạo không được tạo ra đặc biệt, do đó tần suất của các mã trong nhóm đào tạo khác nhau rất nhiều, bắt chước tần suất hoàn chỉnh của các mã trong các câu chuyện tin tức nói chung.

Chọn Hàm Khoảng cách - Giai đoạn tiếp theo là chọn chức năng khoảng cách. Trong phương pháp này, một hàm khoảng cách tồn tại, phụ thuộc vào một khái niệm được gọi là phản hồi về mức độ liên quan tính toán sự giống nhau của hai tệp dựa trên các từ mà chúng bao gồm. Phản hồi về mức độ liên quan, được định nghĩa đầy đủ hơn trong thanh bên, được tạo để trả về các tệp tương tự như một tài liệu nhất định, như một phương pháp tinh chỉnh tìm kiếm. Các tệp giống nhau là các tệp láng giềng được sử dụng cho MBR.

Chọn chức năng kết hợp - Quyết định tiếp theo là hàm kết hợp. Nó có thể được tạo mã phân loại cho các câu chuyện tin tức là một khác với hầu hết các vấn đề phân loại. Một số vấn đề phân loại đang được xem để tìm giải pháp tốt nhất. Nhưng tin bài có thể có nhiều mã, thậm chí từ cùng một phần tử. Khả năng thích ứng MBR đối với các vấn đề này làm nổi bật tính linh hoạt của nó.

Hàm kết hợp cần cách tiếp cận tổng trọng số. Vì khoảng cách lớn nhất là 1 nên trọng lượng dễ dàng là một trừ đi khoảng cách, do đó trọng lượng có thể lớn đối với hàng xóm ở khoảng cách nhỏ và trọng lượng nhỏ đối với hàng xóm ở khoảng cách lớn.

Chọn số lượng hàng xóm - Cuộc điều tra đa dạng số lượng hàng xóm gần nhất trong số 1 và 11. Kết quả tốt nhất xuất hiện từ việc sử dụng nhiều hàng xóm hơn. Nhưng nghiên cứu điển hình này khác với một số ứng dụng của MBR vì nó đang tạo ra một số danh mục cho mỗi câu chuyện. Vấn đề chung là chỉ tạo một danh mục hoặc mã riêng lẻ và ít hàng xóm hơn sẽ là đủ để có kết quả tốt nhất.

Nó có thể tính toán hiệu quả của MBR đối với việc mã hóa, dịch vụ tin tức đã có một ban biên tập xem xét một số mã được chỉ định, cho dù do biên tập viên hay MBR, cho 200 câu chuyện. Có một số mã được đa số hội đồng nhất trí đã được coi là “đúng”.

Việc so sánh các mã “đúng” với các mã do con người tạo ra ban đầu rất thú vị. 88% mã ban đầu được tạo cho các câu chuyện (do con người tạo ra) là đúng nhưng do con người biên tập đã mắc lỗi.