Đạo văn luôn là một vấn đề đối với giáo viên, nhà văn, biên tập viên và những người khác thường xuyên xử lý từ ngữ và ý tưởng, và nó chỉ trở nên tồi tệ hơn nhờ sự ra đời của Internet và chức năng sao chép-dán. Phần mềm kiểm tra đạo văn có thể giúp ích, nhưng không phải chương trình nào cũng có cơ sở dữ liệu lớn hoặc thuật toán chính xác. Một số người kiểm tra bản phác thảo thậm chí có thể sử dụng nội dung đã gửi cho các mục đích riêng của họ. Ngay cả những người kiểm tra tốt nhất cũng không có tỷ lệ thành công 100%. Nhưng việc biết các công cụ kiểm tra văn bản để tìm đạo văn hoạt động như thế nào sẽ giúp bạn quyết định công cụ nào đáng để bạn bỏ thời gian.
Công cụ kiểm tra đạo văn hoạt động như thế nào?
Mỗi phần mềm đối sánh văn bản đều có cách tiếp cận riêng. Hầu hết hoạt động trên cùng một nguyên tắc cơ bản:kiểm tra nội dung đã nhập dựa trên cơ sở dữ liệu nguồn tài liệu và tìm kiếm các điểm tương đồng. Tuy nhiên, xem xét một lượng lớn nội dung có thể bị ăn cắp ý tưởng, đây không phải là một nhiệm vụ tầm thường. Một tìm kiếm đơn giản theo từng dòng sẽ mất vĩnh viễn và không thực tế tốn nhiều tài nguyên.
Đó là lý do tại sao hầu hết các công cụ kiểm tra văn bản để tìm đạo văn đều sử dụng dấu vân tay. Đối với mỗi đoạn văn bản trong cơ sở dữ liệu và mỗi đoạn văn bản mà họ kiểm tra, họ trích xuất các tập hợp mẫu và chạy từng mẫu thông qua một thuật toán băm để tạo ra một số nhận dạng duy nhất cho mọi đầu vào.
Nếu một bài báo có dấu vân tay giống hệt với dấu vân tay trong cơ sở dữ liệu, điều đó có nghĩa là cả hai đều có cùng đầu vào và có thể là đạo văn. Điều này không thể tránh khỏi dẫn đến độ chính xác thấp hơn, nhưng một thuật toán lấy dấu vân tay tốt có thể lấy mẫu từ giấy theo cách có thể phát hiện không chỉ trùng khớp chính xác mà còn cả đạo văn trong đó một số nội dung đã bị thay đổi - chẳng hạn như bằng chương trình quay.
Nếu chương trình tìm thấy dấu vân tay trùng khớp, nó có thể chỉ cần gắn cờ một trường hợp có thể là đạo văn và gọi đó là một ngày. Tuy nhiên, phần mềm chất lượng cao hơn thường sẽ sử dụng đối sánh chuỗi trực tiếp để kiểm tra từng dòng văn bản. Đây là một nhiệm vụ sẽ nhẹ hơn nhiều về mặt tính toán một khi cơ sở dữ liệu đã được thu hẹp. Điều này giúp xác nhận các lần truy cập dấu vân tay ban đầu và cung cấp nhiều dữ liệu hơn để con người đưa ra quyết định cuối cùng.
Những điều cần tìm trong một Trình kiểm tra đạo văn tốt
Người kiểm tra đạo văn phải có:
- Chính sách bảo mật chặt chẽ (ví dụ:họ không lưu trữ / bán nội dung của bạn)
- Cơ sở dữ liệu lớn
- Thuật toán tốt
Chính sách quyền riêng tư
Nhiều công cụ kiểm tra đạo văn miễn phí (hoặc thường xuyên hơn, miễn phí) là hợp pháp, kiếm tiền thông qua quảng cáo hoặc bằng cách bán phiên bản cao cấp. Tuy nhiên, một số người ít cẩn thận hơn có thể thực sự lấy bài viết mà bạn kiểm tra và sử dụng nó cho mục đích riêng của họ. Cuối cùng, nó có thể được sử dụng làm nội dung trên trang web nghiên cứu hoặc được chạy qua một “spinner” để thay đổi từ ngữ và được đưa vào như một bài báo để tạo ra lưu lượng truy cập. Bạn nên kiểm tra chính sách bảo mật và kiểm tra nhanh danh tiếng của trang web. Đặc biệt làm điều này nếu nó có vẻ hơi sơ sài hoặc quá tốt để trở thành sự thật.
Cơ sở dữ liệu
Nếu một người kiểm tra đạo văn không có quyền truy cập vào đúng nguồn tài liệu, họ sẽ không thể biết khi nào tài liệu đó bị đạo văn. Đây thường là điều lớn nhất ngăn cách những người kiểm tra đạo văn chất lượng thấp hơn với các đối tác cao cấp của họ. Việc truy cập vào các bộ sưu tập sách, bài báo và nội dung khác thuộc sở hữu của người khác không hề miễn phí hay dễ dàng, vì vậy nhiều công cụ chỉ có thể kiểm tra Internet. Tuy nhiên, đó là nơi rất nhiều hành vi đạo văn xảy ra, vì vậy việc có quyền truy cập vào sách, bài báo hoặc các tài liệu riêng tư khác là điều quan trọng nhất nếu bạn đang kiểm tra đạo văn mà ai đó có thể đã bỏ công sức vào.
Thuật toán
Hầu hết những người kiểm tra đạo văn không tiết lộ rõ ràng thuật toán của họ, nhưng chất lượng và độ chính xác của kết quả là một chỉ báo tốt cho thấy nó được xây dựng tốt như thế nào. Điều này có thể khó đo lường trực tiếp, nhưng việc xem xét mức độ chi tiết mà nó trả về, đọc đánh giá của người dùng và thử nghiệm để xem liệu nó có thể phát hiện tài liệu bạn sao chép từ các nguồn khác hay không có thể giúp bạn biết rõ về mức độ toàn diện của trang web tìm kiếm. Ví dụ:nếu phiên bản miễn phí không nhận được bản sao-dán từ một bài viết trên Wikipedia, bạn có thể không mong đợi phiên bản trả phí sẽ rất hoàn hảo.
Công cụ kiểm tra đạo văn tốt nhất
Những người kiểm tra đạo văn cấp chuyên nghiệp hầu hết đều có giá và hầu hết các tùy chọn miễn phí có sẵn đều kém hơn Google hoặc có chính sách bảo mật ngụ ý rằng họ có thể đang sử dụng nội dung của bạn cho mục đích riêng của họ. Điều tốt nhất bạn có thể nhận được miễn phí là một vài trang dùng thử hoặc một báo cáo đơn giản chỉ cho bạn biết liệu có xuất hiện đạo văn hay không. Công cụ thứ hai vẫn có thể hữu ích vì nó cung cấp cho bạn một cách nhanh chóng để đánh giá xem bạn có nên sử dụng một công cụ chuyên sâu hơn hay đọc một bài báo theo cách thủ công.
Tôi đã thử nghiệm từng công cụ bên dưới bằng cách sử dụng một số văn bản (bài báo tôi đã viết, mục nhập Wikipedia và nguồn tin tức) và tất cả chúng đều có thể xác định chính xác nội dung đạo văn cùng với các nguồn. Tôi đã thử nghiệm một số trang web hoàn toàn miễn phí, nhưng nhiều trang web trong số đó không thể xác định các đoạn từ bài viết của tôi và thậm chí không thể bắt được các bản sao chép từ BBC và Wikipedia, mặc dù một tìm kiếm Google nhanh chóng xuất hiện với nội dung đạo văn ngay lập tức.
1. Google
Nếu có một đoạn văn bản cụ thể nào đó mà bạn nghi ngờ là đã ăn cắp ý tưởng, thì Google thực sự là một điểm dừng chân đầu tiên tuyệt vời. Bạn chỉ có thể tìm kiếm 32 từ cùng một lúc, nhưng điều đó thường có thể đủ để hiển thị trang web, giấy hoặc sách mà ai đó đã sao chép từ đó, ngay cả khi họ đã thay đổi một vài từ.
2. Grammarly
Grammarly yêu cầu bạn phải đăng ký dịch vụ chỉnh sửa đạo văn để nhận được kết quả đạo văn đầy đủ, nhưng miễn phí cho việc kiểm tra ban đầu, cho bạn biết liệu có khả năng là đạo văn hay không. Đó là nhiều hơn những gì bạn nhận được với rất nhiều ứng dụng khác và tôi thấy nó luôn bị gắn cờ đạo văn một cách chính xác, khiến nó trở thành một lựa chọn miễn phí ưu tiên hàng đầu.
3. SearchEngineReports
Về cơ bản, nó là một trình bao bọc của Google, nhưng nó miễn phí và thực sự hoạt động tốt hơn rất nhiều tùy chọn miễn phí khác. Nó có hầu hết những gì tôi đưa vào nó chính xác. SearchEngineReports cho phép bạn kiểm tra tối đa 2.000 từ văn bản cho mỗi tìm kiếm (không có giới hạn trên về số lượng tìm kiếm) và chạy nó qua Google từng phần một, cho bạn biết câu nào tạo ra lượt truy cập. Nó cũng cung cấp cho bạn tùy chọn viết lại nội dung đạo văn để tránh bị phát hiện trong tương lai, điều này tôi không khuyên bạn nên làm.
4. Copyleaks
Copyleaks cung cấp cho bạn 2.500 từ, hoặc khoảng 10 trang, kiểm tra miễn phí. Nó được sử dụng khá rộng rãi, có giao diện thân thiện với người dùng và bao gồm một cơ sở dữ liệu lớn về công việc học tập và khoa học để kiểm tra. Nếu bạn cần vượt ra ngoài nội dung Internet, đây là một nơi đáng tin cậy để bắt đầu. Nó có tất cả nội dung trực tuyến mà tôi đã ném vào nó.
5. Quetext
Bạn nhận được ba kiểm tra 500 từ miễn phí và sau đó bạn phải đăng ký. Tuy nhiên, Quetext có danh tiếng tốt về độ chính xác và kỹ lưỡng, và theo đó, nó hoạt động tốt trong các thử nghiệm của tôi. Cơ sở dữ liệu của nó bao gồm rất nhiều sách và bài báo cũng như nội dung trên Internet. Nếu bạn đang tìm kiếm thứ gì đó toàn diện nhưng rẻ hơn Copyleaks, thì Quetext là một nơi tốt để bắt đầu.
6. Plagscan
PlagScan có một cơ sở dữ liệu phong phú về sách, bài báo và các văn bản khác và trả về một phân tích chi tiết, đối với tôi, xác định được tất cả các nguồn đạo văn. Bản dùng thử miễn phí có thời lượng 2.000 từ, sau đó bạn sẽ phải mua tín dụng để tiếp tục. Nếu bạn không có một lượng lớn văn bản để kiểm tra, hệ thống mua tín dụng để kiểm tra một số từ nhất định có thể sẽ rẻ hơn các tùy chọn đăng ký được cung cấp bởi hầu hết các công cụ kiểm tra đạo văn khác.
Không có viên đạn ma thuật nào
Những người kiểm tra đạo văn, đặc biệt là những người kiểm tra ngân sách, gần như chắc chắn sẽ không thể nắm bắt được mọi thứ. Nếu một kẻ đạo văn sử dụng các nguồn không rõ ràng hoặc viết lại quá đủ, máy móc sẽ không thể làm gì để gắn cờ cho họ và ngay cả những người hiểu biết cũng có thể bị đánh lừa. Tuy nhiên, chúng có thể là tuyến phòng thủ đầu tiên tốt và ít nhất có thể ngăn chặn hành vi đạo văn với nỗ lực thấp.