Computer >> Máy Tính >  >> Kết nối mạng >> Internet

Cách sử dụng Google Ngram hiệu quả hơn

Cách sử dụng Google Ngram hiệu quả hơn

Các nghiên cứu về ngôn ngữ và ngôn ngữ học thường sẽ cần dữ liệu về cách các từ được sử dụng, đặc biệt là theo thời gian. Mặc dù nghiên cứu là điều cần thiết, nhưng việc có các công cụ để cung cấp cho bạn dữ liệu bạn cần là điều được hoan nghênh. Google Ngram Viewer là một cách tuyệt vời để tìm các xu hướng từ trong thư viện Google Sách một cách nhanh chóng.

Trong bài đăng này, chúng tôi hướng dẫn bạn cách sử dụng Google Ngram hiệu quả hơn. Trước tiên, hãy giới thiệu với bạn về công cụ này.

Giới thiệu Google Ngram

Google duy trì một cơ sở dữ liệu đa ngôn ngữ về ngôn ngữ đã xuất bản. Bằng cách quét sách liên tục, gã khổng lồ tìm kiếm có thể xử lý văn bản và cung cấp số liệu thống kê dựa trên tần suất của các từ.

Với công cụ tìm kiếm Google Ngram Viewer, bạn có thể tìm kiếm thông qua dữ liệu này. Bằng cách so sánh mức độ phổ biến tương đối của các từ, bạn có thể lập bản đồ ngôn ngữ và văn hóa đã thay đổi như thế nào theo thời gian.

Tuy nhiên, công cụ Google Ngram có thể làm được nhiều việc hơn là chỉ báo cáo tần suất từ, như chúng ta sẽ tìm hiểu.

Cách thực hiện các tìm kiếm cơ bản

Trước khi chúng ta đi vào “chiến thuật” nâng cao, hãy cùng tìm hiểu cách thực hiện tìm kiếm cơ bản. Từ trang Google Ngram, hãy nhập một từ khóa vào hộp tìm kiếm.

Cách sử dụng Google Ngram hiệu quả hơn

Nếu bạn muốn bao gồm tất cả các chữ viết hoa của một từ, hãy đánh dấu vào nút Phân biệt chữ hoa chữ thường. Tìm kiếm này sẽ bao gồm “Công nghệ” và “công nghệ”.

Bên dưới hộp tìm kiếm, bạn cũng có thể đặt các thông số như phạm vi ngày và “làm mịn”. Giá trị thứ hai loại bỏ các điểm tăng đột biến và giảm điểm không điển hình khỏi dữ liệu của bạn. Các giá trị làm mịn thấp hơn chính xác hơn, trong khi các giá trị cao hơn chỉ hiển thị các xu hướng sâu hơn.

Cách chọn “Corpus”

Văn bản là tập hợp văn bản mà Ngram Viewer sẽ kiểm tra. Mặc định là “Tiếng Anh” có thể chấp nhận được khi duyệt thông thường nhưng có thể mang tính học thuật cao.

Cách sử dụng Google Ngram hiệu quả hơn

“English Fiction” sẽ phản ánh gần gũi hơn với ngôn ngữ thông thường. Ngữ liệu “tiếng Anh” tiêu chuẩn có thể mang nặng tính phi hư cấu với nhiều từ ngữ chuyên môn.

Mặc dù ý nghĩa sâu xa hơn đằng sau sự lựa chọn kho dữ liệu của bạn nằm ngoài phạm vi của phần này, Google cung cấp thông tin chi tiết ngắn gọn về lựa chọn phù hợp cho bạn.

Thực hiện Tìm kiếm Nâng cao

Bằng cách sử dụng các từ tìm kiếm bổ sung, bạn có thể tạo các so sánh phức tạp. Để thực hiện việc này, hãy phân tách từng thuật ngữ bằng dấu phẩy.

Cách sử dụng Google Ngram hiệu quả hơn

Ngram Viewer sẽ hiển thị tần suất tương đối của các cụm từ tìm kiếm của bạn trong một biểu đồ. Tại đây, bạn có thể di chuột qua các đường của biểu đồ để xem các điểm dữ liệu chính xác.

Cách sử dụng Google Ngram hiệu quả hơn

Bạn cũng có thể sử dụng dấu hoa thị trong các cụm từ tìm kiếm của mình làm ký tự đại diện. Ví dụ:“Cử nhân *” sẽ trả về kết quả cho nhiều bằng Cử nhân.

Cách sử dụng Google Ngram hiệu quả hơn

Để tìm tất cả các biến đổi của một thuật ngữ, hãy thêm công cụ sửa đổi “_INF”.

Cách sử dụng Google Ngram hiệu quả hơn

Nếu một từ bao gồm nhiều phần của lời nói, bạn có thể cụ thể hơn bằng cách sử dụng toán tử văn bản. Các phần hợp lệ của bài phát biểu trong cơ sở dữ liệu của Google bao gồm tất cả những điều sau:

  • _ADJ_ :tính từ (nhanh, lớn, thông minh)
  • _ADV_ :trạng từ (nhanh chóng, sau đó, luôn luôn)
  • _PRON_ :đại từ (của họ, nó, chúng tôi)
  • _DET_ :xác định hoặc mạo từ (a, an, the)
  • _ADP_ :adposition (giới từ và giới từ)
  • _NUM_ :số (thứ nhất, thứ hai, thứ năm)
  • _CONJ_ :kết hợp (và, cũng không, nhưng)
  • _PRT_ :hạt, là một danh mục catchall, hiếm khi được sử dụng cho các chức năng từ khác

Mỗi trong số này có thể được kết hợp thành các cụm từ. Ví dụ:“_ADJ_ boy” sẽ trả về các cặp từ cho tính từ và “boy”.

Để chỉ định một phần cụ thể của bài phát biểu cho một cụm từ tìm kiếm, hãy nối nó vào cuối. Ví dụ:“water_VERB” không có gạch dưới ở cuối. Để bao gồm mọi phần của bài phát biểu cho một từ nhất định, hãy sử dụng toán tử ký tự đại diện sau dấu gạch dưới.

Các biến chức năng, thành phần và sự phụ thuộc

Cách sử dụng Google Ngram hiệu quả hơn

Các biến chức năng cho phép bạn tìm kiếm theo chức năng hoặc vị trí của các từ.

  • _ROOT_ là một trình giữ chỗ cho gốc của cây phân tích cú pháp của câu. Đây thường là chủ ngữ chính hoặc từ được thay đổi bởi động từ.
  • _START_ cho biết đầu câu. (“_START_ Tổng thống Obama” chỉ trả lại những câu bắt đầu với cụm từ “Tổng thống Obama.”)
  • _END_ biểu thị sự kết thúc của một câu. (“_ADP_ _END_” trả về các câu kết thúc trong giới từ.)

Bằng cách kết hợp các cụm từ tìm kiếm với các toán tử số học, bạn có thể thực hiện phân tích toán học đơn giản với các giá trị cho tần suất cụm từ:

  • + thêm nhiều biểu thức vào một cụm từ tìm kiếm
  • - lấy biểu thức ở bên trái trừ biểu thức ở bên phải, cung cấp một cách nhanh chóng để so sánh mức độ sử dụng tương đối của hai cụm từ tìm kiếm.
  • / chia biểu thức ở bên trái cho biểu thức ở bên phải
  • * nhân biểu thức để so sánh các ngram có tần số đa dạng. Đảm bảo đặt toàn bộ ngram trong dấu ngoặc đơn để tránh dấu hoa thị được phân tích cú pháp thành một ký tự đại diện.
  • : (dấu hai chấm) tìm kiếm ngram ở bên trái trong kho ngữ liệu ở bên phải.

Cuối cùng, bạn có thể đặt các phụ thuộc với “=>” để tìm kiếm các mối quan hệ ngôn ngữ.

Cách sử dụng Google Ngram hiệu quả hơn

Ví dụ:“car => fast” sẽ trả về kết quả trong đó “fast” phụ thuộc vào ngữ pháp hoặc cách sửa đổi từ “car”. Điều này có thể được kết hợp tùy ý với bất kỳ hoạt động tìm kiếm nâng cao nào.

Kết luận

Tìm kiếm xu hướng từ có nhiều ứng dụng học thuật. Một cách nhanh chóng để tìm thấy thông tin bạn cần là công cụ Ngram của Google. Tin tốt là nó không chỉ cho phép bạn thực hiện các tìm kiếm cơ bản. Bạn có thể áp dụng các công cụ sửa đổi mạnh mẽ để thu thập thông tin bạn cần.

Không một chức năng nào của Google Ngram có thể thực hiện được nếu không có sự nâng cao của công cụ tìm kiếm. Bạn có bị ấn tượng bởi những gì mà công cụ Google Ngram có thể làm được không? Hãy cho chúng tôi biết trong phần bình luận bên dưới!