Computer >> Máy Tính >  >> Lập trình >> Lập trình

Thuật toán căn chỉnh cục bộ BLAST là gì?

Thuật toán BLAST được tạo ra bởi Altschul, Gish, Miller, vào khoảng năm 1990 tại Trung tâm Thông tin Công nghệ Sinh học Quốc gia (NCBI). BLAST được sử dụng để xác định các mối quan hệ chức năng và tiến hóa giữa các trình tự và giúp nhận ra các thành viên của họ gen.

Trang web NCBI bao gồm một số cơ sở dữ liệu BLAST chung. Theo nội dung của chúng, chúng được kết hợp thành cơ sở dữ liệu nucleotide và protein. NCBI cũng hỗ trợ cơ sở dữ liệu BLAST chuyên biệt bao gồm cơ sở dữ liệu sàng lọc vectơ, có một số cơ sở dữ liệu bộ gen cho nhiều sinh vật và cơ sở dữ liệu dấu vết.

BLAST sử dụng phương pháp tiếp cận heuristic để khám phá các liên kết cục bộ lớn nhất giữa chuỗi truy vấn và cơ sở dữ liệu. BLAST tăng tốc độ tìm kiếm hoàn chỉnh bằng cách chia các trình tự được so sánh thành chuỗi các đoạn (được định nghĩa là các từ) và tìm kiếm các kết quả phù hợp ban đầu giữa các từ này.

Trong BLAST, các từ được coi là k-tuples. Đối với nucleotide DNA, một từ thường bao gồm 11 bazơ (nucleotide), trong khi đối với protein, một từ thường bao gồm 3 axit amin. BLAST tạo một bảng băm của các từ lân cận (tức là gần khớp), trong khi ngưỡng cho "độ gần nhau" được đặt tùy thuộc vào số liệu thống kê. Nó bắt đầu từ các kết quả phù hợp chính xác đến các từ vùng lân cận.

Bởi vì sự liên kết tốt phải bao gồm một số trận đấu gần nhau, nó có thể sử dụng số liệu thống kê để quyết định những trận đấu nào là quan trọng. Bằng cách băm, nó có thể phát hiện ra các trận đấu trong thời gian O (n) (tuyến tính). Bằng cách tiếp cận các kết quả phù hợp theo cả hai hướng, phương pháp này phát hiện ra các liên kết chất lượng cao bao gồm một số cặp phân khúc có điểm số cao và tối đa.

Có một số phiên bản và mở rộng của các thuật toán BLAST. Ví dụ:MEGABLAST, MEGABLAST không liên tục và BLASTN đều có thể được sử dụng để nhận ra trình tự nucleotide. MEGABLAST được thiết kế đặc biệt để tìm hiệu quả các liên kết dài giữa các trình tự giống nhau và do đó, là thiết bị tốt nhất để sử dụng để tìm kiếm trùng khớp giống hệt nhau với trình tự truy vấn.

Một trong những tham số thiết yếu hướng dẫn độ nhạy của các tìm kiếm BLAST là độ dài của các từ gốc, hoặc kích thước từ. Kích thước từ linh hoạt trong BLASTN và có thể được giảm từ giá trị mặc định xuống tối thiểu là 7 để cải thiện độ nhạy tìm kiếm. Do đó BLASTN vượt trội hơn MEGABLAST trong việc khám phá sự liên kết với trình tự nucleotide liên quan từ các sinh vật khác nhau.

Protein-protein tiêu chuẩn BLAST (BLASTP) được sử dụng để nhận dạng trình tự axit amin truy vấn và để phát hiện các trình tự giống nhau trong cơ sở dữ liệu protein. Lặp lại vị trí cụ thể (PSI) -BLAST được tạo cho các tìm kiếm có độ tương đồng với protein có độ nhạy cao hơn. Nó có lợi cho việc khám phá các protein có liên quan rất xa.

Mẫu-Lần truy cập bắt đầu (PHI) -BLAST có thể thực hiện tìm kiếm mẫu protein giới hạn. Nó được tạo ra để tìm kiếm các protein bao gồm một mẫu do người dùng xác định và giống với chuỗi truy vấn ở gần mẫu.