Sự liên kết phụ thuộc vào thực tế là tất cả các sinh vật sống được liên kết với nhau bằng quá trình tiến hóa. Điều này sử dụng rằng chuỗi nucleotide (DNA, RNA) và protein của các loài gần nhau hơn trong quá trình tiến hóa phải thể hiện sự tương đồng cao hơn.
Căn chỉnh là giai đoạn sắp xếp các trình tự để có được mức độ nhận dạng tối đa, điều này cũng xác định mức độ giống nhau giữa các trình tự. Có hai trình tự tương đồng nếu chúng có chung một tổ tiên.
Mức độ tương đồng có được bằng cách sắp xếp trình tự có thể có lợi trong việc quyết định khả năng tương đồng giữa hai trình tự. Sự hỗ trợ liên kết như vậy quyết định vị trí tương đối của các loài khác nhau trong một cây tiến hóa, được gọi là cây phát sinh loài.
Vấn đề liên kết của các trình tự sinh học có thể được định nghĩa như sau - Đưa ra hai hoặc nhiều trình tự sinh học đầu vào, nhận ra các trình tự giống nhau với các trình tự con được bảo tồn cao. Nếu nhiều trình tự được căn chỉnh là hai, nó được gọi là căn chỉnh trình tự theo cặp; do đó, nó là sự liên kết nhiều trình tự.
Các trình tự được phân biệt và sắp xếp có thể là nucleotide (DNA / RNA) hoặc axit amin (protein). Đối với nucleotide, hai ký hiệu sắp xếp nếu chúng chính xác. Nhưng đối với axit amin, hai ký hiệu sẽ căn chỉnh nếu chúng chính xác hoặc nếu một ký hiệu có thể được thay đổi từ ký hiệu kia bằng cách thay thế xuất hiện trong tự nhiên.
Có hai loại căn chỉnh bao gồm căn chỉnh cục bộ và căn chỉnh toàn cục. Phần thứ nhất định nghĩa rằng chỉ các khu vực của các trình tự được căn chỉnh, trong khi phần thứ hai cần được căn chỉnh trên toàn bộ chiều dài của các trình tự.
Đối với nucleotide hoặc axit amin, sự chèn, mất đoạn và thay thế xuất hiện trong tự nhiên với nhiều xác suất. Ma trận thay thế xác định xác suất thay thế nucleotit hoặc axit amin và xác suất chèn và xóa.
Người ta thường sử dụng ký tự khoảng cách, “-”, để biểu thị các vị trí không muốn căn hai ký hiệu. Nó có thể tính toán chất lượng của các liên kết, cấu trúc tính điểm thường được xác định, thường tính các ký hiệu giống hệt nhau hoặc giống nhau là điểm tích cực và khoảng cách là điểm tiêu cực.
Tổng đại số của điểm số được lấy làm phạm vi liên kết. Mục tiêu của việc căn chỉnh là đạt được điểm tối đa giữa một số cách căn chỉnh có thể có. Tuy nhiên, rất tốn kém để phát hiện ra sự liên kết tối ưu. Do đó, có một số kỹ thuật heuristic đã được phát triển để phát hiện ra những liên kết dưới mức tối ưu.
Bộ gen là toàn bộ tập hợp các gen của một sinh vật. Khi protein được yêu cầu, các gen tương đương được sao chép thành RNA. RNA là một chuỗi nucleotide. DNA tiến hành tổng hợp một số phân tử RNA, mỗi phân tử có một vai trò cụ thể trong chức năng tế bào.