Các thuật toán di truyền là các cấu trúc toán học sử dụng thủ tục di truyền. Chúng đã được sử dụng thành công cho nhiều vấn đề phân tích. Khai thác dữ liệu có thể kết nối sự hiểu biết của con người với phân tích thông tin tự động để tìm ra thiết kế hoặc các mối quan hệ chính.
Với một cơ sở dữ liệu lớn được biểu diễn trên một số biến, mục tiêu là tìm ra thiết kế thú vị nhất trong cơ sở dữ liệu một cách hiệu quả. Các thuật toán di truyền đã được sử dụng để nhận ra các thiết kế thú vị trong một số phần mềm. Chúng thường được sử dụng trong khai thác dữ liệu để tăng cường thực thi các thuật toán khác, chẳng hạn như thuật toán cây quyết định, một quy tắc kết hợp khác.
Các thuật toán di truyền cần một cấu trúc dữ liệu cụ thể. Chúng hoạt động trên một quần thể với các đặc điểm được xác định trong cấu trúc phân loại. Tương tự với di truyền là quần thể (gen) bao gồm các đặc điểm. Có một phương pháp để thực hiện các thuật toán di truyền là sử dụng các toán tử (sao chép, trao đổi chéo, chọn lọc) với tính năng đột biến để cải thiện việc tạo ra các tổ hợp có lẽ tốt hơn.
Quy trình giải thuật di truyền như sau -
-
Nó có thể chọn cha mẹ một cách ngẫu nhiên.
-
Nó được sử dụng để tạo lại thông qua sự giao nhau.
-
Sao chép đang chọn những thực thể đơn lẻ sẽ xử lý nó. Nói cách khác, một số dịch vụ khách quan hoặc các tính năng lựa chọn được yêu cầu để xác định sự sống còn. Crossover mô tả những thay đổi trong quá trình sản xuất các thực thể trong tương lai.
-
Nó có thể chọn những người sống sót cho thế hệ tiếp theo thông qua dịch vụ thể dục.
-
Đột biến là dịch vụ mà các thuộc tính được chọn ngẫu nhiên của các thực thể được chọn ngẫu nhiên trong các hoạt động sau được chuyển đổi.
-
Nó có thể lặp lại cho đến khi đạt được mức thể dục nhất định hoặc số lần lặp lại hiện tại đã đến.
-
Các tham số của thuật toán di truyền chứa kích thước quần thể, tỷ lệ chéo và tỷ lệ đột biến.
Ưu điểm của thuật toán di truyền
Ưu điểm của thuật toán Di truyền như sau -
-
Các thuật toán di truyền rất dễ tiếp cận để tạo và xác thực, điều này tạo ra chúng rất hấp dẫn nếu được sử dụng.
-
Thuật toán song song, xác định rằng nó có thể được sử dụng cho các nhóm dân số cao một cách hiệu quả. Thuật toán cũng hiệu quả ở chỗ nếu nó bắt đầu với một giải pháp ban đầu kém, nó có thể nhanh chóng tiến tới các giải pháp tốt nhất.
-
Việc sử dụng đột biến tạo ra phương pháp thích hợp để nhận ra optima toàn cục ngay cả trong các quy tắc bài toán rất phi tuyến tính. Phương pháp này không cần kiến thức về việc phân phối thông tin.
Nhược điểm của thuật toán di truyền
-
Các thuật toán di truyền cần ánh xạ các tập dữ liệu để từ đó các thuộc tính có các giá trị rời rạc để thuật toán di truyền hoạt động. Điều này nói chung là có thể nhưng có thể làm mất một lượng lớn dữ liệu chi tiết khi xử lý các biến liên tục.
-
Nó được sử dụng để mã hóa thông tin thành dạng phân loại có thể vô tình dẫn đến thành kiến trong hồ sơ.
-
Ngoài ra còn có kiểm tra kích thước của tập dữ liệu có thể được xem xét bằng các thuật toán di truyền.
-
Đối với những tập dữ liệu rất lớn, việc lấy mẫu sẽ rất quan trọng, dẫn đến nhiều kết quả trong nhiều lần chạy trên tập dữ liệu tương đương.