ETL là viết tắt của Trích xuất, biến đổi và tải. Đây là quy trình các tổ chức sử dụng dữ liệu theo hướng sử dụng để thu thập dữ liệu từ nhiều nguồn và sau đó tập hợp dữ liệu đó lại với nhau để hỗ trợ việc khám phá, báo cáo, phân tích và ra quyết định.
Các nguồn dữ liệu có thể khác nhau về loại, định dạng, khối lượng và độ tin cậy, do đó dữ liệu cần được xử lý để hữu ích khi được phân phối cùng nhau. Các kho dữ liệu đích có thể là cơ sở dữ liệu, kho dữ liệu hoặc hồ dữ liệu, dựa trên các mục tiêu và thực thi kỹ thuật. Có các bước sau của ETL như sau -
Trích xuất - Trong quá trình trích xuất, ETL nhận dạng dữ liệu và nhân bản nó từ các nguồn của nó, do đó nó có thể vận chuyển dữ liệu đến kho dữ liệu đích. Dữ liệu có thể xuất hiện từ các nguồn có cấu trúc và không có cấu trúc, bao gồm tệp, email, phần mềm kinh doanh, cơ sở dữ liệu, thiết bị, cảm biến, bên thứ ba, v.v.
Có nhiều cách khác nhau để thực hiện trích xuất, chẳng hạn như
Trích xuất một phần - Cách đơn giản nhất để truy cập thông tin là nếu hệ thống nguồn thông báo cho chúng tôi khi một bản ghi đã được sửa đổi.
Trích xuất một phần (có thông báo cập nhật) - Không phải tất cả các hệ thống đều có thể đưa ra thông báo trong trường hợp cập nhật đã diễn ra; nhưng, họ có thể đánh dấu những bản ghi đã được chuyển đổi và hỗ trợ trích xuất các bản ghi đó.
Trích xuất đầy đủ - Một số hệ thống không thể xác định dữ liệu nào đã bị thay đổi. Trong trường hợp này, trích xuất đầy đủ là tính khả thi duy nhất để trích xuất bản ghi ra khỏi hệ thống. Cách tiếp cận này cần có một bản sao của phần trích xuất cuối cùng ở cùng một định dạng để nó có thể xác định những thay đổi đã được tạo ra.
Chuyển đổi - Bước thứ hai bao gồm việc chuyển đổi thông tin thô đã được trích xuất từ các nguồn thành một định dạng có thể được sử dụng bởi một số ứng dụng. Trong giai đoạn này, dữ liệu đã được làm sạch, ánh xạ và chuyển đổi, cung cấp cho một lược đồ xác định, vì vậy nó tìm thấy các nhu cầu hoạt động.
Quá trình này yêu cầu một số kiểu chuyển đổi để cung cấp chất lượng và tính toàn vẹn của dữ liệu. Dữ liệu thường không được tải chính xác vào nguồn dữ liệu đích, nhưng ngược lại, thường xuyên phải tải nó lên cơ sở dữ liệu theo giai đoạn.
Bước này đảm bảo khôi phục nhanh chóng trong trường hợp có điều gì đó không diễn ra như kế hoạch. Trong giai đoạn này, nó có thể tạo các tài liệu kiểm toán để tuân thủ quy định hoặc chẩn đoán và sửa chữa một số vấn đề về dữ liệu.
Tải - ETL di chuyển thông tin đã biến đổi vào kho dữ liệu đích. Bước này có thể yêu cầu tải ban đầu của tất cả thông tin nguồn hoặc nó có thể là tải các thay đổi gia tăng trong thông tin nguồn. Nó có thể tải dữ liệu theo thời gian thực hoặc theo lô đã lên lịch.