Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phương pháp trích xuất khác nhau trong kho dữ liệu là gì?

Phương pháp trích xuất phụ thuộc rất nhiều vào quy tắc nguồn và cũng như yêu cầu nghiệp vụ trong môi trường kho dữ liệu đích. Khối lượng ước tính của thông tin sẽ được trích xuất và giai đoạn trong quy trình ETL (tải hoặc lưu giữ hồ sơ gốc) cũng có thể buộc phải xác định cách trích xuất, theo quan điểm logic và vật lý. Có hai loại phương pháp chiết xuất bao gồm Phương pháp chiết xuất logic và Phương pháp chiết xuất vật lý.

Phương pháp trích xuất lôgic

Có hai loại trích xuất hợp lý như sau -

  • Trích xuất đầy đủ - Dữ liệu được trích xuất hoàn toàn từ hệ thống nguồn. Bởi vì quá trình trích xuất này tuân theo tất cả dữ liệu có thể truy cập trực tiếp trên hệ thống nguồn, nên không có yêu cầu theo dõi các thay đổi đối với nguồn dữ liệu vì quá trình trích xuất thành công cuối cùng.

    Thông tin nguồn sẽ được hỗ trợ và không có dữ liệu logic bổ sung (chẳng hạn như dấu thời gian) là cần thiết trên trang web nguồn. Ví dụ về trích xuất đầy đủ có thể là tài liệu xuất của một bảng riêng biệt hoặc một câu lệnh SQL từ xa quét toàn bộ bảng nguồn.

  • Chiết xuất gia tăng - Dữ liệu đã biến đổi do một sự kiện rõ ràng trong quá khứ sẽ được trích xuất. Sự kiện này có thể là thời điểm khai thác cuối cùng hoặc một sự kiện kinh doanh phức tạp hơn, chẳng hạn như ngày đặt vé cuối cùng của thời hạn tài chính.

    Nó có thể nhận ra sự thay đổi delta này nên có khả năng nhận ra tất cả dữ liệu đã thay đổi vì sự kiện thời gian xác định này. Dữ liệu này có thể được hỗ trợ bởi chính dữ liệu nguồn, bao gồm cột phần mềm, phản ánh dấu thời gian được thay đổi cuối cùng hoặc bảng thay đổi trong đó cấu trúc bổ sung thích hợp lưu lại dấu hiệu của các thay đổi bên cạnh các giao dịch gia tăng. Trong các trường hợp chung, việc sử dụng các kỹ thuật sau sẽ xác định việc chèn logic trích xuất vào hệ thống nguồn.

Phương pháp chiết xuất vật lý

Nó dựa trên phương pháp trích xuất hợp lý đã chọn và dung lượng và điều kiện ở phía nguồn, thông tin trích xuất có thể được trích xuất vật lý bằng hai cấu trúc. Thông tin có thể được trích xuất trực tuyến từ hệ thống nguồn hoặc cơ chế ngoại tuyến. Một cơ chế ngoại tuyến như vậy có thể đã xảy ra hoặc nó có thể được tạo ra bởi một quy trình trích xuất.

Có các phương pháp khai thác vật lý sau đây như sau -

  • Trích xuất trực tuyến - Dữ liệu được trích xuất chính xác từ chính hệ thống nguồn. Quy trình trích xuất có thể được liên kết trực tiếp với hệ thống nguồn để kết nối chính các bảng nguồn hoặc với một hệ thống trung gian lưu thông tin theo một khía cạnh được định cấu hình trước (ví dụ:nhật ký ảnh chụp nhanh hoặc bảng thay đổi).

  • Trích xuất ngoại tuyến - Dữ liệu không được trích xuất chính xác từ hệ thống nguồn mà được thực thi đặc biệt bên ngoài hệ thống nguồn ban đầu. Dữ liệu có kiến ​​trúc hiện tại (ví dụ:làm lại nhật ký, nhật ký lưu trữ hoặc không gian bảng di động) hoặc được tạo bởi một quy trình trích xuất.