Computer >> Máy Tính >  >> Lập trình >> Lập trình

Trích xuất dữ liệu là gì?

Giải nén là dịch vụ trích xuất thông tin từ hệ thống nguồn để được trợ giúp thêm trong môi trường kho dữ liệu. Đây là thủ tục đầu tiên của quá trình ETL. Sau khi giải nén, dữ liệu này có thể được thay đổi và tải vào kho dữ liệu. Hệ thống nguồn cho một kho dữ liệu thường là phần mềm xử lý giao dịch. Đó là hệ thống nguồn cho một kho dữ liệu phân tích bán hàng có thể là một hệ thống nhập đơn đặt hàng dữ liệu tất cả các hoạt động đặt hàng hiện tại.

Khai thác dữ liệu là nơi dữ liệu được xem xét và chuyển qua để lấy thông tin liên quan từ các nguồn dữ liệu (chẳng hạn như cơ sở dữ liệu) trong một thiết kế xác định. Quá trình xử lý dữ liệu tiếp theo được hoàn tất, trong đó có chèn siêu dữ liệu và tích hợp dữ liệu khác; một thủ tục khác trong quy trình làm việc dữ liệu.

Việc trích xuất hàng loạt dữ liệu xuất hiện từ các nguồn dữ liệu không có cấu trúc và nhiều cấu trúc dữ liệu. Dữ liệu phi cấu trúc này có thể ở bất kỳ dạng nào, bao gồm bảng, chỉ mục và phân tích.

Dữ liệu trong kho có thể xuất hiện từ nhiều nguồn, một kho dữ liệu cần ba kỹ thuật khác nhau để sử dụng các bản ghi đến. Các quá trình này được gọi là Trích xuất, Chuyển đổi và Nạp (ETL).

Quá trình trích xuất dữ liệu bao gồm việc lấy lại thông tin từ các nguồn dữ liệu lộn xộn. Các trích xuất dữ liệu được tải vào hoạt động dàn dựng của cơ sở dữ liệu quan hệ. Do đó, logic trích xuất được sử dụng và hệ thống nguồn được yêu cầu cung cấp dữ liệu bằng giao diện lập trình phần mềm.

Các loại công cụ trích xuất dữ liệu

Có nhiều loại công cụ trích xuất dữ liệu như sau -

Công cụ xử lý hàng loạt - Các công cụ trích xuất dữ liệu kế thừa xây dựng dữ liệu này theo lô, thường là trong giờ làm việc ngoài giờ để giảm bớt tác động của việc sử dụng lượng điện năng đánh giá cao. Đối với cài đặt tại chỗ, khép kín với tập hợp nguồn dữ liệu đồng nhất vừa phải, giải pháp trích xuất hàng loạt có thể là cách tiếp cận tốt nhất.

Công cụ nguồn mở - Các công cụ mã nguồn mở có thể phù hợp nhất cho phần mềm hạn chế về ngân sách, xem xét khuôn khổ hỗ trợ và kiến ​​thức có sẵn trong khu vực. Các nhà cung cấp khác nhau cung cấp cách giải thích hạn chế hoặc "nhẹ" về sản phẩm của họ dưới dạng mã nguồn mở.

Công cụ dựa trên đám mây - Các công cụ dựa trên đám mây là thế hệ sản phẩm khai thác hiện nay. Mục tiêu là trích xuất dữ liệu theo thời gian thực như một yếu tố của quy trình ETL / ELT và các công cụ dựa trên đám mây vượt trội trong không gian này, mang lại lợi ích của tất cả những gì đám mây có để hỗ trợ cho việc lưu trữ và phân tích dữ liệu. Các công cụ này cũng giải quyết vấn đề bảo mật và thỏa thuận vì các nhà cung cấp đám mây ngày nay vẫn tiếp tục nhắm mục tiêu vào các lĩnh vực này, loại bỏ yêu cầu tạo nội bộ chuyên môn này.