Trong những năm gần đây, Data Lakes đã chuyển từ khu công nghệ sang bất động sản bên bờ biển tiêu chuẩn của ngành khoa học dữ liệu. Tại sao điều này lại xảy ra, và tại sao chúng lại quan trọng? Câu trả lời ngắn gọn… có giá trị ở đó.
Dữ liệu có giá trị
Càng ngày, rõ ràng dữ liệu của một công ty chứa giá trị tiềm năng rất lớn. Nhiều người khổng lồ Internet như Google, Facebook, và những người khác, giá trị của họ chủ yếu bắt nguồn từ dữ liệu của họ. Nhưng bạn không cần phải là một người khổng lồ Internet để thu được giá trị từ dữ liệu của mình. Dữ liệu đang được sử dụng bởi các công ty công nghiệp để dự đoán sự thất bại của máy móc, bởi các tổ chức tài chính để quản lý rủi ro tốt hơn, bởi các nhà bán lẻ trực tuyến để tăng tỷ lệ giữ chân khách hàng và vô số các tổ chức khác để khám phá những hiểu biết mới. Nó có vẻ giống như một công thức khá đơn giản:cung cấp dữ liệu cho các công cụ phân tích doanh nghiệp hoặc hệ thống máy học (ML) và thu thập thông tin chi tiết. Thực tế, nó không phải là đơn giản. Chúng ta phải đáp ứng một điều kiện tiên quyết cần thiết trước khi chúng ta có thể giải quyết vấn đề phân tích. Chúng tôi thực sự phải có dữ liệu chứa thông tin chi tiết.
Đây không phải là một giải pháp kho dữ liệu khác?
Bạn có thể đang nghĩ, "đây không phải là vấn đề mà các kho dữ liệu giải quyết sao?" Không hẳn vậy, các kho dữ liệu được xây dựng để giải quyết một số vấn đề kinh doanh đã xác định. Quá trình nhập dữ liệu Datawarehouse sử dụng quy trình làm việc trích xuất, chuyển đổi, tải (ETL). Dữ liệu được trích xuất từ hệ thống nguồn, được chuyển đổi thành cấu trúc của kho dữ liệu và sau đó được tải vào kho dữ liệu. Vào thời điểm này, dữ liệu đã được cấu trúc, lọc và xử lý theo cách khác để loại trừ dữ liệu không liên quan đến bộ vấn đề kinh doanh đã xác định. Trong quy trình ETL, chúng tôi đã giữ lại một số giá trị dữ liệu và loại bỏ những giá trị khác, tăng cường dữ liệu, hình thành mối quan hệ giữa các mục dữ liệu và bỏ qua những giá trị khác. Nếu một vấn đề kinh doanh mới được phát hiện cần thông tin bị loại bỏ? Môi trường kinh doanh luôn thay đổi và không thể dự đoán được các vấn đề trong tương lai. bị mất khi đưa ra những quyết định này khi điền vào kho dữ liệu.
Nhập các Hồ Dữ liệu
Để giữ lại nhiều giá trị tiềm năng nhất có thể, chúng tôi không thể loại bỏ dữ liệu gốc. Tại sao chúng ta không giữ tất cả dữ liệu ở định dạng thô và quyết định cách sử dụng nó sau này? Chúng tôi chỉ có thể để dữ liệu chảy như sông vào một kho lưu trữ trung tâm, tạo thành một “hồ” “dữ liệu”. :) Đặt một cách khác, trích xuất và lưu trữ dữ liệu, sau đó biến đổi và tải nó khi cần thiết (thường được gọi là Extract, Load vàTransform, ELT - chuyển chữ ‘T’ và ‘L’ trong ETL).
Về mặt lịch sử, chi phí lưu trữ và trích xuất cấu trúc có ý nghĩa vào một thời điểm nào đó vượt xa giá trị tiềm năng của thông tin mà nó có thể chứa. nhiều người bạn đồng hành hơn để làm điều đó.
Mọi Bộ sưu tập Dữ liệu Thô đều là Data Lake, phải không?
Ok, đủ đơn giản. Chỉ cần đổ tất cả dữ liệu thô vào một vị trí duy nhất và hoàn thành, phải không? Cách xa nó! Việc nhập dữ liệu phải được thực hiện đúng cách để bảo vệ khách hàng, công ty và dữ liệu đồng thời cung cấp dữ liệu cho các nhà khoa học và phân tích dữ liệu trong tương lai. Để làm được điều này, chúng ta phải xem xét nhiều yếu tố quan trọng.
-
Làm thế nào để các nhà khoa học và nhà phân tích dữ liệu trong tương lai tìm thấy những gì họ đang tìm kiếm? Dữ liệu thô phải được lập chỉ mục.
-
Làm thế nào để dữ liệu có thể được trích xuất một cách hiệu quả? Dữ liệu phải được lưu trữ ở định dạng tệp hiệu quả, chẳng hạn như định dạng cột.
-
Còn về Thông tin Nhận dạng Cá nhân (PII), Thông tin Y tế Được Bảo vệ (PHI), Dữ liệu Chủ thẻ (CD) và các dữ liệu nhạy cảm khác thì sao? Cần giải mã dữ liệu.
-
Bạn sẽ xử lý như thế nào về quyền riêng tư của dữ liệu (ví dụ:GDPR), chủ quyền dữ liệu và quyền truy cập để bạn không phải là tiêu đề cho một vi phạm dữ liệu khác? Quản lý danh tính và quyền truy cập phải được triển khai để áp dụng các quyền thích hợp và kiểm soát truy cập.
Điều gì về việc loại bỏ trùng lặp hoặc các bản ghi phù hợp không dùng chung một số mã nhận dạng? Là 123 Main St, Some Town, Hoa Kỳ cùng vị trí với 123 Main Street, Some Town, USA ? Còn về Robert Smith và Bob Smith ? Như bạn có thể tưởng tượng, đây là những tình huống đơn giản. Nhiều tình huống phức tạp hơn tồn tại trong tập dữ liệu thực.
Khi dữ liệu đã ở trong data lake và có lập chỉ mục và điều khiển thích hợp, nó cần được chuyển đổi thành định dạng có cấu trúc trước khi có thể được sử dụng. Các định dạng nguồn vẽ khác nhau được chiếu vào một cấu trúc đã biết để chúng có thể được sử dụng bởi các hệ thống ML, kho bãi hoặc Business Intelligence (BI). (Tôi thích gọi quy trình này là EtS-TL, Trích xuất cửa hàng biến đổi - Chuyển đổi và tải, bởi vì quá trình chuyển đổi dữ liệu không cần thiết được thực hiện khi dữ liệu được đưa vào hồ. Nhưng việc thảo luận về danh pháp là một chủ đề cho thời gian khác.)
Sử dụng Dữ liệu
Dữ liệu hiện đã có trong hồ nhưng không thể sử dụng ở dạng hiện tại. Các quyết định chuyển đổi dữ liệu đã bị trì hoãn bây giờ phải được quyết định. Sau khi một lược đồ được quyết định và dữ liệu được trích xuất, thì nó phải được làm sạch trong một đường dành riêng cho lược đồ. Dữ liệu không hợp lệ cho một giản đồ / phân tích có thể hoàn toàn hợp lệ cho một lược đồ / phân tích khác. Ví dụ:hãy xem xét tập dữ liệu quyền sở hữu đất chứa tên chủ sở hữu, địa chỉ tài sản, giá trị tài sản, thời hạn thanh toán, sử dụng đất (ví dụ:khu dân cư, tòa nhà văn phòng hoặc khu công nghiệp), và số tài khoản thuế bất động sản. Việc xác định xem có mối tương quan giữa việc sử dụng đất và việc thanh toán không, không yêu cầu tên của chủ sở hữu. Đồng thời, việc tìm kiếm mối tương quan giữa giá trị tài sản và việc sử dụng đất không yêu cầu dữ liệu sai phạm. Nếu mục dữ liệu quảng cáo bị thiếu trong một hàng trong một lát dữ liệu, nó không làm mất hiệu lực của cùng một hàng đối với một lát dữ liệu khác. Các Hồ dữ liệu cho phép bạn mở các phân tích dữ liệu của mình, nhưng chúng đi kèm với sự phức tạp và chi phí riêng.
Khi tất cả các bước này được hoàn tất, chúng ta đã đến thời điểm mà các công cụ phân tích dữ liệu, hệ thống BI hoặc mô hình ML của chúng ta có thể bắt đầu công việc của chúng. Tuy nhiên, bằng cách tận dụng hồ quảng cáo, chúng tôi đã không vô tình phá hủy giá trị tiềm năng trong tương lai được tìm thấy trong dữ liệu. Các câu hỏi kinh doanh trong tương lai có thể được khám phá mà không yêu cầu chúng tôi phải biết tương lai.
Tóm tắt
Trong khi Kho dữ liệu được lọc, chuẩn bị và sẵn sàng sử dụng, các hồ dữ liệu là những kho chứa, không nhằm mục đích tiêu thụ ở dạng thô của chúng. Thay vào đó, dữ liệu chúng phải được chuẩn bị trước khi nó có thể được tiêu thụ. Giống như bất kỳ hồ chứa nào, chúng phải được quản lý đúng cách để có thể sử dụng trong tương lai. Điều này được thực hiện thông qua việc quản lý dòng vào (định dạng tệp lưu trữ và xáo trộn dữ liệu), hiểu nội dung (lập chỉ mục và loại bỏ trùng lặp), bảo vệ khỏi việc sử dụng sai mục đích (Quản lý danh tính và truy cập) và các phương tiện thanh lọc (trích xuất dữ liệu, áp dụng lược đồ và làm sạch dữ liệu).
Mẹo của tảng băng
May mắn thay, trong kỷ nguyên đám mây, chúng ta không cần phải sử dụng các công cụ của riêng mình và công nghệ để triển khai một hồ dữ liệu. Ví dụ:AWS Lake Formation giải quyết các vấn đề về công cụ và công nghệ được liên kết trực tiếp với chính hồ dữ liệu. Tuy nhiên, vẫn còn rất nhiều câu hỏi hóc búa. Bạn có biết cách sử dụng bộ cài đúng cách không? Bạn có chuyên môn để thiết lập kết nối mạng thích hợp để cho phép nhập dữ liệu của bạn không? VPN có đủ không hay bạn cần một mạch chuyên dụng (Kết nối trực tiếp)? Bạn đang đưa một mỏ vàng dữ liệu của công ty vào đám mây. Bạn có đang truy cập dữ liệu theo cách tiết kiệm chi phí không? Hãy nhớ rằng, chuyển tiền ra không phải là miễn phí.
Tại Rackspace, chúng tôi có Kiến trúc sư đám mây và kiến thức chuyên môn để giúp bạn thiết lập và chạy hồ dữ liệu của mình một cách nhanh chóng, an toàn và hiệu quả. Hãy gọi cho chúng tôi, hãy ghé thăm chúng tôi tại Rackspace Managed AWS để biết thêm thông tin.
Sử dụng tab Phản hồi để đưa ra bất kỳ nhận xét hoặc đặt câu hỏi nào.