Tôi rất vui vì cuối cùng đã xây dựng trên bài đăng blog trước đó của mình Nền tảng dữ liệu thống nhất - SQL 2019.
Trong loạt bài này, tôi sẽ tìm hiểu sâu hơn về cách đạt được ảo hóa dữ liệu thông qua PolyBase®.
Tóm tắt
Để làm mới bộ nhớ của bạn, hãy nhớ lại rằng bài viết trước đã đề cập đến các mục sau:
- Sự phát triển của SQL Server® từ Công cụ DB lên Nền tảng Dữ liệu Hợp nhất
- SQL 2019 trình bày Nền tảng dữ liệu hợp nhất bằng cách sử dụng:
- Công cụ SQL DB cho OLTP
- Ảo hóa dữ liệu thông qua Polybase
- Data Mart thông qua cửa hàng Columnar
- Data Lake thông qua HDFS
- Dữ liệu lớn, ML, Truyền trực tuyến qua Apache Spark
- Quản lý và giám sát bằng Azure® Data Studio (ADS)
Giới thiệu
Với việc dữ liệu có mặt khắp nơi, chúng tôi liên tục phải đối mặt với những thách thức trong việc di chuyển hoặc sao chép dữ liệu đó sang một vị trí khác để xử lý thêm. Với một tập dữ liệu nhỏ, điều này đủ dễ dàng, nhưng nó có thể gặp vấn đề với kích thước dữ liệu ngày càng tăng. Ngoài ra, với sự gia tăng ngày càng nhiều của các tổ chức, các nhà lãnh đạo dữ liệu không ủng hộ việc lưu giữ dữ liệu ở một nơi. Tương tự như vậy, việc tìm nạp hoặc sử dụng dữ liệu từ các kho lưu trữ dữ liệu khác nhau của dữ liệu có cấu trúc và dữ liệu có cấu trúc và Dữ liệu lớn có thể rất tẻ nhạt.
Ảo hóa dữ liệu là giải pháp cho vấn đề này.
Ảo hóa dữ liệu là gì?
Ảo hóa dữ liệu là một cách tiếp cận để quản lý dữ liệu cho phép ứng dụng truy xuất và thao tác dữ liệu mà không yêu cầu chi tiết kỹ thuật về dữ liệu, chẳng hạn như cách nó được định dạng tại nguồn hoặc tại vị trí vật lý. Nó có thể cung cấp một lượt xem khách hàng về dữ liệu tổng thể.
Có rất nhiều công cụ Ảo hóa dữ liệu hiện có trên thị trường, chẳng hạn như các công cụ sau:
- Microsoft® Polybase®
- Ống dữ liệu ảo Actifio® (VDP)
- Informatica® Powercenter
- IBM® Cloud Pak cho Dữ liệu
- Ảo hóa dữ liệu RedHat® JBoss
Đối với loạt bài này, tôi tập trung vào PolyBase, được Microsoft giới thiệu trong SQL 2016 và đã cải tiến với từng phiên bản SQL tiếp theo.
Polybase cho phép SQL Server chạy các truy vấn Transact-SQL trên các nguồn dữ liệu bên ngoài nhưAzure® Blob, Hadoop®, Oracle®, MongoDB®, v.v. Transact-SQL tương tự được sử dụng để xử lý dữ liệu bên ngoài cũng có thể chạy trên cơ sở dữ liệu quan hệ. Khả năng này giúp tích hợp dữ liệu từ các nguồn bên ngoài với dữ liệu quan hệ trong cơ sở dữ liệu của bạn. Hình ảnh sau đây cho thấy một minh họa đơn giản về SQL Polybase:
Hình 1
Bây giờ bạn đã biết những điều cơ bản về Polybase, tôi muốn chia sẻ bản demo tìm nạp dữ liệu từ nguồn bên ngoài anAzure blob bằng cách sử dụng SQL PolyBase. Bài đăng này bao gồm các điều kiện tiên quyết cho bản trình diễn.
Điều kiện tiên quyết của Demo
Trước khi có thể chạy bản demo, bạn cần thực hiện các tác vụ tiên quyết sau:
- Cài đặt SQL 2016 trở lên với tính năng PolyBase.
- Bật PolyBase trên SQL Server.
- Tạo tài khoản Azure Storage.
- Tạo một vùng chứa Azure blob.
- Đặt tệp dữ liệu vào vùng chứa đốm màu.
1. Cài đặt SQL Polybase
Bạn có thể cài đặt Polybase chỉ với một phiên bản SQL trên máy.
Hiện tại, tôi có một phiên bản SQL 2019 mặc định đang chạy trên máy cục bộ của mình. Tuy nhiên, Idid không chọn Polybase trong khi cài đặt. Hình ảnh sau đây cho thấy trình quản lý cấu hình SQL Server:
Hình 2
Tôi đã phải chạy lại thiết lập SQL và chọn các phần tử sau trong quá trình lựa chọn tính năng, hướng dẫn cài đặt Polybase:
- Dịch vụ truy vấn PolyBase cho dữ liệu bên ngoài
- Trình kết nối Java cho các nguồn dữ liệu HDFS
Hãy tiếp tục và chạy Thiết lập SQL và thực hiện các bước sau để cài đặt PolyBasefeature. Tiếp tục nhấp vào Tiếp theo cho đến khi bạn đến màn hình cuối cùng. Sau đó, nhấp vào nút Kết thúc cài đặt , chọn các tab được đánh dấu bằng màu đỏ đậm.
- Nhấp vào Cài đặt trong thanh bên và chọn Cài đặt SQL Server độc lập mới hoặc thêm các tính năng vào cài đặt hiện có .
Hình 3
- Sau khi bạn đạt đến Loại cài đặt cửa sổ, chọn Thêm tính năng vào phiên bản hiện có và chọn phiên bản bắt buộc từ menu thả xuống.
Hình 4
- Sau khi bạn đạt đến Lựa chọn tính năng , chọn các tính năng của PolyBase.
Hình 5
- Trong Cấu hình Polybase cửa sổ, chọn Sử dụng SQL Server này làm phiên bản độc lập hỗ trợ Polybase .
Hình 6
- Đối với phần còn lại của các tùy chọn thanh bên, hãy chọn các giá trị mặc định và nhấp vào Cài đặt . Sau khi quá trình chèn hoàn tất, cửa sổ folloiwng hiển thị:
Hình 7
Tại thời điểm này, bạn có thể thấy trong trình quản lý cấu hình SQL mà chúng tôi đã cài đặt thêm hai tính năng. Tuy nhiên, bạn vẫn có thể nhận được thông báo lỗi Polybase không được cài đặt trong SSMS trong khi cố gắng bật Polybase. Để khắc phục sự cố này, hãy khởi động lại máy chủ sau khi cài đặt Polybase.
Hình 8
2. Bật SQL Polybase
Để bật PolyBase, hãy chạy các bước sau:
-
Kết nối với SQL Server trong SSMS và chạy truy vấn sau để xác nhận rằng Polybase đã được cài đặt thành công.
SELECT SERVERPROPERTY ('IsPolyBaseInstalled') AS IsSuccessfullyInstalled;
Hình ảnh sau đây cho thấy kết quả để cài đặt thành công:
Hình 9
-
Bật Polybase bằng cách chạy các truy vấn sau:
EXEC sp_configure 'polybase enabled', 1; Go
-
Chạy truy vấn sau:
Reconfigure
Truy vấn này là quan trọng. Nếu không có bước này, lỗi có thể xuất hiện trong quá trình tạo định dạng tệp bên ngoài trong các bước được đề cập trong Phần ba của loạt bài này.
Hình 10
3. Tạo tài khoản Azure Storage
Thực hiện các bước sau để tạo tài khoản Azure Storage:
-
Đăng nhập vào Cổng Azure bằng thông tin đăng nhập của bạn.
-
Tìm kiếm dịch vụ tài khoản Azure Storage và thực hiện các bước sau để tạo tài khoản lưu trữ. Tiếp tục nhấp vào Tiếp theo cho đến khi bạn đến màn hình cuối cùng. Sau đó, nhấp vào nút Xem lại và tạo quyền mua. Chọn các tab được đánh dấu bằng màu đỏ đậm.
-
Trên thanh tìm kiếm Cổng Azure , chọn tài khoản Azure Storage và nhấp vào + Thêm để tạo tài khoản lưu trữ mới.
Hình 11
- Về Kiến thức cơ bản , nhập các chi tiết được yêu cầu và nhấp vào Tiếp theo:Kết nối mạng .
Hình 12
-
Giữ cài đặt mặc định cho Mạng , Bảo vệ dữ liệu , Nâng cao và Thẻ màn hình.
-
Tiếp theo, nhấp vào Xem lại + Tạo và sau khi xác thực thành công, hãy nhấp vào Tạo tab để tạo tài khoản lưu trữ, như được hiển thị trong hình ảnh sau:
Hình 13
- Khi triển khai thành công, hãy nhấp vào Đi tới tài nguyên , sẽ đưa bạn đến tài khoản lưu trữ đã tạo.
Hình 14
4. Tạo vùng chứa Azure
Để tạo vùng chứa Azure, hãy chuyển đến tài khoản lưu trữ Azure đã tạo, nhấp vào Vùng chứa trong ngăn bên trái, sau đó nhấp vào + Vùng chứa .
Hình 15
5. Đặt tệp dữ liệu vào vùng chứa
Ở giai đoạn này, hãy tạo tệp dữ liệu văn bản và tải tệp đó lên vùng chứa.
- Tạo một tệp văn bản tương tự như tệp sau:
Hình 16
Lưu ý :Bạn cũng có thể sử dụng CSV, Excel® hoặc các nguồn dữ liệu bên ngoài khác. Tuy nhiên, tùy thuộc vào nguồn dữ liệu bên ngoài, bạn cần thực hiện thêm một số bước. Ví dụ:đối với nguồn dữ liệu CSV hoặc Excel, bạn nên cài đặt trình điều khiển thích hợp trên SQL Server và thêm thuộc tính kết nối vào tên nguồn dữ liệu ODBC (DSN). Bạn có thể sử dụng Quản trị viên nguồn ODBCData của Microsoft để tạo và định cấu hình ODBC DSN.
- Đi tới vùng chứa bạn đã tạo, polybasedemocontainer , nhấp vào Tải lên , nhấp vào biểu tượng thư mục ở bên phải, phía bên tay và chọn tệp để tải lên.
Hình 17
Bước tiếp theo
Bạn đã hoàn thành thành công các điều kiện tiên quyết cho bản trình diễn PolyBase. Phần hai Trình bày bản trình diễn.
Sử dụng tab Phản hồi để đưa ra bất kỳ nhận xét hoặc đặt câu hỏi nào. Bạn cũng có thể bắt đầu cuộc trò chuyện với chúng tôi.