Lưu trữ dữ liệu ở quy mô lớn không giống như lưu tệp trên ổ cứng của bạn. Nó yêu cầu người quản lý phần mềm theo dõi tất cả các bit tạo nên tệp của công ty bạn. Đó là nơi các gói quản lý lưu trữ phân tán như Ceph và Gluster ra đời.
Ceph và Gluster là cả hai hệ thống được sử dụng để quản lý lưu trữ phân tán. Cả hai đều được coi là bộ nhớ do phần mềm xác định, có nghĩa là chúng chủ yếu là phần cứng không khả thi. Họ sắp xếp các bit tạo nên dữ liệu của bạn bằng cách sử dụng cơ sở hạ tầng cơ bản của riêng họ, đó là điều xác định sự lựa chọn này:bạn muốn khung cơ bản nào hỗ trợ dữ liệu của mình?
Đó là quyết định bạn muốn đưa ra dựa trên loại dữ liệu bạn đang lưu trữ, cách dữ liệu đó được truy cập và nơi dữ liệu đó tồn tại. Ceph và GlusterFS đều là những lựa chọn tốt, nhưng các ứng dụng lý tưởng của chúng lại khác nhau một cách tinh tế.
Lưu trữ dựa trên đối tượng cho dữ liệu phi cấu trúc:Ceph
Ceph là một hệ thống dựa trên đối tượng, có nghĩa là nó quản lý dữ liệu được lưu trữ dưới dạng các đối tượng hơn là một hệ thống phân cấp tệp, truyền dữ liệu nhị phân trên toàn bộ cụm. Các phương pháp lưu trữ đối tượng tương tự được Facebook sử dụng để lưu trữ hình ảnh và Dropbox để lưu trữ tệp khách hàng. Nói chung, lưu trữ đối tượng hỗ trợ dữ liệu lớn không có cấu trúc, vì vậy, nó hoàn hảo để lưu trữ dữ liệu quy mô lớn. Hệ thống được duy trì bởi một mạng lưới daemon dưới dạng màn hình cụm, máy chủ siêu dữ liệu và lưu trữ nhật ký. Những điều này kết hợp để làm cho Ceph có khả năng nhưng phức tạp hơn so với đối thủ cạnh tranh.
Đối tượng không phổ biến và lưu trữ dựa trên khối có nghĩa là Ceph sử dụng các công cụ riêng để quản lý lưu trữ. Điều này đòi hỏi quản trị viên hệ thống phải làm quen với các công cụ của Ceph. Thoạt nhìn khó có thể nắm bắt được hoạt động thực sự bên trong của Ceph. Về cơ bản, bạn cần phải sẵn sàng tìm hiểu cách thức hoạt động của nó để đạt được những lợi ích. Hệ thống tự quản lý, tự phục hồi có thể giảm chi phí hoạt động liên tục theo thời gian và Ceph có thể chạy trên phần cứng máy chủ tiêu chuẩn công nghiệp.
Hệ thống cũng có thể tạo lưu trữ khối, cung cấp quyền truy cập để chặn các hình ảnh thiết bị có thể được tách ra và sao chép trên toàn bộ cụm. Các ứng dụng có thể truy cập Ceph Object Storage thông qua giao diện RESTful hỗ trợ API Amazon S3 và Openstack Swift. Mục tiêu là hiệu suất cao, dung lượng lưu trữ lớn và khả năng tương thích với mã kế thừa.
Lưu trữ khối trong cây phân cấp:GlusterFS
GlusterFS, hay còn được gọi là Gluster, là một kho lưu trữ tệp truyền thống hơn. Nó dễ dàng thiết lập và một bản dựng được biên dịch đúng cách có thể được sử dụng trên bất kỳ hệ thống nào có thư mục. Tính linh hoạt và dễ sử dụng là một lợi thế lớn của hệ thống. Mặc dù nó có thể mở rộng đến dung lượng khổng lồ, nhưng hiệu suất có xu hướng nhanh chóng suy giảm. Nó phù hợp nhất với kích thước tệp trung bình lớn (lớn hơn 4 MB) và truy cập tuần tự. Một cụm có thể trải rộng trên các máy chủ vật lý, ảo và đám mây, cho phép ảo hóa lưu trữ linh hoạt.
Gluster sử dụng lưu trữ khối, có nghĩa là các khối dữ liệu được lưu trữ trên không gian mở trên các thiết bị cụm được kết nối. Lưu trữ dựa trên khối và tệp sử dụng hệ thống tệp sắp xếp các tệp trong cây phân cấp. Nó tập hợp các máy chủ khác biệt về mặt địa lý qua Ethernet để tạo ra một hệ thống tệp mạng song song có thể mở rộng. Gluster về cơ bản là một phiên bản dựa trên cụm của FUSE và NFS, cung cấp một kiến trúc quen thuộc cho hầu hết các quản trị viên hệ thống. Nó nhằm mục đích đơn giản, dễ bảo trì và có thể sử dụng rộng rãi nhưng không có tốc độ truy cập như Ceph có thể cung cấp trong những trường hợp thích hợp.
Kết luận
Ceph phù hợp nhất để truy cập nhanh vào dữ liệu phi cấu trúc, vốn tạo nên phần lớn các tệp trên thế giới. Gluster tốt hơn để truy cập dữ liệu tuần tự, như phát video trực tuyến hoặc cho các ứng dụng mà tốc độ không quan trọng như sao lưu.
Bạn đang sử dụng hệ thống lưu trữ tệp nào?