Mọi người định nghĩa Dữ liệu lớn bằng bộ 3 hoặc 4 hoặc 10 Vs. Những chữ V này có thực sự cung cấp cho chúng ta định nghĩa về khái niệm Dữ liệu lớn hay đó là điều gì khác mà họ đang cố nói với chúng ta? Lý do chính để sử dụng đặc tính dựa trên chữ V này là để làm nổi bật những thách thức đi kèm với Dữ liệu lớn này. Những thách thức như – thu thập, làm sạch, quản lý, tích hợp, lưu trữ, xử lý, v.v.
Những chữ V này đang đưa ra hướng dẫn để bạn chuẩn bị cho những Thử thách có thể xảy ra. Những thách thức có thể xảy ra khi bạn bắt đầu quản lý Dữ liệu lớn của mình:
- Tăng số lượng lớn
- Tăng trưởng với tốc độ lớn
- Tạo giống lớn
- Thay đổi với độ biến thiên lớn
- Yêu cầu quy trình để duy trì Độ chính xác cao
- Khi chuyển đổi mang lại khả năng Trực quan hóa lớn
- có giá trị ẩn lớn
Những chữ V này giải thích các khía cạnh quan trọng của Dữ liệu lớn và Chiến lược Dữ liệu lớn mà tổ chức không thể bỏ qua. Hãy xem xét tất cả những đóng góp của chữ V vào các thuộc tính khác nhau của Dữ liệu lớn:
1. Khối lượng:
100 terabyte dữ liệu được tải lên Facebook hàng ngày; Akamai phân tích 75 triệu sự kiện mỗi ngày để nhắm mục tiêu quảng cáo trực tuyến; Walmart xử lý 1 triệu giao dịch của khách hàng mỗi giờ. 90% tất cả dữ liệu từng được tạo đã được tạo trong 2 năm qua.
Các số liệu trên mô tả chân thực ý nghĩa của cụm từ Khối lượng dữ liệu lớn. Đây là đặc điểm đầu tiên của dữ liệu làm cho nó trở thành dữ liệu lớn. Khối lượng dữ liệu khổng lồ này lại đặt ra thách thức đối với chúng tôi trong việc lưu trữ dữ liệu này.
2. Vận tốc:
Vào năm 1999, mỗi phút mỗi ngày, chúng tôi tải 100 giờ video lên YouTube, gửi hơn 200 triệu email và gửi 300.000 tweet.
Đằng sau số lượng tập là một xu hướng thậm chí còn lớn hơn, đó là 90% dữ liệu hiện có đã được tạo chỉ trong hai năm qua. Điều này mô tả vận tốc hoặc tốc độ mà dữ liệu đang được tạo, lưu trữ, phân tích và trực quan hóa.
Thử thách mà các tổ chức gặp phải là phải đối phó với tốc độ khổng lồ mà dữ liệu được tạo và sử dụng trong thời gian thực.
3. đa dạng
Trước đây, tất cả dữ liệu được tạo ra đều là dữ liệu có cấu trúc, dữ liệu được sắp xếp gọn gàng trong các cột và hàng nhưng những ngày đó đã qua rồi. 90% dữ liệu được tạo ra ngày nay không có cấu trúc, có đủ hình dạng – từ dữ liệu địa lý, không gian đến các tweet có thể được phân tích về nội dung và cảm xúc, đến dữ liệu trực quan dưới dạng ảnh và video.
Sự đa dạng mô tả một trong những thách thức lớn nhất của dữ liệu lớn. Nó có thể không có cấu trúc và có thể bao gồm rất nhiều loại dữ liệu khác nhau từ XML đến video đến SMS. Sắp xếp dữ liệu theo cách có ý nghĩa không phải là nhiệm vụ đơn giản, đặc biệt là khi bản thân dữ liệu thay đổi nhanh chóng.
4. Tính khả biến
Tính hay thay đổi thường bị nhầm lẫn với tính đa dạng. Một ví dụ đơn giản để phân biệt đó là:hãy nghĩ về Starbucks – nó có rất nhiều hương vị trong Cold Coffee. Đây là sự đa dạng. Giả sử bạn mua Cafe Mocha mỗi ngày và nó có vị và mùi hơi khác so với mọi ngày trước đó. Đó là sự thay đổi.
Tính hay thay đổi trong ngữ cảnh của Dữ liệu lớn đề cập đến một vài điều khác nhau. Một là số điểm không nhất quán trong dữ liệu. Chúng cần được tìm thấy bằng các phương pháp phát hiện bất thường và ngoại lệ để xảy ra bất kỳ phân tích có ý nghĩa nào. Dữ liệu lớn cũng có thể thay đổi do vô số kích thước dữ liệu do nhiều loại và nguồn dữ liệu khác nhau. Tính hay thay đổi cũng có thể đề cập đến tốc độ tải dữ liệu lớn vào cơ sở dữ liệu của bạn không nhất quán.
5. Độ chính xác
Điều cốt yếu để hiểu được Dữ liệu lớn là bản chất lộn xộn, ồn ào của nó và khối lượng công việc cần làm để tạo ra một tập dữ liệu chính xác trước khi có thể bắt đầu phân tích. Sẽ vô ích nếu dữ liệu được phân tích không chính xác hoặc không đầy đủ.
Tình huống này phát sinh khi luồng dữ liệu bắt nguồn từ nhiều nguồn khác nhau trình bày nhiều định dạng với tỷ lệ tín hiệu trên tạp âm khác nhau. Có thể đầy rẫy các lỗi tích lũy này vào thời điểm nó đạt đến Phân tích dữ liệu lớn.
Tính xác thực là đảm bảo dữ liệu chính xác, điều này yêu cầu các quy trình ngăn không cho dữ liệu xấu tích tụ trong hệ thống của bạn. Ví dụ đơn giản nhất là những người liên hệ nhập hệ thống tự động hóa tiếp thị của bạn với tên giả và thông tin liên hệ không chính xác. Bạn đã nhìn thấy chuột Mickey bao nhiêu lần trong cơ sở dữ liệu của mình? Đây là thử thách cổ điển “vào, đổ rác”.
6. Trực quan hóa
Đây là phần khó của Dữ liệu lớn, lỗi khiến khối lượng dữ liệu khổng lồ này trở nên vô dụng. Nhiệm vụ cốt lõi đối với bất kỳ hệ thống xử lý Dữ liệu lớn nào là chuyển đổi quy mô to lớn của nó thành thứ gì đó dễ hiểu và có thể thực hiện được. Đối với tiêu dùng của con người, một trong những phương pháp tốt nhất là chuyển đổi nó thành định dạng đồ họa.
Các công cụ trực quan hóa dữ liệu lớn hiện tại phải đối mặt với những thách thức kỹ thuật do những hạn chế của công nghệ trong bộ nhớ cũng như khả năng mở rộng, chức năng và thời gian phản hồi kém. Biểu đồ truyền thống không thể đáp ứng nhu cầu vẽ đồ thị cho một tỷ điểm dữ liệu, vì vậy, bạn cần có nhiều cách khác nhau để biểu diễn dữ liệu, chẳng hạn như phân cụm dữ liệu hoặc sử dụng bản đồ dạng cây, tia nắng mặt trời, tọa độ song song, sơ đồ mạng tròn hoặc cây hình nón.
7. Giá trị
Giá trị là mục tiêu cuối cùng. Giá trị tiềm năng của Dữ liệu lớn là rất lớn. Sau khi quan tâm đến khối lượng, tốc độ, sự đa dạng, tính thay đổi, tính xác thực và trực quan hóa – vốn tốn rất nhiều thời gian và công sức – điều quan trọng là phải đảm bảo rằng tổ chức của bạn đang nhận được giá trị từ dữ liệu.
Tất nhiên, bản thân dữ liệu không có giá trị gì cả. Giá trị nằm trong các phân tích được thực hiện trên dữ liệu đó và cách dữ liệu được biến thành thông tin và cuối cùng biến dữ liệu đó thành kiến thức.
7 chữ V ở trên cho bạn biết về 3 khía cạnh quan trọng của Dữ liệu lớn, tức là định nghĩa, đặc điểm và thách thức. Nhưng khi mọi người bắt đầu nghiên cứu về dữ liệu lớn để phát minh ra các phương pháp đối mặt với những Thách thức của 7 V đã nói ở trên, họ đã bắt gặp một số V khác. Mặc dù chúng không đóng vai trò quan trọng trong dữ liệu lớn nhưng chúng hoàn thành danh sách Đặc điểm và Thách thức.
8. Hiệu lực
Tương tự như tính xác thực, tính hợp lệ đề cập đến mức độ chính xác và chính xác của dữ liệu đối với mục đích sử dụng. Tính xác thực của Dữ liệu lớn là vấn đề về tính hợp lệ, nghĩa là dữ liệu đúng và chính xác cho mục đích sử dụng. Dữ liệu hợp lệ rõ ràng là chìa khóa để đưa ra quyết định đúng đắn. Xác thực dữ liệu là một xác thực xác nhận việc truyền dữ liệu nguyên vẹn.
9. Khả thi
Hãy suy nghĩ về những nhận định dưới đây:
- Thời gian trong ngày hoặc ngày trong tuần có ảnh hưởng gì đến hành vi mua hàng?
- Twitter hoặc Facebook có đề cập đến việc tăng hoặc giảm lượng mua hàng không?
- Làm cách nào để vị trí địa lý, tính sẵn có của sản phẩm, thời gian trong ngày, lịch sử mua hàng, độ tuổi, quy mô gia đình, hạn mức tín dụng và loại phương tiện đều hội tụ để dự đoán xu hướng mua hàng của người tiêu dùng?
Nhiệm vụ đầu tiên của chúng tôi là đánh giá tính khả thi của dữ liệu đó bởi vì với rất nhiều loại dữ liệu và biến số cần xem xét khi xây dựng một mô hình dự đoán hiệu quả, chúng tôi muốn nhanh chóng và tiết kiệm chi phí- kiểm tra và xác nhận hiệu quả mức độ phù hợp của một biến cụ thể trước khi đầu tư vào việc tạo ra một mô hình đầy đủ tính năng. Nói cách khác, chúng tôi muốn xác thực giả thuyết đó trước khi thực hiện thêm hành động và trong quá trình xác định tính khả thi của một biến, chúng tôi có thể mở rộng quan điểm của mình để xác định xem các biến khác – những biến không nằm trong giả thuyết ban đầu của chúng tôi – có một tác động có ý nghĩa đối với kết quả mong muốn hoặc quan sát được của chúng tôi.
10. Biến động
Dữ liệu của bạn cần tồn tại bao lâu trước khi bị coi là không liên quan, mang tính lịch sử hoặc không còn hữu ích nữa? Dữ liệu cần được lưu giữ trong bao lâu?
Khi nói về tính không ổn định của Dữ liệu lớn, chúng ta có thể dễ dàng nhớ lại chính sách lưu giữ dữ liệu có cấu trúc mà chúng ta thực hiện hàng ngày trong các doanh nghiệp của mình. Khi hết thời gian lưu trữ, chúng ta có thể dễ dàng tiêu hủy nó.
Tuy nhiên, do tốc độ và khối lượng của dữ liệu lớn nên tính không ổn định của nó cần được xem xét cẩn thận. Giờ đây, bạn cần thiết lập các quy tắc về tính sẵn có và tính sẵn có của dữ liệu cũng như đảm bảo việc truy xuất thông tin nhanh chóng khi được yêu cầu.
11. Lỗ hổng
Bạn có nhớ Vụ hack Ashley Madison năm 2015 không? Hoặc bạn có nhớ vào tháng 5 năm 2016, CRN đã báo cáo “một tin tặc có tên là Peace đã đăng dữ liệu lên web tối để bán, dữ liệu được cho là bao gồm thông tin về 167 triệu Tài khoản LinkedIn cũng như 360 triệu email và mật khẩu của Người dùng MySPace.
Dữ liệu lớn mang đến những lo ngại mới về bảo mật. Đặc biệt với những đặc điểm này, việc phát triển một chương trình bảo mật cho Dữ liệu lớn trở thành một thách thức. Xét cho cùng, vi phạm dữ liệu là một vi phạm lớn.
Vậy tất cả những điều này cho chúng ta biết gì về bản chất của Dữ liệu lớn? Chà, nó đồ sộ và mở rộng nhanh chóng, nhưng nó cũng ồn ào, lộn xộn, thay đổi liên tục, ở hàng trăm định dạng và hầu như vô giá trị nếu không có sự phân tích và trực quan hóa.
Khối lượng, tốc độ và sự đa dạng không chỉ là những tham số chính của Dữ liệu lớn mà còn là lý do khai sinh ra khái niệm Dữ liệu lớn và những đặc điểm phân biệt chính giữa dữ liệu thông thường và Dữ liệu lớn. Mặc dù chúng là nội tại của chính Dữ liệu lớn, nhưng các tính năng khác của V là Tính biến đổi, tính xác thực, trực quan hóa và giá trị là các thuộc tính quan trọng phản ánh mức độ phức tạp khổng lồ mà Dữ liệu lớn thể hiện cho những người sẽ xử lý, phân tích và hưởng lợi từ nó.
Không còn nghi ngờ gì nữa, Dữ liệu lớn là xu hướng chính mà CNTT doanh nghiệp phải đáp ứng bằng cơ sở hạ tầng máy tính phù hợp. Nhưng nếu không có các nhà khoa học dữ liệu và phân tích hiệu suất cao để hiểu được tất cả, bạn sẽ gặp rủi ro khi chỉ tạo ra Chi phí lớn mà không tạo ra giá trị chuyển thành lợi thế kinh doanh.