'Dữ liệu lớn' là việc áp dụng các kỹ thuật và công nghệ chuyên biệt để xử lý các tập hợp dữ liệu rất lớn. Những tập dữ liệu này thường quá lớn và phức tạp nên khó xử lý bằng các công cụ quản lý cơ sở dữ liệu có sẵn.
Sự phát triển triệt để của Công nghệ thông tin đã dẫn đến một số điều kiện miễn phí trong ngành. Một trong những kết quả lâu dài nhất và được cho là hiện tại nhất, là sự hiện diện của Dữ liệu lớn. Thuật ngữ Dữ liệu lớn là một cụm từ dễ hiểu được đặt ra để mô tả sự hiện diện của lượng dữ liệu khổng lồ. Hệ quả của việc có một lượng Dữ liệu khổng lồ như vậy là Phân tích dữ liệu.
Phân tích dữ liệu là quá trình cấu trúc Dữ liệu lớn. Trong Dữ liệu lớn, có các mẫu và mối tương quan khác nhau giúp phân tích dữ liệu có thể tính toán tốt hơn đặc tính của dữ liệu. Điều này làm cho phân tích dữ liệu trở thành một trong những phần quan trọng nhất của công nghệ thông tin.
Do đó, ở đây tôi liệt kê 26 kỹ thuật phân tích dữ liệu lớn. Danh sách này không có nghĩa là đầy đủ.
-
Thử nghiệm A/B
Thử nghiệm A/B là công cụ đánh giá để xác định phiên bản nào của trang web hoặc ứng dụng giúp tổ chức hoặc cá nhân đạt được mục tiêu kinh doanh hiệu quả hơn. Quyết định này được đưa ra bằng cách so sánh phiên bản nào của thứ gì đó hoạt động tốt hơn. Thử nghiệm A/B thường được sử dụng trong quá trình phát triển web để đảm bảo rằng các thay đổi đối với trang web hoặc thành phần trang được thúc đẩy bởi dữ liệu chứ không phải ý kiến cá nhân.
Nó còn được gọi là thử nghiệm tràn hoặc thử nghiệm xô.
-
Học quy tắc liên kết
Một tập hợp các kỹ thuật để khám phá các mối quan hệ thú vị, tức là “các quy tắc kết hợp” giữa các biến trong cơ sở dữ liệu lớn. Những kỹ thuật này bao gồm nhiều thuật toán khác nhau để tạo và kiểm tra các quy tắc có thể.
Một ứng dụng là phân tích giỏ thị trường, trong đó nhà bán lẻ có thể xác định sản phẩm nào thường được mua cùng nhau và sử dụng thông tin này để tiếp thị. (Một ví dụ thường được trích dẫn là việc phát hiện ra rằng nhiều người mua sắm ở siêu thị mua khoai tây chiên cũng mua bia.)
-
Phân tích cây phân loại
Phân loại thống kê là một phương pháp xác định các danh mục mà một quan sát mới thuộc về. Nó yêu cầu tập huấn luyện các quan sát được xác định chính xác – nói cách khác là dữ liệu lịch sử.
Phân loại thống kê đang được sử dụng để:
- Tự động gán tài liệu cho các danh mục
- Phân loại sinh vật thành các nhóm
- Phát triển hồ sơ của sinh viên tham gia các khóa học trực tuyến
-
Phân tích cụm
Một phương pháp thống kê để phân loại các đối tượng chia một nhóm đa dạng thành các nhóm nhỏ hơn gồm các đối tượng tương tự mà các đặc điểm tương tự của chúng không được biết trước. Một ví dụ về phân tích cụm là phân khúc người tiêu dùng thành các nhóm giống nhau để tiếp thị mục tiêu. Được sử dụng để khai thác dữ liệu.
-
Crowdsourcing
Trong dịch vụ cộng đồng, sắc thái là, một nhiệm vụ hoặc công việc được thuê ngoài nhưng không phải cho một chuyên gia hoặc tổ chức được chỉ định mà cho công chúng dưới dạng một cuộc gọi mở. Crowdsourcing là một kỹ thuật có thể được triển khai để thu thập dữ liệu từ nhiều nguồn khác nhau như tin nhắn văn bản, cập nhật trên mạng xã hội, blog, v.v. Đây là một kiểu cộng tác đại chúng và là một ví dụ của việc sử dụng Web.
-
Kết hợp dữ liệu và tích hợp dữ liệu
Một quy trình đa cấp xử lý sự liên kết, tương quan, kết hợp dữ liệu và thông tin từ một nguồn và nhiều nguồn để đạt được vị trí tinh tế, xác định các ước tính và đánh giá đầy đủ và kịp thời các tình huống, các mối đe dọa và tầm quan trọng của chúng.
Kỹ thuật tổng hợp dữ liệu kết hợp dữ liệu từ nhiều cảm biến và thông tin liên quan từ cơ sở dữ liệu được liên kết để cải thiện độ chính xác và suy luận cụ thể hơn so với chỉ sử dụng một cảm biến.
-
Khai thác dữ liệu
Khai thác dữ liệu là sắp xếp dữ liệu để xác định các mẫu và thiết lập mối quan hệ. Khai thác dữ liệu được đề cập đến các kỹ thuật khai thác dữ liệu tập thể được thực hiện trên khối lượng lớn dữ liệu. Các tham số khai thác dữ liệu bao gồm Liên kết, Phân tích trình tự, phân loại, Phân cụm và Dự báo.
Các ứng dụng bao gồm khai thác dữ liệu khách hàng để xác định các phân khúc có nhiều khả năng phản hồi ưu đãi nhất, khai thác dữ liệu nguồn nhân lực để xác định đặc điểm của những nhân viên thành công nhất hoặc phân tích giỏ thị trường để lập mô hình hành vi mua hàng của khách hàng.
-
Học tập theo nhóm
Đó là một nghệ thuật kết hợp tập hợp các thuật toán học tập đa dạng lại với nhau để ứng biến về tính ổn định và khả năng dự đoán của mô hình. Đây là một kiểu học có giám sát.
-
Thuật toán di truyền
Kỹ thuật tối ưu hóa sử dụng các quy trình như tổ hợp gen, đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên các khái niệm về tiến hóa tự nhiên. Thuật toán di truyền là các kỹ thuật được sử dụng để xác định các video, chương trình truyền hình và các hình thức truyền thông khác có khả năng được xem nhiều nhất. Có một mô hình tiến hóa có thể được thực hiện bằng cách sử dụng thuật toán di truyền. Phân tích video và phương tiện truyền thông có thể được thực hiện bằng cách sử dụng các thuật toán di truyền.
-
Máy học
Máy học là một kỹ thuật khác có thể được sử dụng để phân loại và xác định kết quả có thể xảy ra của một tập hợp dữ liệu cụ thể. Machine Learning định nghĩa một phần mềm có thể xác định các kết quả có thể xảy ra của một nhóm sự kiện nhất định. Do đó, nó được sử dụng trong phân tích dự đoán. Một ví dụ về phân tích dự đoán là xác suất thắng kiện hoặc thành công của một số tác phẩm nhất định.
-
Xử lý ngôn ngữ tự nhiên
Một tập hợp các kỹ thuật từ một chuyên ngành phụ của khoa học máy tính (trong lĩnh vực lịch sử gọi là “trí tuệ nhân tạo”) và ngôn ngữ học sử dụng thuật toán máy tính để phân tích ngôn ngữ (tự nhiên) của con người. Nhiều kỹ thuật NLP là các loại máy học. Một ứng dụng của NLP là sử dụng phân tích tình cảm trên phương tiện truyền thông xã hội để xác định cách khách hàng tiềm năng phản ứng với chiến dịch xây dựng thương hiệu.
-
Mạng nơ-ron
Các mô hình dự đoán phi tuyến tính học hỏi thông qua đào tạo và có cấu trúc giống mạng thần kinh sinh học. Chúng có thể được sử dụng để nhận dạng và tối ưu hóa mẫu. Một số ứng dụng mạng thần kinh liên quan đến việc học có giám sát và những ứng dụng khác liên quan đến việc học không giám sát. Ví dụ về các ứng dụng bao gồm xác định những khách hàng có giá trị cao có nguy cơ rời bỏ một công ty cụ thể và xác định các yêu cầu bảo hiểm gian lận.
-
Tối ưu hóa
Một danh mục các kỹ thuật số được sử dụng để thiết kế lại các quy trình và hệ thống phức tạp nhằm cải thiện hiệu suất của chúng theo một hoặc nhiều thước đo khách quan (ví dụ:chi phí, tốc độ hoặc độ tin cậy). Ví dụ về các ứng dụng bao gồm cải thiện các quy trình hoạt động như lập lịch trình, định tuyến và bố trí tầng cũng như đưa ra các quyết định chiến lược như chiến lược phạm vi sản phẩm, phân tích đầu tư được liên kết và chiến lược danh mục đầu tư R&D. Thuật toán di truyền là một ví dụ về kỹ thuật tối ưu hóa.
Trong blog tiếp theo, tôi sẽ mô tả 13 Kỹ thuật phân tích dữ liệu lớn còn lại.