Computer >> Máy Tính >  >> Lập trình >> Lập trình

Tại sao cần thống kê trong khai thác dữ liệu?

Thống kê là khoa học của việc học từ dữ liệu. Nó chứa mọi thứ từ lập kế hoạch cho tập hợp các bản ghi và quản trị dữ liệu tiếp theo cho đến các hoạt động đầu cuối bao gồm rút ra các suy luận từ các dữ kiện số được gọi là dữ liệu và trình bày kết quả. Thống kê liên quan đến điều cần thiết nhất của người được yêu cầu:nhu cầu khám phá thêm về toàn cầu và cách nó hoạt động khi đối mặt với sự đổi mới và sự không chắc chắn.

Thông tin là sự truyền đạt kiến ​​thức. Dữ liệu được gọi là dữ liệu thô và không phải là kiến ​​thức của chính chúng. Trình tự từ dữ liệu đến tri thức như sau:từ dữ liệu đến thông tin (dữ liệu phát triển thành thông tin khi chúng phát triển thành phù hợp với vấn đề quyết định); từ thông tin thành sự kiện (thông tin trở thành sự thật khi dữ liệu có thể hỗ trợ nó) và cuối cùng, từ sự kiện thành kiến ​​thức (sự kiện trở thành kiến ​​thức khi chúng được sử dụng trong sự cạnh tranh thành công của quá trình quyết định).

Thống kê nảy sinh từ nhu cầu đặt kiến ​​thức trên cơ sở bằng chứng có hệ thống. Điều này cần một nghiên cứu về các quy luật xác suất, sự phát triển của tính toán các thuộc tính và mối quan hệ dữ liệu, v.v.

Thống kê xác định việc phân tích và trình bày các bản ghi số, đây là yếu tố thiết yếu của tất cả các thuật toán khai thác dữ liệu. Nó hỗ trợ các công cụ và phương pháp phân tích để xử lý một lượng dữ liệu khổng lồ. Thống kê bao gồm việc lập kế hoạch, thiết kế, thu thập thông tin, phân tích và báo cáo các kết quả nghiên cứu. Bởi vì những số liệu thống kê này không chỉ được định nghĩa cho toán học, mà một nhà phân tích kinh doanh cũng sử dụng số liệu thống kê để giải quyết các vấn đề kinh doanh.

Thống kê tham chiếu được sử dụng cho một mẫu để ước tính giá trị của các tham số của tập hợp. Nó có thể thực hiện các bài kiểm tra giả thuyết để xem liệu hai tập dữ liệu giống nhau hay khác nhau. Nó được sử dụng để tiến hành phân tích hồi quy tuyến tính hoặc nhiều hồi quy để giải thích nguyên nhân.

Kiểm tra giả thuyết có thể so sánh bằng số hai tập dữ liệu. Ví dụ, có thể cảm thấy (giả thuyết) rằng khối lượng bán hàng này tương đương hoặc tốt hơn của đối thủ cạnh tranh chính. Nó có thể sử dụng kiểm tra giả thuyết để xác nhận hoặc bác bỏ giả định này về mặt toán học.

Phân tích tương quan là một công cụ đơn giản để tách các biến quan tâm khỏi một số biến ngẫu nhiên, thường được quan sát trong bộ dữ liệu khổng lồ, để xem biến kinh doanh nào ảnh hưởng đáng kể đến kết quả kinh doanh mong muốn.

Một số thống kê có thể được sử dụng để chuẩn bị các biểu đồ để kiểm soát chất lượng, bao gồm biểu đồ Shewhart và biểu đồ cusum (cả hai đều hiển thị số liệu thống kê tóm tắt của nhóm). Các thống kê này chứa giá trị trung bình, độ lệch chuẩn, phạm vi, số lượng, đường trung bình động, độ lệch chuẩn di chuyển và phạm vi di chuyển.