Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các quy tắc khai thác sử dụng web là gì?

Khai thác web xác định quy trình sử dụng các kỹ thuật khai thác dữ liệu để trích xuất các xu hướng và dữ liệu có lợi nói chung với sự trợ giúp của web bằng cách xử lý nó từ các bản ghi và dịch vụ dựa trên web, nhật ký máy chủ và siêu liên kết. Mục tiêu của khai thác web là tìm các thiết kế trong hồ sơ web bằng cách thu thập và phân tích thông tin để có được những hiểu biết cần thiết.

Khai phá web có thể được xem như là phần mềm của các phương pháp tiếp cận khai thác dữ liệu thích ứng với internet, trong khi khai thác dữ liệu được định nghĩa là ứng dụng của thuật toán để khám phá các mẫu trên dữ liệu có cấu trúc nói chung được cố định thành quá trình khám phá tri thức.

Khai thác web có các tính năng đặc biệt để cung cấp một tập hợp nhiều kiểu dữ liệu. Web có nhiều phần tử mang lại nhiều cách tiếp cận cho quy trình khai thác, bao gồm các trang web bao gồm văn bản, các trang web được liên kết qua siêu liên kết và hoạt động của khách hàng có thể được theo dõi thông qua nhật ký máy chủ web.

Có nhiều quy tắc khai thác sử dụng web như sau -

Tiền xử lý - Nhật ký sử dụng web không ở định dạng mà các ứng dụng khai thác có thể truy cập được. Đối với một số dữ liệu được sử dụng trong ứng dụng khai thác, dữ liệu có thể được yêu cầu định dạng lại và làm sạch. Có một số vấn đề cụ thể liên quan đến việc sử dụng nhật ký web. Có một số bước được bao gồm trong giai đoạn xử lý bao gồm làm sạch, xác định người dùng, xác định phiên, hoàn thành đường dẫn và định dạng.

Cấu trúc dữ liệu - Có một số cấu trúc dữ liệu duy nhất đã được đề xuất để theo dõi các mẫu được xác định trong quá trình khai thác sử dụng web. Cấu trúc dữ liệu cơ bản được sử dụng được gọi là cây. Cây là một cây có rễ, trong đó mỗi con đường từ gốc đến lá biểu thị một trình tự. Cây có thể lưu chuỗi cho các ứng dụng khớp mẫu. Vấn đề duy nhất với cây là yêu cầu về không gian.

Khám phá mẫu - Kỹ thuật khai thác dữ liệu phổ biến nhất được sử dụng trên dữ liệu dòng nhấp là kỹ thuật phát hiện các mẫu truyền tải. Mẫu duyệt là một nhóm các trang được người dùng kiểm tra trong một phiên. Loại mô hình khác có thể được phát hiện bởi khai thác sử dụng web. Các mẫu được tìm thấy bằng cách sử dụng các kết hợp khác nhau được sử dụng để khám phá các tính năng khác nhau và cho các mục đích khác nhau.

Phân tích mẫu - Khi các mẫu được phát hiện, chúng phải được phân tích để xác định xem thông tin đó có thể được sử dụng như thế nào. Một số mẫu có thể bị xóa và không được xác định là quan tâm.

Phân tích mẫu là giai đoạn xem và giải thích kết quả của các hoạt động khám phá. Không cần thiết phải xác định các loại mẫu truyền tải thường xuyên mà còn phải xác định các mẫu được quan tâm vì tính duy nhất hoặc thuộc tính thống kê của chúng.