Computer >> Máy Tính >  >> Lập trình >> Lập trình

Khai thác mô hình tuần tự là gì?

Khai thác mẫu tuần tự là khai thác các sự kiện chuỗi hoặc chuỗi con thường xuyên xuất hiện dưới dạng các mẫu. Một ví dụ của kiểu tuần tự là người dùng mua máy ảnh kỹ thuật số Canon phải mua máy in màu HP trong vòng một tháng.

Đối với thông tin bán lẻ, các mẫu tuần tự có lợi cho việc đặt kệ và khuyến mãi. Ngành này cũng như viễn thông và các doanh nghiệp khác, cũng có thể sử dụng các mẫu tuần tự để tiếp thị có mục tiêu, giữ chân người dùng và một số nhiệm vụ.

Có một số lĩnh vực mà các mẫu tuần tự có thể được sử dụng như phân tích mẫu truy cập Web, dự đoán thời tiết, quy trình sản xuất và phát hiện xâm nhập web.

Cho một tập hợp các chuỗi, trong đó mỗi chuỗi bao gồm một tệp sự kiện (hoặc phần tử) và mỗi sự kiện bao gồm một nhóm các mục và được cung cấp ngưỡng tối thiểu do người dùng chỉ định là tối thiểu sup, khai thác mẫu tuần tự khám phá tất cả các chuỗi con thường xuyên, tức là, các chuỗi con có tần suất xuất hiện trong nhóm các chuỗi không nhỏ hơn min_sup.

Hãy để I ={I 1 , Tôi 2 , ..., tôi p } là tập hợp của tất cả các mục. Tập hợp vật phẩm là một tập hợp vật phẩm rỗng. Một chuỗi là một chuỗi các sự kiện có thứ tự. Một trình tự s được biểu thị {e 1 , e 2 , e 3 … E l } nơi sự kiện e 1 xuất hiện trước e 2 , xuất hiện trước e 3 , v.v. Sự kiện e j còn được gọi là phần tử của s.

Trong trường hợp thông tin mua hàng của người dùng, một sự kiện xác định một chuyến đi mua sắm trong đó khách hàng mua các mặt hàng tại một cửa hàng cụ thể. Sự kiện là một tập hợp các mặt hàng, tức là một danh sách không có thứ tự các mặt hàng mà khách hàng đã mua trong chuyến đi. Tập hợp vật phẩm (hoặc sự kiện) được chỉ định (x 1 x 2 ··· x q ), trong đó x k là một mặt hàng.

Một mục có thể xuất hiện chỉ một lần trong một sự kiện của một chuỗi, nhưng có thể xuất hiện nhiều lần trong các sự kiện khác nhau của một chuỗi. Nhiều trường hợp của các mục trong một chuỗi được gọi là độ dài của chuỗi. Một dãy có độ dài l được gọi là dãy l.

Cơ sở dữ liệu trình tự, S, là một nhóm các bộ giá trị, (SID, s), trong đó SID là chuỗi_ID và s là một chuỗi. Ví dụ:S bao gồm các chuỗi cho tất cả người dùng của cửa hàng. Một bộ (SID, s) bao gồm một chuỗi α, nếu α là một dãy con của s.

Giai đoạn khai thác mẫu tuần tự này là một phần trừu tượng của phân tích trình tự mua sắm của người dùng. Các kỹ thuật có thể mở rộng để khai thác mẫu tuần tự trên các bản ghi như sau -

Giai đoạn này không thể đề cập đến một số ứng dụng khai thác mẫu tuần tự. Ví dụ:khi phân tích chuỗi nhấp chuột trên Web, khoảng cách giữa các nhấp chuột trở nên cần thiết nếu người ta cần dự đoán nhấp chuột tiếp theo có thể là gì.

Trong phân tích trình tự DNA, các mẫu gần đúng trở nên hữu ích vì trình tự DNA có thể bao gồm (ký hiệu) chèn, xóa và đột biến. Những yêu cầu đa dạng như vậy có thể được coi là sự nới lỏng hoặc áp dụng hạn chế.