Computer >> Máy Tính >  >> Lập trình >> Lập trình

Giảm số lượng là gì?

Trong phần Giảm số lượng, khối lượng dữ liệu được giảm xuống bằng cách chọn một hình thức biểu diễn dữ liệu nhỏ hơn, thay thế. Các kỹ thuật này có thể là tham số hoặc phi tham số. Đối với phương pháp tham số, một mô hình được sử dụng để ước tính dữ liệu, do đó chỉ các tham số dữ liệu cần được lưu trữ, thay vì dữ liệu thực tế, ví dụ, mô hình Log-tuyến tính. Các phương pháp phi tham số được sử dụng để lưu trữ phần đại diện ít hơn của dữ liệu, bao gồm biểu đồ, phân nhóm và lấy mẫu.

Có các kỹ thuật giảm thiểu tử số như sau -

Mô hình hồi quy và nhật ký tuyến tính - Các mô hình này có thể được sử dụng để tính gần đúng các dữ liệu đã cho. Trong hồi quy tuyến tính, dữ liệu được mô hình hóa để vừa với một đường thẳng. Ví dụ:một biến ngẫu nhiên, y (được gọi là biến đáp ứng), có thể được mô hình hóa dưới dạng hàm tuyến tính của một biến ngẫu nhiên khác, x (được gọi là biến dự báo), với phương trình y =wx + b, trong đó phương sai của y được giả định là không đổi.

Mô hình tuyến tính nhật ký - Các mô hình này được sử dụng để tính gần đúng các phân phối xác suất đa chiều rời rạc. Đưa ra một tập hợp các bộ giá trị trong n chiều (ví dụ:bởi n thuộc tính), nó có thể coi mỗi bộ giá trị là một điểm trong không gian n chiều.

Mô hình tuyến tính log có thể được sử dụng để đo xác suất của mỗi điểm trong không gian đa chiều đối với một tập hợp các thuộc tính tùy ý, phụ thuộc vào một tập hợp con nhỏ hơn của các kết hợp chiều. Điều này cho phép trường dữ liệu có chiều cao hơn được tạo từ không gian có chiều thấp hơn.

Biểu đồ - Biểu đồ sử dụng binning để phân phối dữ liệu gần đúng và là một hình thức giảm dữ liệu nổi tiếng. Biểu đồ cho một thuộc tính, A, chia sự phân phối dữ liệu của A thành các nhóm con hoặc nhóm rời rạc. Nếu mỗi nhóm chỉ xác định một cặp thuộc tính-giá trị / tần suất riêng lẻ, thì các nhóm được gọi là nhóm singleton.

Phân nhóm - Kỹ thuật phân cụm coi các bộ dữ liệu là các đối tượng. Chúng phân vùng các đối tượng thành các nhóm hoặc cụm để các đối tượng trong một cụm là “tương tự” với nhau và “không giống” với các đối tượng trong các cụm khác. Nó thường được định nghĩa về mức độ "gần" của các đối tượng trong không gian, dựa trên hàm khoảng cách.

Chất lượng của một cụm có thể được xác định bằng đường kính của nó, khoảng cách tối đa giữa hai đối tượng bất kỳ trong cụm. Khoảng cách trung tâm là một thước đo thay thế cho chất lượng cụm và được biểu thị bằng khoảng cách trung bình của mỗi đối tượng cụm từ trung tâm cụm biểu thị “đối tượng trung bình” hoặc điểm trung bình trong khu vực cho cụm.

Lấy mẫu - Lấy mẫu có thể được sử dụng như một cách tiếp cận giảm thiểu dữ liệu vì nó cho phép một tập dữ liệu khổng lồ được xác định bởi một mẫu (hoặc tập con) thông tin ngẫu nhiên nhỏ hơn nhiều.