Viết chương trình bằng Python để xóa các hàng trùng lặp đầu tiên trong khung dữ liệu nhất định

Giả sử, bạn có một khung dữ liệu và kết quả để loại bỏ các hàng trùng lặp đầu tiên là,

Giải pháp

Để giải quyết vấn đề này, chúng tôi sẽ làm theo các bước dưới đây -

Xác định khung dữ liệu
Áp dụng hàm drop_duplicates bên trong cột Id và Age, sau đó chỉ định giữ giá trị ban đầu là "last".

df.drop_duplicates(subset=['Id','Age'],keep='last')

Lưu trữ kết quả bên trong cùng một khung dữ liệu và in nó ra

Ví dụ

Hãy xem cách triển khai bên dưới để hiểu rõ hơn -

import pandas as pd
df = pd.DataFrame({'Id':[1,2,3,4,5,6,2,7,3,9,10],
                     'Age':[12,13,14,13,14,12,13,16,14,15,14]
                  })
print("DataFrame is:\n",df)
df = df.drop_duplicates(subset=['Id','Age'],keep='last')
print("Dataframe after removing first duplicate rows:\n", df)

Đầu ra

DataFrame is:
    Id    Age
0    1    12
1    2    13
2    3    14
3    4    13
4    5    14
5    6    12
6    2    13
7    7    16
8    3    14
9    9    15
10  10    14
Dataframe after removing first duplicate rows:
    Id Age
0    1 12
3    4 13
4    5 14
5    6 12
6    2 13
7    7 16
8    3 14
9    9 15
10  10 14