Computer >> Máy Tính >  >> Lập trình >> Python

Trích xuất địa chỉ email bằng cách sử dụng biểu thức chính quy trong Python


Địa chỉ email khá phức tạp và không có một tiêu chuẩn nào được tuân thủ trên toàn thế giới, điều này gây khó khăn cho việc xác định một email trong regex. RFC 5322 chỉ định định dạng của địa chỉ email. Chúng tôi sẽ sử dụng định dạng này để trích xuất địa chỉ email từ văn bản.

Ví dụ:đối với một chuỗi đầu vào nhất định -

 Xin chào, tên tôi là John và địa chỉ email là john.doe@somecompany.co.uk và email của bạn tôi là jane_doe124@gmail.com 

Chúng ta sẽ nhận được đầu ra -

 john.doe @ somecompany.co.ukjane_doe124 @ gmail.com 

Chúng ta có thể sử dụng regex sau để loại trừ -

 [a-zA-Z0-9 _. + -] + @ [a-zA-Z0-9 -] + \. [a-zA-Z0-9 -.] + 

Chúng tôi có thể trích xuất các địa chỉ email bằng cách sử dụng phương pháp tìm tất cả từ mô-đun re. Ví dụ:

Ví dụ

 import remy_str ="Xin chào tên tôi là John và địa chỉ email là john.doe@somecompany.co.uk và email của bạn tôi là jane_doe124@gmail.com" email =re.findall ("([a-zA-Z0 -9 _. + -] + @ [a-zA-Z0-9 -] + \. [A-zA-Z0-9 -.] +) ", My_str) cho thư trong email:print (mail)  

Đầu ra

Điều này sẽ cung cấp đầu ra -

 john.doe @ somecompany.co.ukjane_doe124 @ gmail.com