Cơ sở dữ liệu Python Unicode

Mô-đun unicodedata được sử dụng để truy cập tất cả các ký tự Unicode bằng cách sử dụng cơ sở dữ liệu ký tự Unicode. Trong cơ sở dữ liệu này, có các thuộc tính ký tự của tất cả các ký tự.

Để sử dụng mô-đun này, chúng tôi cần nhập dữ liệu unicode mô-đun trong mã của chúng tôi.

import unicodedata

Phương thức cơ sở dữ liệu Unicode

Một số mô-đun của mô-đun unicodedata được mô tả ở đây.

Mô-đun (unicodedata.lookup (tên)) -

Phương pháp này được sử dụng để tra cứu các ký tự theo tên. Khi tên hợp lệ, nó sẽ trả về ký tự. Nếu không, nó sẽ làm tăng KeyError.

Mô-đun (unicodedata.name (chr [, default])) -

Phương thức này được sử dụng để trả về tên của ký tự đã cho dưới dạng chuỗi. Nếu giá trị mặc định được cung cấp, nó có thể trả về giá trị mặc định, khi ký tự không có trong cơ sở dữ liệu, nếu không, nó sẽ làm tăng ValueError.

Mô-đun (unicodedata.digit (chr [, default])) -

Phương thức này được sử dụng để trả về chữ số nguyên của ký tự đã cho. Nếu giá trị mặc định được cung cấp, nó có thể trả về giá trị mặc định, khi ký tự không có mặt hoặc không đúng cách trong cơ sở dữ liệu, nếu không, nó sẽ làm tăng ValueError.

Mô-đun (unicodedata.category (chr)) -

Phương thức này được sử dụng để trả về danh mục chung được gán với ký tự. Giống như đối với các chữ cái, nó sẽ trả về ‘L’, đối với chữ hoa, nó sẽ là ‘u’, đối với Mở ngoặc, nó sẽ trả về Ps (Bắt đầu bằng dấu chấm câu), v.v.

Mô-đun (unicodedata.mirrored (chr)) -

Phương pháp này được sử dụng để kiểm tra xem ký tự có bất kỳ ký tự nào được nhân đôi hay không. Một số ký tự có ký tự được sao chép như ‘(’ và ‘)’, v.v. Khi khớp với ký tự được phản chiếu, nó sẽ trả về 1, ngược lại là 0.

Mã mẫu

import unicodedata as ud
print(ud.lookup('ASTERISK'))
print(ud.lookup('Latin Capital letter G'))

#The Unicode name from the characters
print(ud.name(u'x'))
print(ud.name(u'°'))

#The Unicode character to decimal and numerics
print(ud.decimal(u'6'))
print(ud.numeric(u'9'))

#The Unicode character categoty
print(ud.category(u'A'))
print(ud.category(u'9'))
print(ud.category(u'[')) #Punctuation Start

#Unicode character to check whether mirrored or not
print(ud.mirrored(u'A'))
print(ud.mirrored(u'<'))

Đầu ra

*
G
LATIN SMALL LETTER X
DEGREE SIGN
6
9.0
Lu
Nd
Ps
0
1