Chương 2. HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG
2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều
2.1.2. Mô hình đề xuất
2.1.2.3. Mô hình đề xuất cho bài toán nhận diện thực thể có tên
Phát biểu cho bài toán nhận diện thực thể có tên như sau.
Đầu vào:
- D: tập mọi dữ liệu văn bản liên quan đến chủ đề thuộc miền ứng dụng
- DL: tập ví dụ mẫu là một tập con của D chứa các dữ liệu văn bản với nhãn thực thể cho trước.
- DU: tập ví dụ mẫu là tập con của D chứa các dữ liệu văn bản chưa gán nhãn để xây dựng tiêu chuẩn kỳ vọng tổng quát.
- L: tập các thực thể có tên Đầu ra:
- Bộ gán nhãn thực thể có tên M: DL sao cho M được đánh giá kiểm thử trên tập ví dụ mẫu DL đạt hiệu quả cao.
Quy trình giải quyết bài toán được trình bày ở Quy trình 2.1.
Pha 1: Các bước tiền xử lý dữ liệu trên tập DL - Bước 1: Module tách câu, tách từ
- Bước 2: Gán nhãn từ loại cho mỗi từ POS - Bước 3: Gán nhãn thực thể NER
53
Pha 2: Xây dựng bộ gán nhãn bán giám sát dựa trên mô hình trường ngẫu nhiên có điều kiện CRFs kết hợp với tiêu chuẩn tổng quát
- Bước 1: Xây dựng tập ràng buộc trên tập DU - Bước 2: Lựa chọn tập thuộc tính trên DL - Bước 3: Xây dựng bộ gán nhãn
- Bước 4: Đánh giá mô hình
Quy trình 2.1 Quy trình giải quyết bài toán
Mô hình đề xuất tương ứng với Quy trình 2.1 cho bài toán gán nhãn thực thể (như thể hiện ở Hình 2.1) được xây dựng gồm 2 giai đoạn như sau:
Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát
Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bước tiền xử lý bán tự động đó là tách từ, gán nhãn từ loại POS, gán nhãn thực thể NER.
Bước 1: Dữ liệu được đưa qua module tách câu để thu được tập các câu. Mỗi
54
câu được đưa qua module tách từ để thu được tập các từ trong câu. Sau bước này thu được tập dữ liệu gồm mỗi từ nằm trên một dòng. Và giữa mỗi câu có một dòng trống.
Bước 2: Tiến hành gán nhãn từ loại POS cho mỗi từ. Việc gán nhãn POS sử dụng tool vnTagger của tác giả Lê Hồng Phương tại trang web http://www.loria.fr/~lehong/tools/vnTagger.php. Đây là phần mềm gán nhãn từ loại POS cho tiếng Việt có độ chính xác cao (khoảng 95%), phần mềm được viết dựa trên phương pháp cực đại entropy.
Bước 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ công.
Giai đoạn 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình trường ngẫu nhiên có điều kiện CRFs kết hợp với tiêu chuẩn tổng quát.
Bước 1: Xây dựng tập ràng buộc.
Áp dụng mô hình chủ đề ẩn LDA trên tập dữ liệu DU để thu được tập các ràng buộc thể hiện phân phối xác suất của tập nhãn thực thể cho trước đặc trưng.
Hình 2.3 Tập các ràng buộc (Constraint file)
Bước 2: Lựa chọn thuộc tính
55
Các thuộc tính được chọn theo mẫu ngữ cảnh từ vựng (kích thước cửa sổ trượt bằng 5):
Mẫu ngữ cảnh Ý nghĩa
S-2 Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại
S-1 Âm tiết quan sát tại vị trí liền trước so với vị trí hiện tại S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau S-1S0 Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại S-2S-1 Âm tiết quan sát tại vị trí -2 và vị trí liền trước
S1S2 Âm tiết quan sát tại vị trí 2 và vị trí liền sau
S-1S0S1 Âm tiết quan sát tại vị trí liền trước, hiện tại và liền sau S-2S-1S0 Âm tiết quan sát tại vị trí -2, vị trí liền trước và hiện tại
S0S1S2 Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại
Bảng 2.1 Mẫu ngữ cảnh từ vựng
Việc lựa chọn thuộc tính còn được dựa trên ngữ cảnh phát hiện tên thực thể:
Các tên thực thể thường được viết hoa ký tự đầu tiên, nếu tất cả các ký tự đều viết hoa thì khả năng đó là tên viết tắt của tổ chức, đôi khi tên thực thể có thể đi cùng với các ký tự số….
Mẫu ngữ cảnh Ý nghĩa
InitialCap Viết hoa chữ cái đầu
AllCaps Viết hoa tất cả các chữ cái
CapsMix Chữ cái thường và hoa lẫn lộn
SingleDigit Số 1 chữ số
HasDigit Có chứa số
DoubleDigits Số 2 chữ số
Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể
Bước 3: Xây dựng bộ gán nhãn
Bước này sử dụng mô hình CRFs để gán nhãn cho chuỗi quan sát trong đó sử dụng các tham số ước lượng được xác định từ tiêu chuẩn kỳ vọng tổng quát đưa vào thuật toán Viterbi cải tiến để tìm chuỗi trạng thái tốt nhất.
56 Bước 4: Đánh giá mô hình
Luận án sử dụng bộ các độ đo cơ bản gồm độ chính xác (precision), độ hồi tưởng (recall) và độ đo F1 (F1 là một chỉ số cân bằng giữa độ chính xác và độ hồi tưởng) để đánh giá mô hình. Mục tiêu của mô hình là xây dựng được mô hình gán nhãn thực thể đạt được giả trị F1 cao.