• Tidak ada hasil yang ditemukan

Mở đầu

Chương 3: Ứng dụng mô hình DOC vào chuẩn hóa tên bệnh

3.1. Ứng dụng chuẩn hóa tên thực thể bệnh

3.2.1. Mô hình đề xuất

Tổng quan về mô hình đề xuất được minh họa trong Hình 3.3. Nó là một mô hình đường ống bao gồm ba thành phần:

• Mô đun tiền xử lý và phân giải viết tắt.

• Mô-đun khớp từ điển để đẩy nhanh việc chuẩn hoá.

• Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (không được tìm thấy trong từ điển) thành định danh của nó trong bộ từ vựng.

Hình 3.2: Mô hình đường ống chuẩn hoá thực thể tên bệnh.

28 Bộ phân giải viết tắt

Trong tài liệu y sinh, có rất nhiều thực thể tên bệnh dài, và thường được gọi bằng cách sử dụng các từ viết tắt. Không có một quy tắc thống nhất nào để có thể phân giải được từ viết tắt thành tên đầy đủ vì trong các tài liệu khác nhau một từ viết tắt có thể có ý nghĩa khác nhau và/ngược lại các từ khác nhau có thể có cùng ý nghĩa.

Đối với các thực thể tên bệnh, luận văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt. Ab3p được sử dụng để xác định từ viết tắt trong tài liệu và đưa ra danh sách các từ đầy đủ cho nó cùng với xác suất đi kèm. Ví dụ, nếu thực thể PFS xuất hiện trong tài liệu, Ab3P sẽ phát hiện ra nó và trả về kết quả: PFS|

progression-free survival (sống sót không có tiến triển) | 0.999408; trong đó PFS là tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắt là cho tên đầy đủ.

Ngoài ra, để phục vụ cho mô đun tìm kiếm từ điển, các tên bệnh (được đề cập trong văn bản cũng như trong tập từ vựng MEDIC) được chuyển về chữ thường. Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ. Các tên được chuyển về dạng gốc của nó bằng công cụ Snowball.

Mạng nơ ron học sâu thế giới mở

Với mỗi thực thể tên bệnh m trong tài liệu được gán nhãn định danh IDm, tạo ra:

 Một tập Nm+ gồm các tên bệnh trong từ vựng (n+) có nhãn định danh là IDm. Cặp <m, n+> được xem là một ví dụ dương.

 Một tập Nm-, có kích cỡ bằng của Nm+, gồm các tên bệnh trong từ vựng (n-) mà không có nhãn định danh là IDm. Các tên bệnh n- này là những tên giống với m nhất, được tính theo độ đo tích vô hướng của vector TF-IDF(m) và TF- IDF(n-), trong đó TF-IDF(.) là vector tần số từ-tần số tài liệu ngược. Cặp <m, n-> được xem là một ví dụ âm.

Đặt M = {m1, m2, ..., mn} là tập chứa tất cả các thực thể tên bệnh xuất hiện trong văn bản trong tập huấn luyện. Tập dữ liệu huấn luyện dương và âm (tương ứng gồm các cặp ví dụ dương và âm) được tạo ra từ tất cả các thực thể mi trong M. Điều tương tự cũng được tạo ra cho tất cả văn bản trong tập dữ liệu kiểm định (Validation) để tinh chỉnh mô hình.

29

Luận văn sử dụng mô hình chuẩn hoá tên thực thể y sinh dựa trên mạng nơ ron tích chập (CNN) do Cho và cộng sự giới thiệu năm 2017 [3]. Luận văn ứng dụng học thế giới mở bằng cách thay tầng softmax cuối cùng bằng tầng 1-so-với-còn lại sigmoids, như được sử dụng trong mô hình DOC.

Mô hình do Cho và cộng sự giới thiệu nhận đầu vào là 2 tập Nm+ và Nm- như được mô tả ở trên đây. Mỗi một cặp <m, n> được đi qua tầng nhúng từ (embedding) để tạo ra ma trận các vector biễu diễn cho các từ trong mention m và tên (name) n. Ở tầng tích chập (convolution) tiếp theo các bộ lọc (filter) với kích thước khác nhau sẽ được áp dụng độc lập trên mention m và tên n để tạo ra các bản đồ đặc trưng chập (convolution feature maps). Các bản đồ đặc trưng trên m và n sẽ được đi qua hai tầng pooling trước khi được gộp lại với nhau tại tầng gộp (join layer). Ngoài ra, đầu ra của hai tầng pooling còn được đi qua tầng so khớp giống nhau (similarity matching) để tạo ra một đặc trưng thể hiện sự giống nhau của m và n. Đặc trưng này cũng được gộp vào với 2 đặc trưng pooling ở tầng gộp. Đầu ra từ tầng gộp sẽ được cho đi qua một tầng ẩn kết nối đầy đủ trước khi cho qua tầng softmax cuối cùng. Kiến trúc tổng thể của mô hình của Cho và cộng sự được thể hiện ở Hình 3.3.

Hình 3.3. Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa trên mạng nơ ron tích chập do Cho và cộng sự đề xuất [3].

30

Kết luận Chương 3

Chương 3 giới thiệu một mô hình ứng dụng DOC vào bài toán con quan trọng, thiết yếu cho quá trình trích xuất tự động tri thức (được viết dưới dạng phi cấu trúc) trong văn bản y sinh, đó là (i) chuẩn hóa thực thể tên bệnh. Đây là bài toán thường có sự xuất hiện của các đối tượng dữ liệu thuộc lớp mới chưa xuất hiện trong lúc huấn luyện mô hình, đặc biệt là trong lĩnh vực y sinh. Chương 4 sau đây sẽ trình bày kết quả thực nghiệm của mô hình ứng dụng này.

31

Dokumen terkait