CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN
3.2. Thử nghiệm
3.2.2. Kết quả thực hiện khi cho mô hình học và kiểm tra trên tập dữ liệu
Với bộ tham số tối ưu được lựa chọn ở mục 3.1.2, kết quả thu được tối ưu nhất được thể hiện như bảng 3.3:
precision recall f-score
58.94 54.53 56.65
58.33 58.36 58.35
54.51 59.62 56.95
54.98 66.60 60.24
55.37 58.68 56.98
56.85 61.57 59.12
61.68 43.02 50.69
55.61 61.13 58.24
57.06 60.75 58.85
61.30 40.44 48.73
Giá trị trung bình 10 lần
57.46 56.47 56.96
39
Bảng 3.3 – Bảng độ đo kết quả thực hiện (lấy trung bình)
Nhìn vào số liệu tại bảng 3.3, chúng ta có thể thấy độ đo trung bình điều hòa F của mô hình đề xuất giao động trong khoảng từ [48.73-60.24], trong đó mức thấp dưới 50% chỉ có một bản ghi, còn lại từ 56% trở lên có 8 bản ghi chứng tỏ tham số mô hình chạy được sẽ có thể đạt được kết quả tốt từ 56% với xác suất lớn.
Kết quả của quá trình thử nghiệm đã đáp ứng được việc phân lớp mối quan hệ giữa các cặp thuốc và bệnh lý vào tập “Có quan hệ”, vì vậy cũng đáp ứng được mục tiêu đề ra là việc dự đoán tác dụng phụ của thuốc trên y văn.
Hình 3.2 – Đồ thị biểu diễn độ chính xác trong quá trình học của thuật toán
Nhìn vào hình 3.2, chúng ta có thể thấy trong quá trình học của thuật toán, việc kiểm tra chéo (đường test) không tiệm cận tới độ chính xác của đường train (gần 1), chứng tỏ mô hình không bị overfitting, vì vậy mô hình đề xuất có thể đáp ứng được việc đưa vào kiểm tra với tập dữ liệu test.
So sánh mô hình đề xuất với một số mô hình khác cùng sử dụng chung tập dữ liệu BioCreative V CDR cho bài toán dự đoán tác dụng phụ của thuốc
40
Phương thức Hệ thống Mô tả P R F
Machine learning không sử dụng KB
Luận văn thực hiện
CNN+Bi-LSTM 57.46 56.47 56.96
Zhou và cộng sự [21]
CNN 41.1 55.3 47.2
LSTM 54.9 51.4 53.1
LSTM+SVM 64.9 49.3 56.0
LSTM+SVM+PP 55.6 68.4 61.3
Gu và cộng sự [09] ME 62 55.1 58.3
Xu và cộng sự [19] SVM 59.6 44.0 50.7
Bảng 3.4 – Bảng so sánh kết quả của mô hình đề xuất với một số mô hình đã được nghiên cứu trước đây
Nhìn vào bảng 3.4 so sánh kết quả, ta thấy mô hình đề xuất của tác giả trong luận văn cho kết quả trung bình ở mức tương đối tốt so với các mô hình đã được đề xuất trước đó. Các độ đo của mô hình đề xuất có tính hài hòa hơn so với các mô hình còn lại.
3.3. Đánh giá
Dựa vào kết quả thực nghiệm, một số kết luật được rút ra như sau:
- Mô hình được sử dụng trong luận văn đã thành công trong việc dự đoán tác dụng phụ của thuốc khi chạy trên tập dữ liệu BioCreative V CDR
- Khi so sánh với các thuật toán khác đã được dùng, tác giả thấy mô hình được sử dụng trong luận văn cho kết quả dự đoán khá tương đồng so với các nghiên cứu trước đây.
- Tuy nhiên kết quả còn thấp hơn so với một số thuật toán khác do cách tính kết quả cuối cùng là trung bình của các lần chạy (một số lần chạy có độ đo điều hòa F tương đối tối 58% ~60% - xuất hiện 5 lần trên tổng số 10 lần chạy).
41
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Với số lương nghiên cứu y văn ngày càng lớn, việc trích xuất thông tin một cách tự động từ kho dữ liệu khổng lồ này ngày càng quan trọng và có ý nghĩa. Rất nhiều phương pháp tiếp cận khác nhau đã được các nhà khoa học sử dụng, trong đó có các phương thức học máy đã và đang được nghiên cứu mang lại hiệu quả khá tốt.
Trong luận văn này, tác giả đã áp dụng thành công mô hình lai giữa mạng nơ ron tích chập và mạng nơ ron hồi quy áp dụng được vào việc dự đoán tác dụng phụ của thuốc từ y văn với độ chính xác khá tốt, có thể áp dụng được vào thực tế.
Trong tương lai, tác giả sẽ tiếp tục thu thập và bổ sung các phương pháp, như việc sử dụng cơ sở dữ liệu tri thức về y sinh (Knowledge Base) áp dụng cùng mô hình lai dựa trên mạng nơ ron hay việc áp dụng thêm một số đặc trưng khác để, để cải tiến hiệu năng dự đoán của thuật toán cũng như tìm cách tối ưu các tham số của thuật toán tự động để đạt được kết quả cao hơn.
42
TÀI LIỆU THAM KHẢO
Tiếng Việt
[01] PGS.TS Nguyễn Hà Nam, PGS.TS Hà Quang Thụy, PGS.TS Nguyễn Trí Thành. (2013) “Giáo trình Khai Phá Dữ Liệu”, NXB ĐHQGHN.
Tiếng Anh
[02] Bianca Blanch, Molecular Cardiology Program, Centenary Institute of Cancer Medicine and Cell Biology, Camperdown, Australia; Sydney Medical School, University of Sydney, Camperdown, Australia. (2019) “Encyclopedia of Pharmacy Practice and Clinical Pharmacy”, http://dx.doi.org/10.1016/B978-0- 12-812735-3.00201-6
[03] Bouvy JC, De Bruin ML, Koopmanschap MA. (2015) “Epidemiology of adverse drug reactions in Europe: a review of recent observational studies.”
Drug Saf; pp.437-53. https://doi.org/10.1007/s40264-015-0281-0. PMID:
25822400; PMCID: PMC4412588
[04] Chih-Hsuan Wei, Alexis Allot, Robert Leaman, Zhiyong Lu. (2019) “PubTator central: automated concept annotation for biomedical full text articles”, Nucleic Acids Research, Volume 47, Issue W1, pp.587–593, https://doi.org/10.1093/nar/gkz389
[05] Comeau,D.C., Dogan,R.I., Ciccarese,P. et al. (2013) “BioC: a minimalist approach to interoperability for biomedical text processing”, Database (Oxford), bat064
[06] European Commission. (2008) “Proposal for a regulation amending, as regards pharmacovigilance of medicinal products for human use. Regulation (EC) No 726/2004”, Impact assessment.
[07] Gurulingappa,H., Rajput,A.M., Roberts,A. et al. (2012) “Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports”, J. Biomed. Inf., 45, pp.885–892
[08] Gurulingappa,H., Klinger,R., Hofmann-Apitius,M. et al. (2010) “An Empirical Evaluation of Resources for the Identification of Diseases and Adverse Effects in Biomedical Literature”, In: The 2nd Workshop on Building and evaluating resources for biomedical text mining. Valetta, Malta.
[09] Gu,J., Qian,L., and Zhou,G. (2016) “Chemical-induced disease relation extraction with various linguistic features”. Database (Oxford), baw042
[10] Hand DJ, Mannila H, Smyth P. (2001) “Principles of data mining”, MIT Press, Massachusetts
43
[11] Hemati, W., Mehler, A. (2019) “LSTMVoter: chemical named entity recognition using a conglomerate of sequence labeling tools”, J Cheminform 11, 3. https://doi.org/10.1186/s13321-018-0327-2
[12] I. Aizenberg, N.N. Aizenberg, and J. P.L. Vandewalle (2000). “Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications”, Springer Science & Business Media
[13] Kant, A., Bilmen, J., & Hopkins, P. M. (2019). “Adverse Drug Reactions.
Pharmacology and Physiology for Anesthesia”, pp.130–143.
https://doi.org/10.1016/b978-0-323-48110-6.00007-7
[14] LeCun, Y., Bengio, Y., & Hinton, G. (2015). “Deep learning. Nature, 521(7553)”, pp.436–444. https://doi.org/10.1038/nature14539
[15] Mulligen,E.M.V., Fourrier-Reglat,A., Gurwitz,D. et al. (2012) “The EU-ADR corpus: annotated drugs, diseases, targets, and their relationships”. J. Biomed.
Inf., 45, pp.879–884
[16] Pennington Jeffrey, Socher Richard, Manning Christopher. (2014) “GloVe:
Global Vectors for Word Representation”, Association for Computational Linguistics, https://doi.org/10.3115/v1/D14-1162
[17] Sinha S., Vohora D. (2017) “Drug Discovery and Development: An Overview”, Pharmaceutical Medicine and Translational Clinical Research, , pp. 19-32 [18] WHO. (1972) “International drug monitoring: the role of national centres”.
Tech Rep Ser WHO, no 498
[19] Xu,J., Wu,Y.H., Zhang,Y.Y. et al. (2016) “CD-REST: a system for extracting chemical-induced disease relation in literature”, Database (Oxford), baw036 [20] Yijia Zhang, Hongfei Lin, Zhihao Yang, Jian Wang, Shaowu Zhang, Yuanyuan
Sun, Liang Yang. (2018) “A hybrid model based on neural networks for biomedical relation extraction”, Journal of Biomedical Informatics, Volume 81, pp.83-92.
[21] Zhou,H.W., Deng,H., Chen,L. et al. (2016) “Exploiting syntactic and semantics information for chemical-disease relation extraction”, Database (Oxford), baw048
ĐẠI HỌC QUỐC GIA HÀ NỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc lập - Tự do - Hạnh phúc
Hà Nội, ngày 17 tháng 07 năm 2021
BẢN XÁC NHẬN ĐÃ SỬA CHỮA CÁC THIẾU SÓT CỦA LUẬN VĂN
Trường Đại học Công nghệ đã có Quyết định số 416/QĐ-ĐT ngày 27 tháng 05 năm 2021 về việc thành lập Hội đồng chấm luận văn Thạc sĩ cho học viên Nguyễn Đức Đông, sinh ngày 26/10/1988, tại Bắc Ninh, chuyên ngành Hệ thống thông tin, ngành Hệ thống thông tin
Ngày 10 tháng 07 năm 2021, Trường Đại học Công nghệ (ĐHCN) đã tổ chức cho học viên bảo vệ luận văn Thạc sĩ trước Hội đồng chấm (có biên bản kèm theo). Theo Quyết nghị của Hội đồng chấm luận văn Thạc sĩ, học viên phải bổ sung và sửa chữa các điểm sau đây trước khi nộp quyển luận văn cuối cùng cho Nhà trường để hoàn thiện hồ sơ sau bảo vệ:
1. Bổ sung trình bày bài toán tác dụng phụ của thuốc là gì, cách chuyển đổi việc nhận dạng thành bài toán phân lớp như thế nào, cấu trúc của tập dữ liệu ra sao, cách xử lý dữ liệu, làm tăng tính logic cũng như làm người đọc dễ hiểu hơn (tại các mục 2.1, 2.2.4)
2. Sử dụng đúng các thuật ngữ đã được sử dụng rộng rãi như “Trí tuệ nhân tạo” (mục 1.2.3.1 – trang 19), “Độ phủ”, “Trung bình điều hòa” (mục 1.2.4 – trang 23) thay cho các thuật ngữ bị sai khác.
3. Chỉnh sửa lại ngày tháng của luận văn đúng với thời điểm hiện tại (06/2021)
4. Sử dụng công thức chuẩn cho việc tính toán các độ đo precicion và recall (tại mục 1.2.4.2)
5. Chỉnh sửa tham chiếu đúng định dạng ngoặc vuông
6. Chỉnh sửa chỉ mục bị đánh sai (3.1 nhảy luôn đến 3.1.1.1), đúng là 3.1.1 7. Chỉnh sửa lại cách đánh số thứ tự các hình vẽ và bảng theo tiền tố chương
8. Bổ sung diễn dải về tập dữ liệu BioCreative V CDR trong thực nghiệm để phục vụ cho bài toán nhận dạng thực thể bệnh và thuốc và mối quan hệ giữa bệnh và thuốc (mục 2.2.3 – trang 31)
9. Bổ sung mô tả chi tiết về 2 mô hình Bi-RNN và CNN được sử dụng trong mô hình lai, bổ sung cách thức tiến hành thực nghiệm (tại mục 2.3.1, 3.1.1, 3.1.2)
10. Bổ sung trích dẫn tại các bảng biểu, hình vẽ sử dụng trong luận văn 11. Chuẩn hóa lại phần tài liệu tham khảo theo đúng quy định
12. Bổ sung phần phân tích kết quả thu được và giải thích các bảng/hình số liệu kết quả (tại mục 3.2.2 – trang 42,43)
13. Sửa lại bảng tóm tắt bổ sung các từ còn thiếu, sắp xếp lại theo thứ tự bảng chữ cái (trang 7)
14. Chỉnh sửa lại nội dung phần mở đầu và mục quá trình phát triển thuốc, bổ sung trích dẫn (trang 10 và trang 12)
15. Chỉnh sửa lại định nghĩa khai phá dữ liệu đúng theo trích dẫn (trang 16) 16. Chỉnh sửa lại mục trích dẫn theo đúng quy định của nhà trường (trang 43, 44)
Ngày 17 tháng 07 năm 2021, học viên đã nộp bản luận văn có chỉnh sửa. Chúng tôi nhận thấy rằng nội dung, hình thức của luận văn và tóm tắt luận văn đã được sửa chữa, bổ sung theo các điểm trên của Quyết nghị.
Đề nghị Trường Đại học Công nghệ, ĐHQG HN cho phép học viên được làm các thủ tục khác để được công nhận và cấp bằng Thạc sĩ.
Xin trân trọng cảm ơn!
XÁC NHẬN CỦA THÀNH VIÊN HỘI ĐỒNG/HỘI ĐỒNG ĐỀ NGHỊ HỌC VIÊN SỬA CHỮA LUẬN VĂN
HỌC VIÊN CÁN BỘ HƯỚNG DẪN XÁC NHẬN CỦA CƠ SỞ ĐÀO TẠO