Khai phá tương lai của công nghệ

(1)

TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN

---

BÁO CÁO NGHIÊN CỨU KHOA HỌC

Tìm hiểu về học sâu, ứng dụng trong bài toán nhận dạng tên thực thể trong xử lý ngôn ngữ tự nhiên

Giảng viên hướng dẫn: ThS. Nguyễn Thành Huy Sinh viên thực hiện: Nguyễn Thành Đạt – 2010A02 Kiều Thị Thu Uyên – 2010A01

Hà Nội, 2024

(2)

2

LỜI MỞ ĐẦU

Học sâu (Deep Learning - DL, còn gọi là học cấu trúc sâu) nói riêng hay học máy (Machine Learning – ML) nói chung đã và đang là chủ đề nóng hổi trong xã hội công nghiệp 4.0 – một xã hội của tư duy bậc cao và sáng tạo. Khoa học công nghệ phát triển một cách nhanh chóng, trong đó, trí tuệ nhân tạo (Artificial Intelligence), IoT (Internet of Things), phát triển ngày càng mạnh mẽ và được ứng dụng vào nhiều lĩnh vực. Là một công nghệ được gửi gắm vô cùng nhiều sự kỳ vọng, DL mang trên mình trọng trách thay đổi những tác vụ, phương pháp truyền thống trong các lĩnh vực khoa học, kinh tế, xã hội, hướng đến kỷ nguyên tự động hóa, hiện đại hóa.

Trong lĩnh vực sản xuất, kỹ thuật số và ứng dụng các kỹ thuật chuyển đổi mô hình hóa đã được ứng dụng từ rất lâu. Dần dần khi việc đo lường và lưu trữ thông tin trở nên số hóa, máy tính đã tham gia vào mô hình này. Cho đến khi mô hình thống kê truyền thống không đủ đáp ứng được sự bùng nổ của dữ liệu thì đây là thời điểm mà DL được ứng dụng vì nó có khả năng xử lý các mẫu dữ liệu phi tuyến tính cao và cho phép khám phá cực khó phát hiện bởi các phương pháp thủ công.

Nhận dạng thực thể có tên (Named entity recognition: NER; còn được gọi là

“nhận dạng thực thể định danh”) là một bài toán con trong bài toán truy xuất thông tin (Information Extraction - IE), thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và thường được giải quyết bằng các kỹ thuật học máy và đặc biệt là học sâu. Tuy là bài toán cơ bản, nhưng NER được coi như một tác vụ tiền đề cho các bài toán phức tạp hơn trong trích xuất thông tin như trích xuất quan hệ hay trích xuất sự kiện. Các nghiên cứu gần đây, đã cho thấy nhận dạng thực thể sử dụng học sâu trong miền có giám sát đang đạt được những kết quả khả quan. Bên cạnh đó, đã có một vài nghiên cứu về việc kết hợp học suốt đời và học sâu trong các bài toán khác như: nhận diện hành động của con người, nhận diện hình ảnh, phân lớp văn bản hay trong lĩnh vực y sinh học. Do đó, sự kết hợp giữa học suốt đời và học sâu mở ra một hướng nghiên cứu mới và mang tính đột phá trong bài toán NER nói chung và bài toán NER trong ngôn ngữ tiếng Anh nói riêng

(3)

3

MỤC LỤC

LỜI MỞ ĐẦU ... 2

I. GIỚI THIỆU VỀ NHẬN DẠNG TÊN THỰC THỂ ... 4

1. Định nghĩa ... 4

2. Mô tả nhiệm vụ ... 4

3. Thách thức ... 5

4. Đo độ đánh giá ... 5

5. Khả năng ứng dụng ... 6

II. GIỚI THIỆU VỀ MẠNG NƠRON VÀ HỌC SÂU ... 7

1. Giới thiệu về mạng nơ ron ... 7

2. Giới thiệu về Học sâu ... 7

III. GIỚI THIỆU MẠNG NƠ RON SỬ DỤNG TRONG BÀI TOÁN ... 9

1. Giới thiệu về transformer ... 9

2. Giới thiệu về BERT ...10

IV. DEMO KẾT QUẢ ...14

1. Mô tả nhiệm vụ ...14

2. Các bước xử lý dữ liệu ...15

3. Giới thiệu chung ...16

4. Môi trường và các công cụ sử dụng thực nghiệm ...16

4.1. Cấu hình phần cứng ...16

4.2. Các phần mềm sử dụng ...17

4.3. Dữ liệu ...17

4.4. Ví dụ thực nghiệm ...19

KẾT LUẬN ...21

TÀI LIỆU THAM KHẢO ...22

(4)

4

I. GIỚI THIỆU VỀ NHẬN DẠNG TÊN THỰC THỂ 1. Định nghĩa

- Luận án sử dụng định nghĩa của bài toán nhận dạng thực thể được phát biểu bởi Aggarwal và Zhai [AZ12]:

“Bài toán nhận dạng thực thể (Named entity recognition, NER) là bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa trước như người, tổ chức và địa điểm…”

- Nhận dạng thực thể có tên (Named Entity Recognition – NER) nhằm xác định và phân loại các thực thể được đặt tên trong văn bản, điển hình như tên người, tên tổ chức, tên địa danh, thời gian v.v. NER có nhiệm vụ đóng vai trò quan trọng trong các ứng dụng trích xuất thông tin, đã được quan tâm nghiên cứu trên thế giới từ đầu những năm 1990. Từ năm 1995, hội thảo quốc tế chuyên đề Hiểu thông điệp (Message Understanding Conference - MUC) lần thứ 6 đã bắt đầu tổ chức đánh giá các hệ thống NER cho tiếng Anh. Tại hội thảo CoNLL năm 2002 và 2003, các hệ thống NER cho tiếng Hà Lan, Tây Ban Nha, Đức và Anh cũng được đánh giá. Trong các tác vụ đánh giá này, người ta xét 4 loại thực thể có tên: tên người, tên tổ chức, tên địa danh và các tên khác. Gần đây, vẫn tiếp tục có các cuộc thi về NER được tổ chức, ví dụ GermInal 2014 cho tiếng Đức.

2. Mô tả nhiệm vụ

- Phạm vi của cuộc thi này là đánh giá khả năng nhận dạng các thực thể có tên thuộc một trong ba loại: tên người, tên tổ chức và tên địa danh.

(5)

5

3. Thách thức

- Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ít thách thức cần giải quyết do sự phong phú và các nhập nhằng của ngôn ngữ. Ví dụ, "JFK"

có thể chỉ tới người "John F. Kennedy”, địa điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó. Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh Nghệ An hay tên một đội bóng “Sông Lam Nghệ An”. Để xác định loại cho thực thể "JFK" hay “Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa nó.

- Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngôn ngữ cũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn. Ngoài ra, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hưởng đến hiệu quả của mô hình nhận dạng

4. Đo độ đánh giá

- Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chính xác (Precision), độ hồi tưởng (Recall) và độ đo F1 (F1-measure).

- Độ đo F:

𝐹1 = 2 ∗ Precision ∗ Recall Precision + Recall

Với

(6)

6

Trong đó:

o

True Positive (TP): predict và actual đều là positive (mô hình phân loại đúng mẫu positive)

o

False Positive (FP): actual là positive nhưng predict lại là negative (mô hình bị nhầm lẫn mẫu positive là negative)

o

True Negative (TN): predict và actual đều là negative (mô hình phân loại đúng mẫu negative)

o

False Negative (FN): actual là negative nhưng predict là positive (mô hình bị nhầm lẫn mẫu negative là positive)

- Độ chính xác(Accuracy) được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dương của hệ thống.

5. Khả năng ứng dụng

- Khả năng ứng dụng của NER:

o Dịch máy tự động: NER có thể giúp cải thiện độ chính xác của dịch máy tự động bằng cách xác định và dịch chính xác các thực thể được đặt tên.

o Trợ lý ảo: thực hiện các tác vụ như đặt lịch hẹn, đặt vé máy bay, v.v. bằng cách xác định các thực thể được đặt tên trong yêu cầu của người dùng

o Trả lời tự động chatbot: NER có thể giúp chatbot hiểu rõ hơn về câu hỏi của người dùng bằng cách xác định các thực thể được đặt tên trong câu hỏi

o Phân tích văn bản: xác định các chủ đề chính trong một bài báo hoặc để trích xuất thông tin từ một tài liệu.

o Xác minh danh tính: xác minh danh tính của người dùng bằng cách xác định các thực thể như tên, số chứng minh nhân dân, số hộ chiếu, v.v. trong tài liệu của người dùng.

o Tóm tắt văn bản: xác định và trích xuất các thực thể quan trọng trong văn bản.

o Phân loại văn bản: theo chủ đề, ví dụ như phân loại email theo loại (spam, quảng cáo, thông tin cá nhân, v.v.)

o Lọc dữ liệu: loại bỏ các thông tin nhạy cảm hoặc không liên quan.

o Tạo dữ liệu huấn luyện: NER có thể được sử dụng để tạo dữ liệu huấn luyện cho các mô hình NLP khác.

(7)

7

II. GIỚI THIỆU VỀ MẠNG NƠRON VÀ HỌC SÂU 1. Giới thiệu về mạng nơ ron

- Mạng nơron nhân tạo (ANN - Artificial Neural Network) là một mô hình học máy lấy cảm hứng từ cấu trúc và chức năng của hệ thống thần kinh sinh học. Mạng nơron được lấy cảm hứng từ cấu trúc của não bộ con người, với nhiều lớp mạng nơron xếp chồng lên nhau để xử lý thông tin. Mạng nơron bao gồm các nơ ron nhân tạo được liên kết với nhau thành các lớp. Các nơron này nhận tín hiệu từ các nơ ron khác, xử lý tín hiệu và truyền tín hiệu đến các nơ ron tiếp theo.

- Cấu trúc của mạng nơron:

o Lớp đầu vào (input layer): Nhận dữ liệu đầu vào.

o Lớp ẩn (hidden layer): Xử lý dữ liệu đầu vào và truyền tín hiệu đến lớp đầu ra.

o Lớp đầu ra (output layer): Cung cấp kết quả của mạng nơ ron.

- Cách thức hoạt động của mạng nơron:

o Dự đoán: Mạng nơron nhận dữ liệu đầu vào và đưa ra dự đoán.

o Tính toán lỗi: Lỗi giữa dự đoán và giá trị thực tế được tính toán.

o Điều chỉnh trọng số: Trọng số của các liên kết giữa các nơron được điều chỉnh để giảm lỗi.

o Lặp lại: Quá trình dự đoán, tính toán lỗi và điều chỉnh trọng số được lặp lại cho đến khi đạt được độ chính xác mong muốn.

2. Giới thiệu về Học sâu

- Học sâu (Deep learning) là một nhánh con của trí tuệ nhân tạo (AI) sử dụng các mạng nơ-ron nhân tạo (ANN) để học hỏi từ dữ liệu từ đó giải quyết được nhiều bài toán mà các mô hình học không sâu truyền thống khó có thể giải quyết được. Các

(8)

8

mô hình học sâu có thể đạt được độ chính xác cao, đôi khi vượt quá hiệu suất của con người.

Mối quan hệ giữa DL – ML – AI

- Nếu coi máy học là công nghệ tiên tiến nhất, thì học sâu là “tiên tiến của tiên tiến”.

Máy học lấy một vài ý tưởng cốt lõi của trí tuệ nhân tạo và tập trung vào việc giải quyết các vấn đề thế giới thực với các neural network được thiết kế để bắt chước khả năng đưa ra quyết định của chúng ta. Học sâu, đúng như tên gọi của nó, đi sâu hơn nữa vào một tập thể các công cụ và kỹ thuật máy học, từ đó áp dụng chúng để giải quyết bất kỳ vấn đề nào đòi hỏi “khả năng tư duy” – con người hay nhân tạo - Đặc điểm chính:

○ Học tự động: Học sâu cho phép máy tính tự động học hỏi từ dữ liệu mà không cần lập trình rõ ràng.

○ Khả năng biểu diễn: Mạng nơ-ron có khả năng biểu diễn các mối quan hệ phức tạp trong dữ liệu.

○ Hiệu quả: Học sâu có thể xử lý lượng dữ liệu lớn một cách hiệu quả.

- Ứng dụng:

o Nhận dạng hình ảnh: Học sâu được sử dụng để nhận dạng các đối tượng trong hình ảnh, ví dụ như nhận diện khuôn mặt, biển báo giao thông, v.v.

o Xử lý ngôn ngữ tự nhiên: Học sâu được sử dụng để hiểu và xử lý ngôn ngữ tự nhiên, ví dụ như dịch máy, tóm tắt văn bản, chatbot, v.v.

o Khai phá dữ liệu: Học sâu được sử dụng để khai phá các mẫu và thông tin ẩn trong dữ liệu, ví dụ như dự đoán giá cổ phiếu, phát hiện gian lận, v.v.

(9)

9

- Lợi ích:

o Độ chính xác cao: Học sâu có thể đạt được độ chính xác cao trong nhiều nhiệm vụ.

o Khả năng mở rộng: Học sâu có thể được áp dụng cho nhiều loại dữ liệu khác nhau.

o Tự động hóa: Học sâu giúp tự động hóa các quy trình thủ công.

- Thách thức:

o Lượng dữ liệu lớn: Học sâu cần lượng dữ liệu lớn để huấn luyện mô hình.

o Yêu cầu tính toán cao: Học sâu đòi hỏi phần cứng mạnh để xử lý.

o Khả năng giải thích: Khả năng giải thích các quyết định của mô hình học sâu vẫn còn hạn chế.

III. GIỚI THIỆU MẠNG NƠ RON SỬ DỤNG TRONG BÀI TOÁN 1. Giới thiệu về transformer

- Transformer là một kiến trúc mô hình quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), được giới thiệu trong bài báo "Attention is All You Need" bởi Vaswani et al., vào năm 2017. Đây là một bước đột phá lớn, vì nó giới thiệu một cách tiếp cận mới không dựa vào mạng nơ-ron hồi quy (RNN) hay mạng nơ-ron tích chập (CNN) truyền thống, mà thay vào đó, nó tận dụng cơ chế self-attention để xử lý dữ liệu dạng chuỗi.

(10)

10

- Cấu trúc cơ bản của Transformer: bao gồm hai phần chính là Encoder và Decoder, mỗi phần được xây dựng từ một chuỗi của các lớp giống nhau.

• Encoder: Bao gồm N lớp lặp lại, mỗi lớp có hai sub-layer chính là multi- head self-attention mechanism và position-wise fully connected feed- forward network. Cơ chế self-attention cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào khi dự đoán một phần của chuỗi đầu ra, giúp cải thiện khả năng hiểu ngữ cảnh và mối quan hệ giữa các từ.

• Decoder: Cũng bao gồm N lớp lặp lại và có cấu trúc tương tự như encoder nhưng thêm một sub-layer nữa, được gọi là multi-head attention mechanism, giúp decoder tập trung vào các vị trí phù hợp trong chuỗi đầu vào thông qua các lớp encoder. Điều này giúp mô hình dịch chính xác hơn khi thực hiện các tác vụ như dịch máy.

- Đặc điểm chính:

• Self-attention: Cho phép mô hình đánh giá mức độ quan trọng của các từ khác nhau trong cùng một câu đối với một từ cụ thể, giúp hiểu được ngữ cảnh tốt hơn.

• Positional encoding: Vì Transformer không sử dụng RNN hoặc CNN, nên cần một cách để lưu trữ thông tin về vị trí tương đối hoặc tuyệt đối của các từ trong câu. Positional encoding được thêm vào đầu vào để bổ sung thông tin về thứ tự của từ.

• Multi-head attention: Cải thiện khả năng tập trung của mô hình bằng cách cho phép nó tập trung vào nhiều vị trí khác nhau cùng một lúc, làm cho mô hình có khả năng hiểu các mối quan hệ phức tạp và mức độ quan trọng của các từ so với nhau.

- Ảnh hưởng và Ứng dụng

• Kể từ khi được giới thiệu, kiến trúc Transformer đã trở thành nền tảng cho nhiều mô hình tiên tiến trong NLP như BERT, GPT (Generative Pre-trained Transformer), và nhiều biến thể khác, đồng thời mở ra cánh cửa cho những tiến bộ đáng kể trong lĩnh vực AI. Transformer đã được áp dụng rộng rãi trong các tác vụ như dịch máy tự động, tóm tắt văn bản, phân loại văn bản, hỏi đáp tự động, và hơn thế nữa, cung cấp hiệu suất vượt trội so với các mô hình trước đó.

2. Giới thiệu về BERT

- Định nghĩa: BERT, viết tắt của Bidirectional Encoder Representations from Transformers, là một mô hình đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), được giới thiệu bởi Google vào năm 2018. Mô hình này đã thiết lập một tiêu chuẩn mới về hiểu ngôn ngữ tự nhiên và khả năng xử lý văn bản, nhờ vào cách tiếp cận mới mẻ trong việc huấn luyện sâu với dữ liệu ngôn ngữ lớn.

(11)

11

- Tính Năng và Đổi Mới

o Đào tạo Hai Chiều (Bidirectional Training): BERT được đào tạo để hiểu ngữ cảnh của từ trong cả hai hướng (trái và phải), không giống như các mô hình trước đó thường chỉ tập trung vào một hướng nhất định. Điều này giúp BERT có cái nhìn sâu sắc hơn về ngữ cảnh của từ, từ đó cải thiện đáng kể chất lượng của các tác vụ liên quan đến ngôn ngữ tự nhiên.

o Pre-training và Fine-tuning: Một trong những đóng góp quan trọng của BERT là quy trình hai bước: trước tiên, BERT được pre-trained trên một tập dữ liệu lớn (ví dụ, Wikipedia và BooksCorpus) mà không cần dữ liệu gắn nhãn. Sau đó, mô hình có thể được fine-tuned với một lượng nhỏ dữ liệu gắn nhãn cho các tác vụ cụ thể, như phân loại văn bản, hỏi đáp, và nhận dạng thực thể.

o Cấu Trúc Mô Hình: BERT dựa trên kiến trúc Transformer, nhưng sử dụng chỉ phần Encoder của nó. Mô hình có hai phiên bản chính: BERT Base (12 lớp Encoders, 110 triệu tham số) và BERT Large (24 lớp Encoders, 340 triệu tham số), đều được đào tạo trên cùng một tập dữ liệu nhưng với dung lượng tính toán và độ phức tạp khác nhau.

- Sự khác biệt của BERT so với những mô hình trước đây

o Mô hình Transformer: BERT sử dụng kiến trúc Transformer làm cơ sở cho việc biểu diễn và hiểu ngữ cảnh của văn bản. Hiểu rõ về cách hoạt động của Transformer và các thành phần như multi-head attention là quan trọng để hiểu BERT.

(12)

12

o Pre-training và Fine-tuning: BERT được huấn luyện trước trên một lượng lớn dữ liệu văn bản không có giám sát.

o Biểu diễn từ: BERT học biểu diễn từ dựa trên ngữ cảnh. Việc hiểu cách mà BERT biểu diễn từ và làm thế nào nó hiểu được ngữ cảnh trong văn bản là điều quan trọng.

o Khái niệm Masked Language Model (MLM): Trong quá trình pre- training, BERT sử dụng phương pháp MLM để huấn luyện. Đây là một phần quan trọng của BERT mà cần được hiểu rõ.

o Attention mechanism: Cơ chế chú ý là một phần quan trọng trong Transformer và BERT. Hiểu cách mà attention mechanism hoạt động và ảnh hưởng của nó đối với khả năng hiểu ngữ cảnh trong BERT.

(13)

13

- Ứng Dụng

o Phân loại văn bản: Xác định chủ đề hoặc ý kiến của một đoạn văn bản.

o Hỏi đáp: Mô hình có thể trả lời các câu hỏi dựa trên một đoạn văn bản đã cho.

o Nhận dạng thực thể có tên (Named Entity Recognition, NER): Xác định và phân loại các thực thể quan trọng trong văn bản, như tên người, tổ chức, địa điểm.

o Tóm tắt văn bản: Tạo ra tóm tắt ngắn gọn cho các bài báo hoặc văn bản dài.

➔ BERT đã mở ra một kỷ nguyên mới trong việc hiểu và xử lý ngôn ngữ tự nhiên, với khả năng tiếp cận nhiều loại tác vụ phức tạp mà trước đây được coi là thách thức lớn đối với các hệ thống AI.

(14)

14

IV. DEMO KẾT QUẢ 1. Mô tả nhiệm vụ

- Phạm vi của cuộc thi đầu tiên này là đánh giá khả năng nhận dạng các thực thể có tên thuộc một trong ba loại: tên người, tên tổ chức và tên địa danh. Việc nhận dạng các loại thực thể có tên khác sẽ được đề cập đến trong các lần thi sau.

- Ngoài ra, các nhãn có cấu trúc như P-Name. Trong đó

- P có thể là B (begin), I (in), E (end) và O(outside) để miêu tả vị trí bắt đầu, bên trong, kết thúc và bên ngoài của thực thể trong câu

- Name là tên thực thể. Ví dụ: org – Tên tổ chức,per – tên riêng,…

Ví dụ:

Khi nhìn vào đó, ta thấy

o John được gán B-per, nghĩa là bắt đầu một tên riêng o Michael là I-per, là phần giữa của một tên riêng o Wick thì là E-per, kết thúc của tên riêng

o Tương tự cho Unitel Kingdom là một thực thể loc – LOCATION o like, very, much là các từ không cần nhận diện nên để là O – outside STT Loại thực thể Tên nhãn Ý nghĩa

1 LOCATION LOC Tên địa danh

2 ORGANIZATION ORG Tên tổ chức

3 PERSON PER Tên người

(15)

15

2. Các bước xử lý dữ liệu

- Chuẩn bị Đầu vào

o Tokenization: Văn bản được chia thành các token bằng cách sử dụng tokenizer của BERT, WordPiece tokenizer. Mỗi token sau đó được ánh xạ đến một ID token trong từ điển của BERT.

o Special Tokens: Token đặc biệt [CLS] được thêm vào đầu mỗi chuỗi, và token [SEP] được thêm vào cuối mỗi chuỗi hoặc để phân tách các chuỗi khi cần thiết

o Positional Embeddings: Mỗi token cũng được gán một positional embedding để mô hình có thể hiểu được vị trí của nó trong chuỗi.

- Pre-training (Huấn luyện Sơ bộ)

o BERT đã được pre-trained trên một tập dữ liệu lớn, bao gồm Wikipedia và BooksCorpus, sử dụng các nhiệm vụ như Masked Language Model (MLM) và Next Sentence Prediction (NSP). Điều này giúp BERT học được ngữ cảnh rộng lớn và hiểu ngữ nghĩa từ trước khi được tinh chỉnh cho tác vụ cụ thể.

- Fine-tuning cho NER

o Chuẩn bị Dữ liệu Đích: Dữ liệu được chuẩn bị bao gồm văn bản được gắn nhãn với các thực thể có tên tương ứng. Mỗi token trong chuỗi đầu vào được gắn một nhãn tương ứng với loại thực thể hoặc nhãn "O" nếu nó không phải là một phần của thực thể nào.

o Cấu hình Mô hình: Trong giai đoạn fine-tuning, lớp đầu ra của BERT được thay thế hoặc bổ sung bằng một lớp đặc biệt được thiết kế để dự đoán nhãn cho mỗi token. Có thể sử dụng một lớp softmax để phân loại mỗi token vào một trong số các nhãn thực thể có tên hoặc nhãn "O".

o Huấn luyện: Mô hình sau đó được huấn luyện trên tập dữ liệu NER, với mục tiêu là tối ưu hóa hiệu suất trong việc dự đoán nhãn chính xác cho mỗi token.

(16)

16

- Đầu ra và Áp dụng

o Đầu ra: Đối với mỗi token trong văn bản đầu vào, mô hình BERT fine- tuned sẽ dự đoán một nhãn, chỉ ra loại thực thể mà token đó thuộc về hoặc chỉ đơn giản là không thuộc vào thực thể nào.

3. Giới thiệu chung

Trong chương 2 đã giới thiệu các khái niệm cũng như các quy tắc nhận dạng thực thể tên tiếng Anh. Trong chương này, một thực nghiệm xây dựng mô hình nhận dạng thực thể đề xuất ở chương 2 được tiến hành nhằm làm rõ các bước thực hiện các pha như đã giới thiệu. Mô hình được thực hiện trên tập dữ liệu CoNLL 2003.

Tập dữ liệu này bao gồm các văn bản được gán nhãn cho các thực thể có tên như tên riêng, địa danh, tổ chức và số lượng nhỏ các loại thực thể khác. Mục đích của việc sử dụng CoNLL 2003 là để phát triển và đánh giá các mô hình máy học để tự động phát hiện và phân loại các thực thể có tên trong văn bản

4. Môi trường và các công cụ sử dụng thực nghiệm 4.1. Cấu hình phần cứng

Để huấn luyện và đánh giá mô hình,khoá luận sử dụng máy tính cá nhân với cấu hình phần cứng như sau:

Bảng 4.1 : Cấu hình phần cứng

CPU Processor Intel(R) Xeon(R) CPU E5-2665

0 @ 2.40GHz, 2401 Mhz, 8 Core(s), 16 Logical Processor(s)

RAM 16GB

OS Window 10

SSD Plextor PX-128S1C

(17)

17

4.2. Các phần mềm sử dụng

Bảng 4.2: Các phần mềm sử dụng

STT Tên phần mềm và thư viện Chức năng

1 Visual studio code Môi trường phát triển 2 Python 3.11 64 bit Ngôn ngữ phát triển

3 Numpy Thư viện Python để tính toán

trên các ma trận

4 Datasets Thư viện cung cấp dữ liệu cho các bài toán NLP

5 Transformer Thư viện cung cấp các mô hình trong xử lý ngôn ngữ tự nhiên như BERT, GPT, RoBERTa…

4.3. Dữ liệu

- Tập dữ liệu CoNLL 2003 là một tập dữ liệu thường được sử dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), đặc biệt là trong tác vụ nhận diện thực thể có tên (Named Entity Recognition - NER). "CoNLL" là viết tắt của "Conference on Computational Natural Language Learning", là một hội thảo hàng năm trong lĩnh vực học máy và xử lý ngôn ngữ tự nhiên.

- Tập dữ liệu CoNLL 2003 bao gồm các văn bản được gán nhãn cho các thực thể có tên như tên người, địa điểm, tổ chức, và các thực thể khác trong văn bản. Mỗi từ trong văn bản được gán một nhãn để chỉ ra loại thực thể mà từ đó đại diện.

- Dưới đây là một số thông tin cụ thể về tập dữ liệu CoNLL 2003:

o Ngôn ngữ: Tiếng Anh.

o Định dạng: Dữ liệu được định dạng theo chuẩn CoNLL, với mỗi từ và nhãn thực thể được cách nhau bằng dấu tab, và các câu được phân tách bằng dấu trống.

o Loại thực thể nhận diện: Tên người (PER), địa điểm (LOC), tổ chức (ORG), và MISC (loại thực thể khác).

(18)

18

o Kích thước: Tập dữ liệu bao gồm các tập train, development và test, mỗi tập có khoảng 20.000 từ.

o Tập dữ liệu CoNLL 2003 thường được sử dụng để đánh giá và so sánh hiệu suất của các mô hình NER khác nhau. Đối với mỗi từ trong văn bản, mô hình NER cần dự đoán nhãn thực thể có tên tương ứng, và sau đó được đánh giá dựa trên độ chính xác của các dự đoán so với nhãn thực tế trong tập dữ liệu.

- Tập dữ liệu CoNLL 2003 thường được chia thành ba phần chính:

o Train set (Tập huấn luyện): Đây là phần dữ liệu được sử dụng để huấn luyện mô hình nhận diện thực thể có tên (NER). Dữ liệu trong tập huấn luyện thường lớn và đa dạng, giúp mô hình học được cách nhận diện các thực thể có tên từ các mẫu dữ liệu.

o Dev set (Tập phát triển hoặc tập đánh giá): Phần này của tập dữ liệu được sử dụng để đánh giá hiệu suất của mô hình trong quá trình huấn luyện.

Dữ liệu trong tập phát triển thường được sử dụng để điều chỉnh các siêu tham số của mô hình và đánh giá sự hiệu quả của mô hình trên dữ liệu mà nó chưa từng nhìn thấy trước đó.

o Test set (Tập kiểm tra): Đây là phần cuối cùng của tập dữ liệu, được sử dụng để đánh giá hiệu suất của mô hình sau khi huấn luyện xong. Dữ liệu trong tập kiểm tra được sử dụng để đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu mới, không được sử dụng trong quá trình huấn luyện.

- Bằng cách chia tập dữ liệu thành ba phần như vậy, chúng ta có thể đảm bảo rằng mô hình được huấn luyện và đánh giá một cách công bằng và hiệu quả, và có khả năng tổng quát hóa tốt trên dữ liệu mới mà nó chưa từng nhìn thấy trước đó.

(19)

19

4.4. Ví dụ thực nghiệm

Với mẫu câu : “ Hi , My name is Nam . I come from Hanoi, the capital city of Vietnam , i am study at Hanoi Open University ”

Kết quả nhận được :

(20)

20

Với mẫu câu : Elon Musk, the CEO of Tesla and SpaceX, announced on Twitter last Thursday that the new electric model would be launched in Los Angeles next month.

Kết quả nhận được :

4.5. Đánh giá hiệu suất

(21)

21

KẾT LUẬN

Khoá luận đã tiếp cận được những phương pháp học sâu và học suốt đời trong bài toán nhận dạng thực thể được nghiên cứu và công bố trên thế giới. Dựa vào đó, khoá luận đã tiến hành phân tích và xây dựng mô hình học sâu suốt đời mức ký tự cho nhận dạng thực thể trong văn bản tiếng Anh. Kết quả đạt được của khóa luận: Khảo sát, tìm hiểu về phương pháp học sâu và học sâu suốt đời cũng như các mô hình nổi bật về nhận dạng thực thể.

Kết quả cho thấy phương pháp học sâu suốt đời có thể cải thiện được hiệu suất của mô hình dựa trên các tri thức tiền nghiệm.

Hạn chế: Do hạn chế về thời gian và kiến thức của cá nhân, khoá luận vẫn tồn tại một số hạn chế như sau: Thứ nhất, khoá luận mới chỉ tập trung vào xây dựng mô hình chứ chưa xây dựng thành một hệ thống có ứng dụng cụ thể và trực quan.Thứ 2 mô hình hiện tại chỉ sử dụng được cho tiếng Anh. Cuối cùng, mô hình chưa tận dụng triệt để được tri thức từ các bài toán cũ và chuyển giao để học bài toán mới dẫn tới kết quả của mô hình đề xuất chưa cao hơn nhiều so với mô hình cơ sở.

Hướng phát triển trong tương lai: Trong thời gian tới, khoá luận sẽ cố gắng tinh chỉnh dữ liệu để cải thiện hiệu suất học của mô hình, đồng thời xây dựng một hệ thống nhận dạng thực thể trực quan hơn.. Bên cạnh kết quả đã đạt được, khoá luận còn nhiều thiếu sót và hạn chế, tôi rất mong nhận được sự đóng góp ý kiến của thầy cô và bạn bè.

(22)

22

TÀI LIỆU THAM KHẢO

[1] Jan Van De Kerkhof, Convolutional Neural Networks for Named Entity Recognition in Images of DocumentsConvolutional Neural Networks for Named Entity Recognition in Images of Documents, KTH Royal Institute of technology School of Computer Science and Communication, 2016

[2] Nguyễn Chiến Thắng, Named Entity Recognition – Nhận diện thực thể trong câu khi xử lý ngôn ngữ tự nhiên, 2020

[3] Alireza Mansouri, Lilly Suriani Affendey and Ali Mamat, Named Entity recognition Approaches, 2008

[4] Kalyani Pakhale, Comprehensive Overview of Named Entity Recognition: Models, Domain-specific Applications and Challenges, 2023

[5] CERN WebMaker, Named Entity Task Definition, 1995