Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn
Mô hình chủ đề là mô hình học máy không giám sát trong đó giả thiết rằng mỗi văn bản được tạo ra là một sự kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối trên các từ. Mô hình chủ đề về cơ bản là mô hình sinh văn bản, nó quan
71
tâm quá trình xác suất mà văn bản được tạo ra. Đầu ra của mô hình chủ đề là các cụm từ. Mỗi cụm từ là dạng của một chủ đề và phân phối xác suất của cụm trên các từ.
Trong quá trình mô hình hóa xác suất, dữ liệu được xem như tạo ra từ quá trình sinh trong đó có chứa các biến ẩn. Quá trình sinh này định nghĩa một phân bố xác suất đồng thời trên cả biến quan sát và biến ẩn. Phân bố có điều kiện của biến ẩn cho trên các biến quan sát được tính thông qua phân tích dữ liệu sử dụng phân bố đồng thời đó.
Mô hình LDA được D.M. Blei và cộng sự [15] đề xuất đầu tiên vào năm 2003, trong đó đưa ra giả thiết về quá trình sinh ngẫu nhiên văn bản. Khái niệm chủ đề là một phân bố xác suất trên tập từ vựng cố định. Trong giả thiết sinh văn bản thì các chủ đề đã được tồn tại trước quá trình sinh. Ý tưởng của mô hình là mỗi tài liệu là sự trộn lẫn của nhiều chủ đề, mỗi chủ đề là một phân phối xác suất trên tập các từ.
Ví dụ, xem xét một bài báo ở Hình 3.1 có tiêu đề “Seeking Life’s Bare (Genetic) Necessities”, bài báo trình bày về ý tưởng sử dụng phân tích dữ liệu để xác định số gen mà một sinh vật cần để sống sót. Nếu làm thủ công, có thể đánh dấu các từ khác nhau được sử dụng trong bài báo theo màu sắc: Đánh dấu màu xanh cho các từ về phân tích dữ liệu như “computer” và “prediction”; đánh dấu màu hồng cho các từ về sinh vật học tiến hóa như “life” và “organism”; đánh dấu màu vàng cho các từ gen như “sequenced” và “genes”. Việc đánh dấu này cho thấy bài báo là sự pha trộn các chủ đề gen, phân tích dữ liệu và sinh vật học tiến hóa theo các phân bố khác nhau. Xét một cách hình thức, mỗi chủ đề là một phân bố trên tập từ vựng cố định thì chủ đề gen sẽ chứa các từ về gen với xác suất cao, chủ đề về sinh vật học tiến hóa sẽ chứa các từ về sinh vật học tiến hóa với xác suất cao… Ngoài ra việc xác định được các chủ đề pha trộn trong bài báo cũng giúp cho việc phân bài báo này vào các tập bài báo khoa học. Việc sử dụng mô hình LDA sẽ giúp thực hiện được các công việc này một cách tự động.
Về bản chất, LDA là một mô hình sinh 3 mức:
- Mức tập dữ liệu (corpus level) - Mức tài liệu (document level) - Mức từ ( word level)
72
Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16]
Trong đó, mỗi phần của mô hình được coi như một mô hình trộn hữu hạn trên cơ sở tập các xác suất của chủ đề. Các khái niệm sử dụng trong mô hình
- Từ: được lấy từ tập từ vựng * + - Tài liệu: là một dãy các từ ( )
- Tập dữ liệu: là một tập hợp của các tài liệu * + - Chủ đề: là một phân phối xác suất trên tập các từ
Cho một tập dữ liệu gồm M tài liệu * +, trong đó tài liệu m chứa từ lấy từ tập từ vựng * +. Mục tiêu của LDA là tìm một cấu trúc ẩn của các chủ đề hàm chứa ý nghĩa của văn bản. Mặc dù thuật ngữ “chủ đề ẩn”
đã được đề cập đến trong các mô hình LSA và pLSA, LDA cung cấp một mô hình sinh đầy đủ cho kết quả tốt hơn các tiếp cận trước đó.
Xem xét biểu diễn mô hình đồ họa của LDA ở Hình 3.2, quá trình LDA sinh một tập các từ được phân bố trong tài liệu ⃗ được mô tả như sau:
- Đối với mỗi tài liệu ⃗ , một phân phối chủ đề ⃗ được tạo ra và từ đây các từ trên mỗi chủ đề được xác định.
- Sinh ra chỉ số chủ đề dựa vào phân phối chủ đề
- Từ w được sinh ra dựa vào phân phối từ ⃗⃗ . Các chủ đề ⃗⃗ được lấy mẫu một lần cho toàn bộ tập dữ liệu.
73
Hình 3.2 Mô hình sinh trong LDA [15]
Thuật toán sinh trong LDA được thể hiện như sau:
for tất cả chủ đề , - do Sinh ra phân phối từ ⃗⃗ ( ) end for
for tất cả tài liệu , - do Sinh ra phân phối chủ đề ⃗m ~ Dir ( )
Sinh ra độ dài tài liệu ( ) for tất cả các từ , - do
Sinh ra chỉ số chủ đề ( ⃗ ) Sinh ra từ ( ⃗⃗ )
end for end for
Hình 3.3 Thuật toán sinh trong mô hình LDA
Chú thích: Dir, Poiss và Mult lần lượt là các phân phối Dirichlet, Poisson và Multinomial.
Các tham số và các biến trong thuật toán như sau:
- M là số tài liệu trong tập dữ liệu - K là số chủ đề ẩn
74 - V là độ lớn của tập từ vựng
- và : tham số mức tập hợp tập dữ liệu – là các tham số của phân phối Dirichlet.
- ⃗m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nó biểu diễn tham số cho ( ), thành phần trộn chủ đề cho tài liệu m
- Và Θ = * ⃗ + : ma trận
- m,n: chỉ số chủ đề của từ thứ n trong tài liệu m
- ⃗⃗ phân phối các từ cho chủ đề thứ k, nó biểu diễn tham số cho ( ), thành phần trộn của chủ đề k
- Φ = * ⃗⃗ + : ma trận - m,n: từ thứ n của văn bản m - số lượng các tài liệu
- m: số lượng từ trong tài liệu m (độ dài văn bản sau khi đã loại bỏ các từ dừng) Các phân phối được sử dụng trong mô hình
- Phân phối Dirichlet: Phân phối Dirichlet của biến ngẫu nhiên ( ) ∑ với tham số ( )
( )
( )∏
(3.1) Với ( ) là hàm beta, được triển khai dựa trên hàm gamma:
( ) ∏ ( )
(∑ ) (3.2)
Hàm gamma được định nghĩa như sau:
( ) ∫ (3.3) Với là số phức có phần thực dương ( ( ) )
- Phân phối đa thức (Multinomial) là trường hợp tổng quát của phân phối nhị phân. Phân phối đa thức của biến ngẫu nhiên ( )
với tham số n là số đặc trưng, N là số lần thực hiện phép thử, ( ) ( ) là các xác suất của phép thử Bernoulli,
75
∑ ):
( ) {
∑
∑
(3.4)
Luận án đã khai thác thông tin ngữ nghĩa ẩn từ mô hình sinh của mô hình chủ đề ẩn LDA trên các mức tài liệu và mức từ nhằm bổ sung các đặc trưng tăng cường biểu diễn dữ liệu cho các mô hình phân lớp trong phần tiếp theo.
3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn