Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ
3.1.2.1. Pha 1 – Huấn luyện mô hình
Quá trình tiền xử lý dữ liệu gồm các bước sau:
- Bước tách câu: Dữ liệu được đưa qua module tách câu để thu được tập các câu.
Quá trình biểu diễn dữ liệu và phân lớp được thực hiện trên tập các câu.
Dữ liệu thu được được đưa qua module tách câu để lọc dữ liệu, loại bỏ câu cảm thán và câu không có nghĩa. Ví dụ, nội dung của một nhận xét của khách hàng trong lĩnh vực khách sạn sau khi đi qua bộ tách câu như sau:
Sau đó dữ liệu được loại bỏ những câu cảm thán, câu không có ý nghĩa là những câu có dấu kết thúc câu là chấm than. Kết quả thu được như sau:
Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái.
Giá cả thì tuyệt vời, trên cả sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi.
Cảm ơn!
78
Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn
- Bước tách từ: Mỗi câu sẽ được đưa qua module tách từ để thu được tập các từ trong câu. Đây là cơ sở cho việc xử lý và xây dựng các tập đặc trưng trên đơn vị dữ liệu là từ.
Mỗi câu sẽ được đưa qua module tách từ để thu được tập các từ trong câu như sau:
Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái.
Giá cả thì tuyệt vời, trên cả sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi.
79
- Loại bỏ từ dừng: Từ dừng là các từ mà không có ý nghĩa hoàn chỉnh, ví dụ như từ “và, như, là,…”. Việc phân lớp dữ liệu trên các từ dừng là hoàn toàn vô nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi dữ liệu. Sau khi loại bỏ các từ dừng, cơ sở dữ liệu sẽ nhỏ hơn, các thuật toán áp dụng sẽ trở nên dễ dàng hơn, chính xác hơn.
Loại bỏ từ dừng là các từ không có ý nghĩa hoàn chỉnh như: “và”, “là”, “đã”,
“để”, “mà”…
- Chuẩn hóa dữ liệu: Các từ viết sai chỉnh tả sẽ được chuyển về dạng đúng chính tả Tiếng Việt dựa trên phương pháp so sánh từ điển n-gram.
- Bước biểu diễn dữ liệu: Các câu được được biểu diễn theo đặc trưng TFIDF – đây là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm từ đối với một văn bản hoặc một lớp. Độ đo TFIDF được xây dựng như sau:
o Độ đo tần số (Term Frequency – TF): đo tần suất xuất hiện của cụm từ trong một văn bản
∑ (3.5)
Trong đó: là tần suất xuất hiện của từ khóa trong tài liệu j o Độ đo nghịch đảo sự phổ biến của một từ trong một tập văn bản
(Inverse Document Frequency – IDF): là độ đo tổng quát độ quan trọng của cụm từ.
* + (3.6)
Trong đó:
|D| là số lượng tài liệu trong tập D
* + là số lượng tài liệu mà từ khóa xuất hiện Tôi đã ở đây 3 đêm, đó là khoảng thời_gian tuyệt_vời, tiện_nghi và thoải_mái.
Giá_cả thì tuyệt_vời, trên cả sự mong_đợi, mà chất_lượng phòng thì không có gì để bàn_cãi.
Tôi ở 3 đêm, khoảng thời_gian tuyệt_vời, tiện_nghi thoải_mái.
Giá_cả tuyệt_vời, trên cả sự mong_đợi, chất_lượng phòng không có gì bàn_cãi.
80
o Từ đó, độ đo TFIDF được tính bằng công thức:
b. Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn
LDA là kết quả trộn lẫn chủ đề trong tài liệu của mô hình. Cho trước một tập các văn bản sẽ khải quát được mô hình chủ đề sinh ra tập văn bản trên bao gồm: tìm phân phối xác suất tập từ trên mỗi chủ đề, tìm phân phối chủ đề ở mỗi tài liệu. Ở đây, tập dữ liệu được xây dựng từ các trang web thuộc các website về du lịch và khách sạn của Việt Nam (tập dữ liệu chuyên ngành). Các trang web sau khi lấy về được làm sạch như loại bỏ các thẻ html, các thông tin dưới dạng hình ảnh, âm thanh, thông tin không nằm trong nội dung của trang web,…
Tiếp theo, mô hình LDA được thực thi trên tập dữ liệu xây dựng được nhằm khai thác các thông tin tiềm ẩn về tập các chủ đề ẩn trên tập dữ liệu và phân phối chủ đề ẩn trên tài liệu, phân phối xác suất của tập từ trên mỗi chủ đề. Mô hình LDA được thực thi với các tham số chủ đề khác nhau sẽ cho các tập thuộc tính khác nhau là cơ sở cho các thực nghiệm, nhằm tìm ra những trường hợp tối ưu trên mối quan hệ giữa chủ đề và mô hình.
Luận án đề xuất tiếp cận khai thác đặc trưng về phân phối xác suất của các chủ đề trên mỗi tài liệu bổ sung vào tập đặc trưng TFIDF tương ứng của tài liệu.
Giả sử, lấy chủ đề từ tập dữ liệu học. Với mỗi tài liệu , tiến hành tính xác suất để tài liệu thuộc vào chủ đề là ( ), với .
Khi đó, tập đặc trưng bổ sung từ mô hình chủ đề ẩn LDA được xác định như sau:
( ) , -
Sau bước này, kết hợp vectơ TFIDF và vectơ đặc trưng chủ đề ẩn ở trên, thu được vectơ đại diện cho dữ liệu V(d):
( ) ( ( ) ( ) ( ) ) Áp dụng mô hình LDA trên tập dữ liệu sử dụng công cụ GibbsLDA++ sẽ thu được tập các chủ đề ẩn và các từ khóa đại diện cho mỗi chủ đề. Để biểu diễn tác động của mô hình LDA trong việc làm giàu đặc trưng cho dữ liệu, chúng tôi đã cấu hình mô hình LDA với số lượng chủ đề ẩn khác nhau như 15, 20 và 25 chủ đề.
81
Tiếp đó, dữ liệu huấn luyện sẽ được đưa qua mô hình LDA ở trên để thu được đặc trưng là phân phối xác suất của các chủ đề ẩn trên mỗi tài liệu. Ví dụ, xét tài liệu đầu vào là d, phân phối xác suất của tài liệu d trên các chủ đề ẩn được xác định như sau:
Chủ đề Xác suất Từ khóa đại diện
Topic 1 0.924 Nhân viên, tốt, phục vụ, nhiệt tình, thân thiện,…
Topic 2 0.001 Sáng, ngon, món, nhiều, được,…
Topic 3 0.002 Đẹp, view, hướng, rộng, vườn,…
Topic 4 0.065 Gần, trung tâm, vị trí, đường,…
… … …
Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu
Khi đó, tập đặc trưng bổ sung từ mô hình chủ đề ẩn là:
T(d) = [0.924, 0.001, 0.002, 0.065,…]
Sau bước này sẽ thu được các vectơ đặc trưng của dữ liệu bao gồm tập đặc trưng TFIDF và đặc trưng bổ sung từ mô hình chủ đề ẩn ở trên.
c. Lựa chọn đặc trưng
Trong số các đặc trưng được đưa ra ở trên (bao gồm đặc trưng TFIDF và đặc trưng chủ đề ẩn), có những đặc trưng có vai trò quan trọng hơn và những đặc trưng ít quan trọng hơn do ý nghĩa của đặc trưng đó đóng góp vào quá trình phân lớp. Do đó, việc lựa chọn đặc trưng sẽ giúp đưa ra được những đặc trưng có đóng góp quan trọng vào tác vụ phân lớp đồng thời giảm được số chiều thuộc tính, góp phần vào giảm độ phức tạp tính toán của các thuật toán phân lớp. Trong mô hình này, chúng tôi sử dụng phương pháp lựa chọn đặc trưng dựa vào độ đo thông tin tương hỗ (Mutual Information – MI) [34] . MI là một độ đo về lượng thông tin chung giữa hai biến. Độ do này được sử dụng rộng rãi trong việc lựa chọn đặc trưng vì nó có khả năng phát hiện ra các mối quan hệ phi tuyến giữa các biến. Hơn nữa, MI được định nghĩa cho nhóm của các biến, thể hiện được sự phụ thuộc của nhóm đặc trưng với một lớp trong quá trình lựa chọn đặc trưng. Tập đặc trưng thu được cuối cùng sẽ là tập hợp các tập đặc trưng nhỏ chọn được ở trên.
Trong mô hình này chúng tôi sử dụng phương pháp rút gọn tập đặc trưng dựa
82
trên độ đo thông tin tương hỗ MI. Chiến thuật được sử dụng là phương pháp thêm dần đặc trưng đồng thời loại bỏ đặc trưng dư thừa (Forward-Backward) để thu được tập đặc trưng tối ưu nhất.
d. Xây dựng bộ phân lớp
Mẫu Thể thao Tôn giáo Khoa học Chính trị
1 X X
2 X X
3 X
4 X X
Bảng 3.2 Ví dụ về dữ liệu đa nhãn
Mô hình sử dụng tiếp cận chuyển đổi bài toán theo phương pháp chuyển đổi nhị phân. Trong đó, tiến hành xây dựng |L| bộ phân lớp nhị phân (với L là số nhãn):
* + cho L nhãn khác nhau. Dữ liệu trong mỗi bộ phân lớp được gán nhãn nếu nó thuộc lớp , các dữ liệu khác được gán nhãn . Để minh họa cho phương pháp này, chúng tôi sử dụng tập dữ liệu ở Bảng 3.2. Trong bảng dữ liệu có bốn tài liệu được phân lớp vào một hoặc nhiều hơn một lớp trong bốn lớp: Thể thao, Tôn giáo, Khoa học và Chính trị. Theo phương pháp chuyển đổi nhị phân, ta sẽ thu được bốn tập dữ liệu tương ứng với bốn nhãn và xây dựng bốn bộ phân lớp nhị phân tương ứng. Kết quả phân lớp cuối cùng là sự kết hợp từ kết quả phân lớp của các bộ phân lớp đơn nhãn này.