Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ
93
Qua phân tích về mô hình n-gram cho thấy, mô hình biểu diễn đồ thị khoảng cách cũng bao trùm các đặc trưng n-grams phổ biến này. Điểm khác biệt hơn là mô hình biểu diễn đồ thị khoảng cách tích hợp các thông tin từ bậc thấp đến bậc cao và mang tính tổng quát hơn.
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị
94
Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn.
Mô hình phân lớp đa nhãn dựa trên biểu diễn đồ thị khoảng cách và mô hình chủ đề ẩn được thể hiện trong [PTNgan4]. Để xây dựng mô hình, một tập dữ liệu về miền ứng dụng được thu thập để xây dựng mô hình xác suất chủ đề ẩn, làm cơ sở để biến đổi dữ liệu huấn luyện và kiểm thử từ dạng câu văn bản thành câu chủ đề; tiếp đó biểu diễn đồ thị khoảng cách được áp dụng trên câu chủ đề nhằm khai thác được thông tin bậc cao về trật tự và khoảng cách giữa các chủ đề trong văn bản. Đồ thị khoảng cách có thể được xác định theo các bậc khác nhau để thu được các thông tin
95 bậc văn bản khác nhau.
Sau đó áp dụng một bộ phân lớp đa nhãn trên tập đặc trưng được sinh ra từ biểu diễn đồ thị trên câu chủ đề để thu được kết quả phân lớp.
3.2.2.1. Pha huấn luyện mô hình
a. Xây dựng mô hình chủ đề ẩn LDA và biểu diễn câu chủ đề
Từ tập dữ liệu thu thập được trên miền ứng dụng, xây dựng mô hình chủ đề nhằm khai thác các thông tin tiềm ẩn về chủ đề ẩn trên tập dữ liệu và phân phối chủ đề ẩn trên mỗi tài liệu; phân phối xác suất của tập từ trên mỗi chủ đề. Mô hình LDA được thực thi với các tham số chủ đề ẩn khác nhau sẽ cho tập thuộc tính khác nhau làm cơ sở cho các thực nghiệm, nhằm tìm ra những trường hợp tối ưu trên mỗi quan hệ giữa chủ đề và mô hình.
Tiếp theo, dựa trên tập từ trong mỗi chủ đề, các câu văn bản trong dữ liệu huấn luyện được chuyển thành câu chủ đề bằng cách thay thế mỗi từ trong văn bản bằng chủ đề mà từ đó thuộc về. Cách biểu diễn này đã thu hẹp không gian giá trị của tập từ vựng sang không gian tập chủ đề. Điều này có thể tác động đến độ phức tạp tính toán của mô hình. Sau bước này, thu được câu chủ đề tương ứng cho mỗi câu văn bản.
b. Biểu diễn đồ thị khoảng cách trên câu chủ đề
Ở bước này, mô hình biểu diễn đồ thị khoảng cách do C.C. Aggarwal và P.
Zhao [10] đề xuất được áp dụng trên tập câu chủ đề ở bước trên. Trong đó, số bậc của đồ thị được lựa chọn với nhiều giá trị khác nhau nhằm xây dựng được tập đặc trưng hữu ích với lượng thông tin khác nhau.
Với mỗi biểu diễn câu chủ đề, dữ liệu được biểu diễn theo mô hình đồ thị khoảng cách, trong đó mỗi đỉnh là một chủ đề; cạnh của đồ thị nếu có là mối quan hệ về thứ tự của chủ đề và trọng số của cạnh đồ thị là tần suất xuất hiện của quan hệ thứ tự của chủ đề trong văn bản.
Hình 3.7 thể hiện một biểu diễn đồ thị khoảng cách cho một câu văn bản với số bậc lần lượt là 0, 1, 2. Khi biến đổi câu văn bản sang câu chủ đề, sẽ thu được một biểu diễn mới về câu chủ đề trên miền chủ đề ẩn. Việc biến đổi này sẽ làm thu hẹp kích thước đầu vào cho biểu diễn đồ thị khoảng cách từ không gian tập từ sang
96
không gian tập chủ đề. Đồng thời, có thể làm tăng tần suất của những chủ đề khi các từ khác nhau trong cùng chủ đề cùng xuất hiện trong văn bản. Kỹ thuật này sẽ làm giảm kích thước của các đồ thị khoảng cách trên câu chủ đề đồng thời giảm độ phức tạp tính toán cho mô hình.
Giả thiết là sau khi xây dựng mô hình chủ đề ẩn ở bước trên sẽ thu được tập các chủ đề ẩn và tập từ tương ứng trên mỗi chủ đề ẩn. Ví dụ, danh sách tập từ trong các chủ đề ẩn như sau:
Chủ đề 1 Chủ đề 2 Chủ đề 3 Chủ đề 4 ….
khách_sạn đẹp đánh_giá nhân_viên
phòng tuyệt_vời nhận_xét tiếp_viên
khuôn_viên tốt …. bảo_vệ
Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn
Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề
97
Với phân phối tập từ trên mỗi chủ đề ẩn thu được từ mô hình chủ đề ẩn, câu văn bản sau khi loại bỏ từ dừng ở Hình 3.7 “Khách_sạn đẹp, phòng tuyệt_vời, nhân_viên tuyệt_vời, đánh_giá khách_sạn tốt.” sẽ được chuyển thành câu chủ đề như sau: “topic1 topic2 topic1 topic 2 topic4 topic2 topic 3 topic1 topic2”. Khi đó, ta có biểu diễn đồ thị khoảng cách cho câu chủ đề Hình 3.9. Số lượng nút đồ thị bây giờ là số chủ đề ẩn chứ không phải là số từ trong tập từ. Theo đó, số lượng nút của đồ thị sẽ giảm đi đáng kể, kèm theo đó trọng số các cạnh của đồ thị sẽ biến đổi theo hướng tăng cường các thông tin có liên quan thể hiện ở các từ thuộc cùng một chủ đề.
Trong thực nghiệm, chúng tôi cũng thay đối số bậc của đồ thị nhằm tìm được biểu diễn mang lại nhiều thông tin hữu ích nhất cho mô hình. Số bậc của đồ thị được thiết lập các giá trị 0,1,2…
c. Xây dựng bộ phân lớp đa nhãn
Để xây dựng bộ phân lớp, có thể sử dụng các thuật toán phân lớp khác nhau như đã trình bày ở Chương 1. Trong mô hình phân lớp thực nghiệm, sau khi thực nghiệm với các thuật toán ML-kNN, BR, CC, CLR, v.v., chúng tôi lựa chọn thuật toán phân lớp đa nhãn k láng giềng gần nhất ML-kNN vì ML-kNN cho kết quả tốt nhất.
Ý tưởng chính của thuật toán là sử dụng kỹ thuật k láng giềng gần nhất để giải quyết bài toán học đa nhãn, trong đó sử dụng luật cực đại hậu nghiệm để đưa ra dự đoán bằng việc xem xét các thông tin liên quan đến nhãn từ các láng giềng.
3.2.2.2. Pha phân lớp sử dụng mô hình huấn luyện
Sau pha xây dựng mô hình huấn luyện, chúng tôi thu được một bộ phân lớp đa nhãn cho dữ liệu là các câu nhận xét của người dùng về các Khách sạn ở Việt Nam. Ở pha này, bộ phân lớp được sử dụng đoán nhận nhãn của tập dữ liệu kiểm thử; nhãn đoán nhận sẽ so sánh với nhãn thực của dữ liệu để đánh giá mức độ hiệu quả của mô hình.
a. Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ thị khoảng cách Dữ liệu kiểm thử cũng được ánh xạ vào mô hình xác suất tham chiếu chủ đề ẩn LDA đã xây dựng ở Pha 1 để biến đổi câu văn bản thành câu chủ đề. Sau đó câu
98
chủ đề sẽ được tiếp tục biểu diễn theo mô hình đồ thị khoảng cách để thu được tập đặc trưng về thông tin trật tự và khoảng cách của chủ đề trong câu. Bậc của đồ thị biểu diễn dữ liệu kiểm thử cũng được thiết lập tương ứng với dữ liệu huấn luyện.
b. Phân lớp và đánh giá hiệu quả của mô hình
Bước này tiến hành phân lớp dữ liệu kiểm thử bằng cách đưa tập đặc trưng của dữ liệu kiểm thử thu được ở bước trên được đưa vào bộ phân lớp đa nhãn xây dựng ở pha 1. Kết quả phân lớp được đối sánh với dữ liệu phân lớp thực để đánh giá mô hình thông qua các độ đo.
Trong mô hình này, chúng tôi sử dụng các độ đo dựa trên mẫu, trong đó đánh giá kết quả mô hình trên từng mẫu kiểm thử độc lập sau đó trả về kết quả trung bình trên toàn tập dữ liệu kiểm thử. Các độ đo bao gồm: độ đo hamming loss – đánh giá tỷ lệ cặp thể hiện – nhãn bị phân lớp sai; one-error – đánh giá số lần nhãn được xếp hạng cao nhất không nằm trong tập nhãn có thể; coverage – xác định độ đo của một hệ thống đối với tất cả các nhãn có thể của tài liệu là khoảng cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm; ranking loss – phân bố trung bình của các cặp nhãn và average precision – đánh giá thành phần trung bình của các nhãn liên quan được xếp hạng cao hơn một nhãn cụ thể. Các độ đo hamming loss, one-error, coverage và ranking loss giá trị càng thấp thì thực thi của hệ thống càng tốt; riêng độ đo Average Precision thì giá trị càng cao thì thể hiện hệ thống thực thi càng tốt.