Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn
Mô hình phân lớp xây dựng ở Phần 3.2.1 được sử dụng để đánh giá danh tiếng cho các khách sạn ở Việt Nam dựa trên nhận xét của người dùng. Các tiêu chí đánh giá được coi là tập nhãn cho phân lớp như sau:
- Sự phục vụ của nhân viên:
o Những đánh giá về thái độ phục vụ của nhân viên khách sạn bao gồm:
Lễ tân, dọn phòng, bảo vệ, quản lý, nhân viên nhà hàng…
o Các dịch vụ đi kèm - Chất lượng phòng, khách sạn:
o Những đánh giá cảm tưởng chung về khách sạn o Những đánh giá về chất lượng phòng ốc
- Chất lượng đồ ăn: Bao gồm đánh giá về chất lượng đồ ăn, bữa ăn.
- Vị trí và giá cả:
o Những đánh giá về vị trí, không gian, mức độ thuận lợi mà khách sạn mang lại cho khách hàng.
o Những đánh giá về giá cả phòng, giá đồ ăn và giá các dịch vụ đi kèm.
- Trang thiết bị: Bao gồm các đánh giá về trang thiết bị, nội thất của khách sạn.
84
Bài toán đánh giá danh tiếng cho các khách sạn ở Việt Nam dựa trên nhận xét của người dùng được thể hiện như sau:
3.1.3.1. Xây dựng tập dữ liệu thực nghiệm
Các thực nghiệm được thực hiện trên miền dữ liệu là tập đánh giá của khách hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá này được thu thập từ website http://www.chudu24.com theo cấu trúc gồm: người đánh giá, khách sạn, thời gian và nội dung ý kiến. Dữ liệu này chứa nhiều thông tin và nhiễu dưới dạng hình ảnh, âm thanh, quảng cáo, thông tin không nằm trong nội dung trang web, thẻ html…
nên bước đầu của quá trình tiền xử lý dữ liệu là “làm sạch” dữ liệu - lọc bỏ nhiễu.
Tập dữ liệu gồm 3700 nhận xét của khách hàng chia thành 2 tập rời nhau:
Tập dữ liệu huấn luyện và tập dữ liệu kiểm thử. Tập dữ liệu huấn luyện được gán nhãn thủ công.
Tổng số tài liệu 3700
Tập dữ liệu học 3200
Tập dữ liệu kiểm tra 500
Bảng 3.3 Tập dữ liệu thực nghiệm
Phân bố số lượng tài liệu theo lớp trong tập dữ liệu huấn luyện được mô tả như sau:
STT Phân lớp 1 Phân lớp 2 Ký hiệu Số lượng tài liệu 1 Sự phục vụ của
nhân viên
Tích cực NV-T 632
2 Tiêu cực NV-X 242
3 Chất lượng phòng, khách sạn
Tích cực P-KS-T 654
4 Tiêu cực P-KS-X 345
5 Vị trí và giá cả Tích cực VT-GC-T 426
6 Tiêu cực VT-GC-X 255
7 Chất lượng đồ ăn Tích cực DA-T 423
8 Tiêu cực DA-X 368
9 Trang thiết bị Tích cực TTB-T 233
10 Tiêu cực TTB-X 355
Bảng 3.4 Tập dữ liệu huấn luyện
Xây dựng tập dữ liệu được lấy từ một số website về du lịch và khách sạn của Việt Nam - đây được coi là tập dữ liệu chuyên ngành như: http://vi.hotels.com,
85
http://www.dulichnamchau.vn, http://dulichanz.com, http://bookhotel.vn, http://www.dulichvtv.com, http://chudu24.com... Dữ liệu từ các trang web lấy về sau khi “làm sạch” thu được tập dữ liệu chuyên ngành với hơn 22000 tài liệu.
STT Trang website
1 http://vi.hotels.com
2 http://www.dulichnamchau.vn 3 http://www.dulichanz.com 4 http://bookhotel.vn
5 http://www.dulichvtv.com 6 http://chudu24.com
Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn
3.1.3.2. Thực nghiệm
Quá trình thực nghiệm gồm các bước chính sau đây
Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp, tập tài liệu cho mô hình LDA và vectơ hóa dữ liệu.
Xây dựng hàm lựa chọn đặc trưng : Tiến hành lựa chọn tập đặc trưng từ tập đặc trưng đã có bằng cách sử dụng đô đo tương hỗ MI.
Xây dựng hàm phân lớp : Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng cách xây dựng các bộ phân lớp nhị phân chuyển đổi dựa trên kỹ thuật cực đại hóa kỳ vọng EM (Maximum Entropy).
Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình xây dựng ở trên.
Trong mô hình này, chúng tôi sử dụng phương pháp chuyển đổi nhị phân để xây dựng các bộ phân lớp nhị phân cho mỗi nhãn. Các lĩnh vực được quan tâm cho bài toán phân lớp là: Sự phục vụ của nhân viên; Chất lượng phòng, khách sạn; Chất lượng đồ ăn; Vị trí và giá cả; Trang thiết bị,…
Tuy nhiên, với yêu cầu của bài toán quản lý danh tiếng thì các nhận xét của khách hàng còn phải được đánh giá xem nó thuộc vào lớp tích cực hay tiêu cực. Từ đó, bộ phân lớp của hệ thống sẽ bao gồm hai bộ phân lớp nhỏ:
Bộ phân lớp thứ nhất: Bao gồm 5 bộ phân lớp nhị phân cho năm lớp: Sự phục vụ của nhân viên; chất lượng phòng, khách sạn; Chất lượng đồ ăn; Vị trí và
86 giá cả; Trang thiết bị
Bộ phân lớp thứ hai: Bao gồm 10 bộ phân lớp nhị phân cho 2 lớp: Lớp tích cực và lớp tiêu cực cho mỗi lớp lớn ở trên.
Thiết kế thực nghiệm
Để đánh giá sử ảnh hưởng của chủ đề ẩn và việc lựa chọn đặc trưng đối với kết quả của bộ phân lớp, chúng tôi tiến hành cài đặt 3 thực nghiệm như sau :
Thực nghiệm 1: Thực hiện việc phân lớp chỉ sử dụng tập đặc trưng TFIDF của tập dữ liệu đầu vào (không sử dụng đặc trưng chủ đề ẩn).
Thực nghiệm 2: Thực hiện việc phân lớp sử dụng tập đặc trưng TFIDF của tập dữ liệu đầu vào và tập đặc trưng chủ đề ẩn. Số lượng chủ đề sẽ được thay đổi từ 15, 20 và 25 chủ đề để đánh giá mức độ ảnh hưởng của số lượng chủ đề ẩn khác nhau đến kết quả của bộ phân lớp.
Thực nghiệm 3: Thực hiện việc phân lớp qua hai giai đoạn: làm giàu đặc trưng gồm tập đặc trưng TFIDF, tập đặc trưng chủ đề ẩn và lựa chọn đặc trưng sử dụng độ đo thông tin tương mỗ MI. Các thực nghiệm được thực hiện với số lượng chủ đề ẩn là 20.
3.1.3.3. Kết quả thực nghiệm
Thực nghiệm Precisionmicro (%) Recallmicro (%) F1micro(%)
TFIDF 67.64 70.25 68.04
TFIDF + LDA_15 chủ đề 67.98 70.56 68.42
TFIDF + LDA_20 chủ đề 68.27 71.25 68.83
TFIDF + LDA_25 chủ đề 67.93 70.75 68.44
TFIDF + LDA_20 chủ đề +
Lựa chọn đặc trưng 68.35 71.08 68.9
Bảng 3.6 Kết quả phân lớp
Kết quả thực nghiệm được thể hiện ở Bảng 3.6 cho thấy việc sử dụng tập đặc trưng được bổ sung thêm đặc trưng chủ đề ẩn cho kết quả cao hơn các thực nghiệm chỉ sử dụng đặc trưng TFIDF ở tất cả các thực nghiệm với số lượng chủ đề ẩn khác nhau.
Mặt khác việc sử dụng phương pháp lựa chọn đặc trưng nhằm rút gọn tập đặc trưng dựa trên độ đo MI cho kết quả tốt nhất trong các thực nghiệm.Hệ thống còn
87
tiến hành đánh giá các nhận xét của người dùng ở các mặt tích cực và tiêu cực.
Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana
Hình 3.5 minh họa về kết quả thực nghiệm đánh giá các nhận xét của người dùng về khách sạn Romana ở tỉnh Phan Thiết. Theo các đánh giá của người dùng, Romana là khách sạn tốt. Dựa trên năm lĩnh vực đánh giá, số lượng đánh giá tích cực nhiều hơn số lượng đánh giá tiêu cực, đặc biệt là về Sự phục vụ của nhân viên (19 nhận xét tích cực – 0 nhận xét tiêu cực) và Chất lượng phòng, khách sạn (30 nhận xét tích cực – 4 nhận xét tiêu cực).
Ví dụ, xem xét một nhận xét sau: "Phòng ở: mình ở villa pool ocean view, phòng và view khá đẹp, phòng tắm lộ thiên, hồ bơi riêng rất đẹp, nằm trong phòng nhìn ra hồ rất đã". Câu nhận xét này được phân lớp vào 3 lĩnh vực: Sự phục vụ của nhân viên (Hàng 1), Vị trí và giả cả (Hàng 2) và Trang thiết bị (Hàng 3). Câu nhận xét này cũng được xếp vào lớp đánh giá tích cực trong mỗi lĩnh vực.
3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng