Chương 2. HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG
2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội
2.2.2. Mô hình đề xuất
Khảo sát các công trình liên quan về hệ thống tư vấn, nghiên cứu sinh nhận thấy một số công trình sử dụng kết hợp các kỹ thuật về phân tích quan điểm cho kết quả khả quan. Tác giả D.Yang và cộng sự [20] đề xuất mô hình tư vấn lai dựa trên thông tin đăng ký và dữ liệu hỗ trợ thu được từ kỹ thuật phân tích quan điểm người dùng, sau đó mở rộng tiếp cận tìm thừa số ma trận (matrix factorization) kết hợp ảnh hưởng của sự tương đồng về mặt xã hội và sự tương đồng trong đặc điểm của tuyến đường đưa vào hệ thống tư vấn địa điểm. P.V.Krishna và cộng sự [100] đề xuất mô hình máy tự động học (Learning Automata) kết hợp với phân tích quan điểm cho bài toán tư vấn địa điểm trong đó phân tích và tính điểm các hồi đáp của người dùng về các địa điểm để nâng cao hiệu quả của mô hình. M.V.Tran và cộng sự [90] cũng đề xuất một hệ tư vấn tin tức cho tiếng Việt sử dụng mô hình lọc dựa trên nội dung kết hợp với kỹ thuật chủ đề ẩn phân tích sở thích trong thông tin hồ sơ người dùng.
Như vậy, một số công trình kể trên đã kết hợp phân tích quan điểm trên các thông tin liên quan của người dùng (như các hồi đáp, bình luận, hồ sơ người dùng…) để khai thác đặc trưng cho mô hình. Mô hình đề xuất trong luận án cho hệ tư vấn xã hội trong luận án thuộc nhóm tiếp cận sử dụng mô hình lọc cộng tác dựa trên bộ nhớ với một vài điểm cụ thể hóa khác biệt.
Một là ở bước chọn tập người dùng có liên quan: Khác với các công trình nêu ở 2.2.1, mô hình này đề xuất tập người dùng liên quan dựa trên việc thu thập dữ liệu trực tiếp từ website của nhà cung cấp sản phẩm, trong đó tập người dùng tham gia đánh giá sản phẩm chính là những người dùng có cùng sự quan tâm tới sản phẩm đó. Trong số tập người dùng thu được, mô hình tiếp tục tính toán sự tương đồng giữa các người dùng để tìm ra tập con người dùng tin cậy có ảnh hưởng nhất đến quyết định của người dùng đang xem xét. Hai là, mô hình đã kết hợp sử dụng phương pháp phân tích quan điểm người dùng trên các bình luận về sản phẩm với các trọng số khác nhau để tạo danh sách các sản phẩm ưa thích. Ba là, mô hình đã
63
xem xét đến sự ảnh hưởng của các loại đặc trưng khác nhau bao gồm đặc trưng về tiểu sử và đặc trưng xã hội đến quyết định của người dùng.
Trong mô hình, tập sản phẩm xem xét được coi là tập nhãn được xác định trước, việc tư vấn sản phẩm chính là gán cho người dùng một sản phẩm có khả năng nhất trong tập các sản phẩm xem xét. Bài toán tư vấn xã hội được trình bày như dưới đây.
Đầu vào:
- D: Tập dữ liệu là tập các bình luận của người dùng về sản phẩm. (Sau khi biến đổi tập dữ liệu D thành tập dữ liệu về người dung, tiến hành chia tập dữ liệu về người dùng thành tập Dtrain làm dữ liệu huấn luyện và tập Dtest làm dữ liệu kiểm thử.
- L: Danh sách các sản phẩm quan tâm Đầu ra:
- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL sao cho M được đánh giá kiểm thử trên tập ví dụ mẫu Dtest đạt kết quả cao
Quy trình giải quyết bài toán theo mô hình đề xuất được trình bày ở Quy trình 2.2
Pha 1: Xây dựng tập dữ liệu về người dùng
- Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L
- Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập sản phẩm người dùng quan tâm
Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm
- Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ liệu huấn luyện (Dtrain) và tập dữ liệu kiểm thử (Dtest)
- Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người dùng trên tập Dtest để tìm ra tập người dùng tin cậy trên Dtrain.
- Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy trên Dtrain để tư vấn cho người dùng mới.
- Bước 4: Đánh giá hiệu quả của hệ tư vấn.
Quy trình 2.2 Quy trình giải quyết bài toán
64
Hệ thống đưa ra lời tư vấn cho người dùng mới khi tìm kiếm thông tin về sản phẩm trên trang Facebook của nhà cung cấp sản phẩm thi hành Quy trình 2.1 được thể hiện tại Hình 2.5 Mô hình hệ thống tư vấn xã hội. Mô hình đề xuất gồm 2 pha chính:
Pha 1: Xây dựng tập dữ liệu về người dùng bao gồm tập các sản phẩm mà người dùng quan tâm
Bước 1: Danh sách các sản phẩm điện thoại di động được xây dựng dựa trên các thương hiệu nổi tiếng như Iphone, Samsung, Nokia, Oppo, Sony,…
Bước 2: Các dữ liệu được tải về từ Facebook được trích xuất ra thông tin về người dùng và các bình luận liên quan đến danh sách sản phẩm.
Hình 2.5 Mô hình hệ thống tư vấn xã hội
65
Dữ liệu được đưa qua module phân tích quan điểm dựa trên tập những bình luận dựa trên 3 tập từ điển về quan điểm như trong ví dụ sau:
BAD_SENTIMENT = {“chả”, “chê”, “xấu”, “tệ”, “kém”, “tồi”, “chán”,
“ghét”, “thua”, “chậm”}
GOOD_SENTIMENT = {“ngon”, “tốt”, “bền”, “được”, “chuẩn”, “thích”,
“yêu”, “nhanh”, “khỏe”, “hay”, “tiện”}
WEIGHT_SENTIMENT = {“ghê”, “hơn”, “khá”, “nhất”, “rất”, “được”,
“hơi”, “tạm”}
Sau bước này thu được tập dữ về tập người dùng và danh sách 4 sản phẩm mà người đó quan tâm nhất.
Pha 2: Xây dựng hệ thống tư vấn xã hội dựa trên mối quan hệ giữa người dùng Bước 1: Dữ liệu về người dùng được chia ngẫu nhiên thành tập dữ liệu huấn luyện Dtrain và tập dữ liệu kiểm thử Dtest theo hướng đánh giá kiểm thử chéo 4-fold (Trong đó, ba phần dữ liệu làm tập dữ liệu huấn luyện và một phần làm dữ liệu kiểm thử). Theo đó, mỗi người dùng trong tập Dtest được coi như một người dùng mới cần tư vấn. Tập sản phẩm do mô hình tư vấn sẽ được so sánh với tập sản phẩm trong thông tin người dùng để đánh giá hiệu quả mô hình.
Bước 2: Xác định mối quan hệ giữa người dùng dựa trên độ tương đồng để tìm ra tập người dùng tin cậy. Đây là những người dùng có quan hệ gần gũi với người dùng mới dựa trên độ đo về các đặc trưng. Có nhiều cách thiết lập độ tương đồng, trong công trình này, nhóm tác giả sử dụng độ đo Cosin trên tập đặc trưng về người dùng bao gồm: giới tính, năm sinh, thành phố, giáo dục, cơ quan, sở thích…
Trước đó, các đặc trưng được ánh xạ theo mã và kiểu giá trị thuộc tính, ví dụ:
- Đặc trưng giới tính bao gồm {nam, nữ} {1,0}
- Đặc trưng tuổi được phân chia theo nhóm {0-10, 10-20, 20-30,…} {1,2,3,…}
Bước 3: Sau khi thu được tập người dùng tin cậy, thực hiện thống kê trên tập dữ liệu để đưa ra sản phẩm có tần suất xuất hiện lớn nhất trong nhóm người này. Những sản phẩm này được coi là các tư vấn của hệ thống do người dùng tin cậy đề xuất.
66
Bước 4: Đánh giá hiệu quả mô hình bằng cách so sánh tập sản phẩn do người dùng tin cậy tư vấn ở Bước 2 và tập sản phẩm người dùng yêu thích khi phân tích thông tin người dùng.
Để đánh giá hiệu quả mô hình, luận án sử dụng các độ đo thông tin về độ chính xác xếp hạng bao gồm: độ chính xác bậc k (P@K); độ chính xác trung bình AP và độ chính xác trung bình bình quân MAP, trong đó:
- P@K: là độ chính xác của K đối tượng đầu bảng xếp hạng; Gọi Match@K là số đối tượng đúng ở K vị trí đầu tiên, khi đó độ chính xác bậc K sẽ được tính như sau:
(2.9) - AP : độ chính xác trung bình là một độ đo kết hợp độ chính xác ở các mức bao phủ. Xét một tập gồm N truy vấn, độ chính xác của truy vấn thứ i ký hiệu là APi , gọi mi số đối tượng liên quan đến truy vấn thứ i, khi đó công thức tính độ chính xác trung bình như sau:
∑
(2.10)
- MAP: Độ chính xác trung bình bình quân trên N truy vấn. Một hệ thống tìm kiếm được chạy thử nghiệm trên nhiều truy vấn, mỗi truy vấn có một thứ tự xếp hạng kết quả tương ứng. Do đó, MAP được định nghĩa là bình quân của độ chính xác trung bình của tất cả các truy vấn trên tập kiểm thử.
∑
(2.11)