ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ CÔNG NGHÊ THÔNG TIN
Hà Nội – 2017
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS HÀ QUANG THỤY 2. PGS.TS PHAN XUÂN HIẾU
Hà Nội – 2017
i
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác.
Nghiên cứu sinh
Phạm Thị Ngân
ii
LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Phan Xuân Hiếu.
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và thầy Phan Xuân Hiếu, những người đã đưa tôi tiếp cận và đạt được những thành công trong lĩnh vực nghiên cứu của mình. Tôi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi hoàn thành được bản luận án này.
Tôi xin bày tỏ lòng biết ơn tới thầy Nguyễn Trí Thành đã nhiệt tình hướng dẫn và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án.
Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu.
Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiện các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quá trình nghiên cứu.
Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng góp các ý kiến quý báu để tôi hoàn thiện luận án.
Tôi cũng bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh sát nhân dân; Tập thể lãnh đạo Bộ môn Toán-Tin học, Học viện Cảnh sát nhân dân đã tạo kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn các đồng chí trong Bộ môn Toán-Tin học đã luôn ủng hộ, quan tâm và động viên tôi.
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại, các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững chắc cho tôi trong suốt thời gian qua.
iii
MỤC LỤC
LỜI CAM ĐOAN ... i
LỜI CẢM ƠN ... ii
MỤC LỤC ... iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ... vii
DANH MỤC CÁC BẢNG ... ix
DANH MỤC CÁC HÌNH VẼ... x
MỞ ĐẦU ... 1
Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN ... 10
1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện .... 10
1.1.1. Phân lớp đơn nhãn ... 10
1.1.2. Phân lớp đơn nhãn đa thể hiện ... 11
1.1.3. Phân lớp đa nhãn ... 12
1.1.4. Phân lớp đa nhãn đa thể hiện ... 13
1.2. Giới thiệu chung về phân lớp đa nhãn ... 14
1.2.1. Kỹ thuật phân lớp đa nhãn ... 15
1.2.1.1. Tiếp cận chuyển đổi bài toán ... 16
1.2.1.2. Tiếp cận thích nghi thuật toán... 22
1.2.1.3. Tóm tắt về các thuật toán được giới thiệu ... 28
1.2.2. Dữ liệu đa nhãn ... 29
1.2.2.1. Các độ đo dữ liệu đa nhãn... 29
1.2.2.2. Phân bố nhãn ... 30
1.2.2.3. Mối quan hệ giữa các nhãn ... 30
1.2.3. Đánh giá phân lớp đa nhãn ... 31
1.2.3.1. Các độ đo dựa trên mẫu ... 32
1.2.3.2. Các độ đo dựa trên nhãn ... 34
1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn ... 36
iv
1.3.1. Tiếp cận giảm chiều không gian đặc trưng đầu vào ... 37
1.3.2. Tiếp cận giảm chiều không gian nhãn đầu ra ... 41
1.4. Học bán giám sát cho phân lớp đa nhãn ... 43
1.5. Kết luận chương 1 ... 43
Chương 2. HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT ... 45
2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát ... 45
2.1.1. Nhận diện thực thể có tên ... 45
2.1.2. Mô hình đề xuất ... 46
2.1.2.1. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường nhẫu nhiên có điều kiện CRFs ... 48
2.1.2.2. Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát ... 51
2.1.2.3. Mô hình đề xuất cho bài toán nhận diện thực thể có tên ... 52
2.1.3. Ứng dụng mô hình ... 56
2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội ... 59
2.2.1. Sơ bộ về tư vấn xã hội ... 59
2.2.2. Mô hình đề xuất ... 62
2.2.3. Ứng dụng mô hình ... 66
2.3. Kết luận chương ... 68
Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN ... 70
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn ... 70
3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn ... 70
3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn ... 75
3.1.2.1. Pha 1 – Huấn luyện mô hình ... 77
3.1.2.2. Pha 2 – Đánh giá mô hình huấn luyện ... 82
v
3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn ... 83
3.1.3.1. Xây dựng tập dữ liệu thực nghiệm ... 84
3.1.3.2. Thực nghiệm ... 85
3.1.3.3. Kết quả thực nghiệm ... 86
3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn ... 87
3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách ... 89
3.2.1.1. Biểu diễn dữ liệu theo đồ thị khoảng cách ... 89
3.2.1.2. Mô hình đồ thị khoảng cách và mô hình n-gram ... 92
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn ... 93
3.2.2.1. Pha huấn luyện mô hình ... 95
3.2.2.2. Pha phân lớp sử dụng mô hình huấn luyện ... 97
3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn ... 98
3.3. Kết luận chương 3 ... 100
Chương 4. KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT ... 102
4.1. Tiếp cận phân cụm bán giám sát ... 102
4.1.1. Tiếp cận dựa trên ràng buộc ... 102
4.1.2. Tiếp cận dựa trên khoảng cách ... 103
4.2. Mô hình phân lớp đa nhãn bán giám sát ... 105
4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát ... 105
4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát106 4.2.2.1. Thuật toán TESC và LIFT ... 107
4.2.2.2. Thuật toán phân lớp đa nhãn bán giám sát ... 109
4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất ... 116
4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát ... 117
4.3.1. Mô hình đề xuất ... 117
vi
4.3.1.1. Pha 1. Huấn luyện mô hình ... 118
4.3.1.2. Pha 2. Phân lớp sử dụng mô hình huấn luyện ... 120
4.3.2. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất ... 120
4.4. Kết luận chương 4 ... 123
KẾT LUẬN ... 124
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN ... 128
TÀI LIỆU THAM KHẢO ... 129
vii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Kí hiệu Tiếng Anh Tiếng Việt
ANN Artificial neural network Mạng Nơ-ron nhân tạo BPMLL Backpropagation for Multilabel
Learning
Phân lớp đa nhãn mạng Nơron lan truyền ngược
BR Binary Relevance Phân lớp nhị phân
CC Classifier Chains Chuỗi bộ phân lớp
CDE ChiDep Ensemble Phương pháp tích hợp phụ
thuộc Chi
CLR Calibrated Label Ranking Xếp hạng nhãn xác định CML Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm CRFs Conditional Random Fields Trường ngẫu nhiên có điều kiện CTM Corelated Topic Model Mô hình chủ đề tương quan
DTM Dynamic Topic Model Mô hình chủ đề động
ECC Ensemble of Classifier Chains Tích hợp chuỗi bộ phân lớp EPCC Ensemble of Probabilistic
Classifier Chains
Tích hợp chuỗi bộ phân lớp xác suất
EPS Ensemble of Pruned Sets Tích hợp các tập cắt tỉa
FE Feature Extraction Trích chọn đặc trưng
FS Feature Selection Lựa chọn đặc trưng
IBLR Instance-Based Learning by Logistic Regresion
Học dựa trên thực thể bằng hồi quy logic
IG Information Gain Độ lợi thông tin
kNN k Nearest Neighbour k láng giềng gần nhất
LC Label Combination Kết hợp nhãn
LP Label Powerset Tập lũy thừa nhãn
LDA Latent Dirichlet Allocation Mô hình chủ đề ẩn LIFT Multi-Label Learning with Label
specIfic FeaTures
Học đa nhãn với đặc trưng nhãn riêng biệt
LP Label Power set Tập lũy thừa nhãn
LSA Latent Semantic Analysis Phân tích ngữ nghĩa ẩn
MI Mutual Information Thông tin tương hỗ
MIML Multi-Instance Multi-Label Đa nhãn đa thể hiện MLC Multi-Label Classiffication Phân lớp đa nhãn ML-DT Multi-Label Decision Tree Cây quyết định đa nhãn
ML-kNN Multi-Label k Nearest Neighbour k Láng giềng gần nhất đa nhãn
MLL Multi-Label Learning Học đa nhãn
MLNB Multilabel Naive Bayes Naïve Bayes đa nhãn MMAC Multiclass Multilabel Associative
Classification Phân lớp kết hợp đa nhãn đa lớp MMP Multilabel Multiclass
Perceptron
Thuật toán Perceptron phân lớp đa lớp đa nhãn
viii
MuLAM Multilabel Ant - Miner Thuật toán tối ưu đàn kiến đa nhãn
NER Named Entity Recognition Nhận dạng thực thể có tên PCA Principal Component Analysis Phân tích thành phần chính PCC Probabilistic Classifier Chains Chuỗi bộ phân lớp xác suất PCT Predictive Clustering Trees Thuật toán cây phân cụm dự
đoán PMM1
Parametric Mixture Models Mô hình hòa trộn tham số PMM2
POS Part Of Speech Từ loại
PS Pruned Sets Các tập bị cắt tỉa
PW Pairwise Methods Phương pháp cặp đôi
RPC Ranking by Pairwise Comparision
Phương pháp xếp hạng theo so sánh cặp đôi
RSL Ranking via Single-label Learning
Xếp hạng thông qua học đơn nhãn
SVM Support Vector Machine Máy vectơ hỗ trợ TESC TExt classification using Semi-
supervised Clustering
Phân lớp văn bản sử dụng phân cụm bán giám sát
TFIDF Term Frequency Inverse Document Frequency
Trọng số về tần suất và độ quan trọng của từ
ix
DANH MỤC CÁC BẢNG
Bảng 1.1 Ví dụ về dữ liệu đa nhãn ... 16
Bảng 1.2 Tóm tắt các thuật toán phân lớp đa nhãn ... 29
Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán ... 34
Bảng 2.1 Mẫu ngữ cảnh từ vựng ... 55
Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể ... 55
Bảng 2.3 Kết quả thực nghiệm ... 57
Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng ... 67
Bảng 2.5 Kết quả thực nghiệm ... 67
Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu ... 81
Bảng 3.2 Ví dụ về dữ liệu đa nhãn ... 82
Bảng 3.3 Tập dữ liệu thực nghiệm ... 84
Bảng 3.4 Tập dữ liệu huấn luyện ... 84
Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn... 85
Bảng 3.6 Kết quả phân lớp ... 86
Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn ... 96
Bảng 3.8 Kết quả thực nghiệm của mô hình phân lớp đa nhãn dựa trên mô hình chủ đề ẩn và đồ thị khoảng cách ... 100
Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2 ... 121
Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5 ... 122
x
DANH MỤC CÁC HÌNH VẼ
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và
Scopus (phải) tới năm 2013 [22] ... 3
Hình 0.2 Phân bố các chủ đề trong các chương của luận án ... 7
Hình 1.1 Phân lớp đơn nhãn truyền thống [128] ... 10
Hình 1.2 Học đơn nhãn đa thể hiện [128] ... 11
Hình 1.3 Học đa nhãn [128] ... 13
Hình 1.4 Học đa nhãn đa thể hiện [128] ... 14
Hình 1.5 Hai tiếp cận học đa nhãn [21] ... 15
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn ... 17
Hình 1.7 Thuật toán phân lớp BR [89] ... 18
Hình 1.8 Thuật toán phân lớp CC [64] ... 20
Hình 1.9 Thuật toán phân lớp CLR [84] ... 21
Hình 1.10 Thuật toán phân lớp RakEL [43], [84] ... 22
Hình 1.11 Thuật toán ML-kNN [84] ... 23
Hình 1.12 Thuật toán phân lớp ML-DT [84] ... 25
Hình 1.13 Thuật toán phân lớp Rank-SVM [84] ... 26
Hình 1.14 Thuật toán phân lớp CML [84] ... 27
Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84] ... 31
Hình 1.16 Mô hình lựa chọn đặc trưng cho phân lớp dữ liệu [47] ... 36
Hình 2.1 Đồ thị vô hướng mô tả CRFs ... 49
Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát ... 53
Hình 2.3 Tập các ràng buộc (Constraint file) ... 54
Hình 2.4 Kết quả mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau ... 58
Hình 2.5 Mô hình hệ thống tư vấn xã hội ... 64
Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16] ... 72
Hình 3.2 Mô hình sinh trong LDA [15] ... 73
Hình 3.3 Thuật toán sinh trong mô hình LDA ... 73
Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn ... 78
Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana ... 87
xi
Hình 3.6 Biểu diễn văn bản theo không gian vectơ, v1 và v2 là hai văn bản trong không gian vectơ ba chiều T1, T2, T3 trong đó Ti là từ ... 88 Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách ... 90 Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn. ... 94 Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề... 96 Hình 4.1 Mô hình phân lớp bán giám sát đề xuất ... 117 Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt ... 119
1
MỞ ĐẦU
Tính cấp thiết của luận án
Cùng với sự bùng nổ dữ liệu cả về dung lượng lẫn về chủng loại, phân lớp dữ liệu tự động là rất cần thiết và là một trong những chủ đề chính trong khai phá dữ liệu. Trong mười thuật toán khai phá dữ liệu điển hình nhất có tới bảy thuật toán liên quan tới bài toán phân lớp là thuật toán C4.5 và cải biên, thuật toán máy vectơ hỗ trợ SVM (Support Vector Machine, còn được gọi là máy vectơ tựa), thuật toán EM (Expectation–Maximization), thuật toán Adaboost, thuật toán k-láng giềng gần nhất k-NN, thuật toán Bayes “ngây thơ” (Naïve Bayes), thuật toán CART (Classification and Regression Trees) [121]. Bản chất của bài toán phân lớp dữ liệu là xây dựng một hàm (hoặc ánh xạ) toàn phần từ tập dữ liệu (gồm các dữ liệu đã tồn tại hoặc sẽ xuất hiện) thuộc một miền ứng dụng tới một tập hữu hạn nhãn cho trước dựa trên thông tin đã biết về hàm này trên một tập con các dữ liệu đã được gán nhãn (được gọi là tập ví dụ mẫu). Hàm kết quả được gọi là mô hình (bộ) phân lớp (classification model/classifier) hay mô hình dự báo (prediction model) lớp. Do bài toán phân lớp đòi hỏi cho trước một tập ví dụ mẫu cho nên nó cũng được gọi là bài toán học có giám sát.
Một thuật toán phân lớp điển hình thường trải qua hai bước thực hiện. Bước thứ nhất, được gọi là bước học mô hình (learning step), thực hiện việc phân tích dữ liệu thuộc một tập con ví dụ mẫu, được gọi là tập dữ liệu huấn luyện (training dataset), để xây dựng một mô hình phân lớp phù hợp với tập dữ liệu huấn luyện. Về bản chất, ở bước học, thuật toán phân lớp “học” một hàm có khả năng gán nhãn cho mọi dữ liệu miền ứng dụng. Hàm phân lớp kết quả từ bước học được sử dụng để dự báo nhãn cho các dữ liệu mới. Tuy nhiên, trước khi đem mô hình phân lớp vào ứng dụng thực tế, thuật toán phân lớp cần tiến hành bước đánh giá mô hình (model evaluation, hay kiểm thử mô hình (model testing)). Ở bước đánh giá mô hình, một tập con ví dụ mẫu, được gọi là tập dữ liệu kiểm thử (testing data), được sử dụng để đo độ chính xác của thuật toán. Mô hình phân lớp được áp dụng trên các ví dụ trong tập dữ liệu kiểm thử để nhận được các nhãn dự báo và các nhãn này được so sánh
2
với nhãn thực sự đã có tương ứng của ví dụ. Nếu tỷ lệ nhãn dự báo trùng hợp với nhãn thực sự càng cao thì mô hình phân lớp càng chính xác. Nhằm đảm bảo việc đánh giá mô hình phân lớp là khách quan, tập dữ liệu kiểm thử và tập dữ liệu huấn luyện là rời nhau (hai tập dữ liệu không chứa chung một ví dụ bất kỳ). Khi chất lượng của mô hình phân lớp được khẳng định thì nó được sử dụng để “gán” nhãn cho mọi dữ liệu chưa có nhãn (hiện có và sẽ có) thuộc miền ứng dụng.
Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từ đơn giản tới ngày càng phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện [128].
Phân lớp đơn nhãn (còn được gọi là phân lớp truyền thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn (hàm phân lớp đơn trị). Phân lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn (hàm phân lớp đa trị), chẳng hạn, một tài liệu về chuyển nhượng cầu thủ bóng đá có thể vừa thuộc lớp kinh tế vừa thuộc lớp thể thao. Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với nhiều thể hiện và mỗi đối tượng này tương ứng với một nhãn. Một ví dụ điển hình về đối tượng đơn nhãn đa thể hiện là coi mỗi đối tượng là một chùm chìa khóa chứa nhiều chìa khóa, mỗi khóa có thể mở được một phòng [124]. Giả sử có một phòng khóa cửa và có N chùm chìa khóa, nếu một chùm nào đó chứa chìa khóa mở được phòng này thì chùm đó được coi là hữu ích. Phân lớp đa nhãn - đa thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứng với nhiều nhãn. Chương 1 của luận án sẽ đề cập chi tiết hơn về quá trình tiến hóa bài toán phân lớp.
Luận án “Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng” tập trung vào bài toán phân lớp đa nhãn. Phân lớp đa nhãn (Multi-Label Classiffication:
MLC) hay học đa nhãn (Multi-Label Learning: MLL) là một khung học máy (learning framwork) giám sát mới nổi trong thời gian gần đây [22], [40], [42], [84].
Khung học máy này đã thể hiện sự phù hợp với thực tế và tính ứng dụng rộng rãi trong các bài toán phân lớp, điển hình là trong phân lớp văn bản, phân tích dữ liệu đa phương tiện, sinh học, khai phá mạng xã hội, học điện tử và nhiều miền ứng
3
dụng khác [21], [40]. Tuy nhiên, học đa nhãn đòi hỏi những tiến hóa mới đối với các phương pháp học máy cho giải pháp thích hợp với dữ liệu đa nhãn như vấn đề về mối quan hệ giữa các nhãn, chi phí tính toán của thuật toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Đây là các vấn đề cần tiếp tục nghiên cứu, cải tiến và phát triển để nâng cao hiệu quả phân lớp đa nhãn.
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus (phải) tới năm 2013 [22]
Chính vì lý do đó, học đa nhãn cuốn hút một cộng đồng nhiên cứu rộng rãi trên thế giới. Bằng các truy vấn phù hợp vào cơ sở dữ liệu ISI và Scopus [22], E. Gibaja và S. Ventura nhận được thông tin về số lượng hàng năm các công bố khoa học về học đa nhãn và trích dẫn tới các công bố đó trong các cơ sở dữ liệu ISI và Scopus. Kết quả số liệu thống kê của các tác giả được chỉ dẫn tại Hình 0.1. Các biểu đồ trong Hình 0.1 chứng tỏ rằng học đa nhãn là chủ đề nhận được sự quan tâm ngày càng tăng trong cộng đồng nghiên cứu. Tính tới năm 2013, theo các tác giả thì hội nghị ECML/PKDD 2009 và hai hội nghị MLD 2009 và MLD 2010 chứa một lượng đáng kể các công trình nghiên cứu về học đa nhãn. Các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng sự1, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự2, Sebastián Ventura Soto3 và cộng sự với nhiều đóng góp nổi bật về học đa nhãn.
1 http://cs.nju.edu.cn/zhouzh/ và http://cse.seu.edu.cn/PersonalPage/zhangml/
2 http://plase.csd.auth.gr/vlahavas/ và http://intelligence.csd.auth.gr/people/tsoumakas
3 http://www.uco.es/users/sventura/en/
4
Học đa nhãn là chủ đề nghiên cứu của một số luận án Tiến sỹ trên thế giới, chẳng hạn như [51], [67], [92], [111], [113]. Luận án của J. Read [67] đề xuất giải pháp phân lớp đa nhãn trên quy mô lớn với hai mô hình phân lớp dựa trên phương pháp tập cắt tỉa và chuỗi bộ phân lớp; hai tiếp cận này nhận được đánh giá tốt từ cộng đồng nghiên cứu nhờ tính hiệu quả trên cả phương diện về sự đa dạng và quy mô của dữ liệu. Tác giả H.Q.Le [51] đề xuất một kỹ thuật lựa chọn đặc trưng đa lớp và một thuật toán phân lớp đa nhãn trên miền dữ liệu web có cấu trúc nhóm. Thuật toán phân lớp đa nhãn đa cặp (Multi-Pair) chuyển đổi bài toán phân lớp đa nhãn về nhiều bài toán phân lớp nhị phân (OVA One-Vs-All), sau đó, tiếp tục phân tách mỗi bộ phân lớp nhị phân thành các cặp so sánh nhỏ hơn và đơn giản hơn giữa một nhóm và một tập con của phần bù của nhóm. Phân tách như vậy giúp tận dụng được cấu trúc nhóm trong phần bù và giảm sự mất cân bằng dữ liệu trong phương pháp OVA. Trong một tiếp cận khác, S.S.Bucak [113] đề xuất một phương pháp biểu diễn ảnh dựa trên học đa nhân và thuật toán học đa nhãn dựa trên tiếp cận xếp hạng đa nhãn, trong đó thuật toán xếp hạng đa nhãn sẽ xếp hạng tất cả lớp ảnh sao cho các lớp liên quan sẽ có hạng cao hơn các lớp ít liên quan. Luận án của S.Jungjit [111] đề xuất một mô hình phân lớp đa nhãn kết hợp hai bộ phân lớp đa nhãn kinh điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn mạng Nơron lan truyền ngược (BPMLL) với giải pháp lựa chọn đặc trưng thông qua tìm kiếm các tập con đặc trưng phù hợp.
Theo M. L. Zhang và Z. H. Zhou [84], các công trình nghiên cứu sớm nhất về học đa nhãn là tập trung vào miền ứng dụng phân lớp văn bản [6], [106]. Theo thời gian, học đa nhãn được ứng dụng vào nhiều miền ứng dụng đa dạng (đặc biệt là miền ứng dụng phân lớp dữ liệu ảnh) và nhiều phương pháp học đa nhãn đã được đề xuất [1], [7], [23], [25], [42], [44], [63], [66], [73], [74], [76], [114], [117], [118], [127]. Các phương pháp ban đầu thường đi theo cách tiếp cận là cố gắng chia bài toán học đa nhãn thành nhiều bài toán phân lớp hai nhãn hoặc chuyển nó thành phương pháp học máy xếp hạng nhãn trong phân lớp đa nhãn [23], [42], [73], [74], những tiếp cận gần đây chú trọng hơn đến việc khai thác mối quan hệ giữa các nhãn [7], [76], [117], [118], tiếp
5
cận khai thác mối quan hệ đa nhãn và dự đoán chuỗi tuần tự [65].
Trong học đa nhãn, các giải pháp biểu diễn dữ liệu và lựa chọn đặc trưng dữ liệu tốt cho phép nâng cao tính hiệu quả của các giải pháp học đa nhãn [24], [82], [83], [87], [93], [94], [127] và nhiều giải pháp đã được đề xuất. M.L. Zhang và cộng sự sử dụng chiến thuật lựa chọn đặc trưng dựa trên phân tích thành phần chính PCA và các thuật toán di truyền để loại bỏ các đặc trưng dư thừa, không liên quan và chọn ra tập đặc trưng phù hợp nhất cho bài toán phân lớp [82] hoặc khai thác các đặc trưng cụ thể cho từng nhãn để sử dụng cho quá trình huấn luyện và kiểm thử [83], [87].
A.Elisseeff và J.Weston sử dụng các đặc trưng nhãn được sắp xếp để khai thác mối quan hệ giữa các nhãn trong bài toán phân lớp đa nhãn [1]. O.G.R. Pupo và cộng sự đánh trọng số đặc trưng dựa trên bộ lọc nhằm cải tiến các thuật toán lười (lazy algorithm) phân lớp đa nhãn [93] hoặc cải tiến thuật toán ReliefF đánh trọng số và lựa chọn đặc trưng cho phân lớp đa nhãn bao gồm việc sử dụng phương pháp chuyển đổi bài toán đa nhãn về bài toán phân lớp đơn nhãn và thích nghi thuật toán ReliefF trực tiếp giải quyết bài toán phân lớp đa nhãn [94]. Phân tích các đặc trưng dữ liệu cho phân lớp đa nhãn cũng là một trong các hướng nghiên cứu được quan tâm gần đây [44].
Tại Việt Nam, qua khảo sát các công trình khoa học được công bố, phân lớp đơn nhãn đã nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu4. Trong khi đó, phân lớp đa nhãn, đặc biệt là phân lớp đa nhãn văn bản tiếng Việt, còn khá ít5 và đa phần do các nhóm nghiên cứu tại Đại học Công nghệ, Đại học Quốc gia Hà Nội tiến hành và hiện chưa có luận án tiến sỹ nào về phân lớp đa nhãn.
Các tiếp cận về phân lớp đa nhãn trước đây chủ yếu tập trung vào giải thuật theo phương pháp học giám sát, các mô hình phân lớp đa nhãn bán giám sát vẫn còn hiếm. Luận án này tiếp nối các nghiên cứu về phân lớp đa nhãn, tiếp tục phân tích, đánh giá và đề xuất cải tiến mô hình phân lớp về phương pháp biểu diễn dữ liệu, lựa
4 Google Scholar trả về tài liệu đối với truy vấn “classification” + “Vietnamese” ngày 26/9/2017
5 Google Scholar trả về 29 tài liệu đối với truy vấn ““multi-label classification” + “Vietnamese”” ngày 20/12/2016.
6
chọn đặc trưng và đề xuất mới thuật toán phân lớp đa nhãn theo phương pháp bán giám sát nhằm tận dụng nguồn tài nguyên dữ liệu chưa gán nhãn phong phú. Phân lớp văn bản có tính ứng dụng do sự xuất hiện rộng rãi của văn bản trong mọi lĩnh vực của đời sống, ở sách báo, thông điệp, diễn đàn,… Do đó, luận án tập trung vào bài toán phân lớp đa nhãn văn bản tiếng Việt.
Nghiên cứu của luận án hướng tới một số mục tiêu sau đây. Thứ nhất, luận án cung cấp một khảo sát khái quát về phân lớp đa nhãn. Thứ hai, luận án đề xuất các phương pháp biểu diễn dữ liệu và lựa chọn đặc trưng phù hợp nhằm nâng cao hiệu quả của giải pháp phân lớp đa nhãn văn bản tiếng Việt. Nghiên cứu, đề xuất các thuật toán phân lớp đa nhãn dựa trên các thuật toán phân lớp hiện đại là mục tiêu thứ ba của luận án. Cuối cùng, luận án xây dựng một số phần mềm thử nghiệm thực thi các giải pháp biểu diễn dữ liệu và thuật toán phân lớp đa nhãn được luận án đề xuất để kiểm chứng tính hiệu quả của các đề xuất đó.
Đối tượng nghiên cứu của luận án là phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và thuật toán phân lớp đa nhãn trong miền dữ liệu văn bản tiếng Việt.
Phạm vi nghiên cứu của luận án được giới hạn ở phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và thuật toán phân lớp đa nhãn văn bản tiếng Việt, tập trung vào miền ứng dụng phân tích nhận xét đánh giá tiếng Việt.
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất mô hình biểu diễn dữ liệu và thuật toán phân lớp đa nhãn cũng như nghiên cứu thực nghiệm để kiểm chứng đánh giá các đề xuất của luận án.
Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và đạt được một số đóng góp được ghi nhận, tập trung vào các nghiên cứu về phân lớp đa nhãn văn bản tiếng Việt.
Thứ nhất, luận án đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn là mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] và mô hình biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề [PTNgan4].
Thứ hai, trên cơ sở phát triển thuật toán phân cụm bán giám sát đơn nhãn TESC [120], luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát (Thuật
7
toán MULTICS [PTNgan5], [PTNgan6]) sử dụng chiến thuật “tham lam” khai thác các đặc trưng riêng biệt của các nhãn.
Thứ ba, luận án tham gia đóng góp vào dòng nghiên cứu về học phân lớp đơn nhãn văn bản tiếng Việt tương ứng với hai ứng dụng thực tiễn là đề xuất mô hình gán nhãn thực thể có tên [PTNgan1] và mô hình hệ tư vấn xã hội [PTNgan2].
Đồng thời, nhằm minh chứng cho tiềm năng ứng dụng thực tiễn của các mô hình đề xuất, luận án thực thi các thực nghiệm để kiểm chứng tính hữu dụng của các thuật toán và mô hình được luận án đề xuất. Kết quả thực nghiệm cho thấy tiềm năng ứng dụng cao các kết quả nghiên cứu từ luận án.
Luận án cũng có đóng góp trong việc cung cấp một nghiên cứu tổng quan về học máy đa nhãn.
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ bộ về phân bố các chủ đề trong bốn chương nội dung của luận án.
Hình 0.2 Phân bố các chủ đề trong các chương của luận án
Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơn nhãn tới phân lớp đa nhãn. Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng không phù hợp với không ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể
8
hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp;
Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phương pháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặc trưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các độ đo và phương pháp đánh giá phân lớp đa nhãn.
Luận án cung cấp hai mô hình phân lớp đơn nhãn ứng dụng thực tế [PTNgan1], [PTNgan2]. Mô hình gán nhãn thực thể có tên tiếng Việt dựa trên mô hình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳ vọng tổng quát. Mô hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng tác kết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác động của các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảo sát. Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mô hình phân lớp đơn nhãn được đề cập.
Chương 3 của luận án đề xuất hai mô hình phân lớp đa nhãn dựa trên tiếp cận về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mô hình.
Trong mô hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai thác thông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ liệu và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại bỏ những đặc trưng không có hoặc ít quan trọng) dựa trên thông tin tương hỗ (Mutual Information). Một mô hình ứng dụng cho bài toán đánh giá danh tiếng cho 1000 khách sạn Việt Nam đã được xây dựng. Mô hình thứ hai [PTNgan4] đề nghị một phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn. Kết quả áp dụng mô hình vào bài toán đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam đã minh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách.
Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốn kém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùng một thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả. Luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5, PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát
9
TESC [120]. Luận án xây dựng một mô hình phân lớp đa nhãn bán giám sát trên nền thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Kết quả thực nghiệm cho thấy tính hiệu quả của thuật toán MULTICS. Thuật toán MULTICS và các nội dung liên quan được trình bày trong Chương 4 của luận án.
10
Chương 1.
TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN
Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài toán phân lớp từ phân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện. Tiếp đó, luận án tập trung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểm của dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn.
1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu của miền ứng dụng vào một tập nhãn cho trước. Đối tượng phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảo sát và hiểu dữ liệu. Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng các tập đặc trưng khác nhau. “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng. Ngầm định bài toán phân lớp trong luận án là phân lớp dữ liệu “đơn thể hiện” nếu không có chỉ dẫn tường minh.
1.1.1. Phân lớp đơn nhãn
Một cách hình thức, bài toán phân lớp đơn nhãn được phát biểu như sau: Ký hiệu là không gian thể hiện (hoặc không gian thuộc tính) và là tập các nhãn.
Cho trước một tập mẫu D = *( ) ( ) ( )+ trong đó là một thể hiện và là một nhãn đã biết của . Nhiệm vụ đặt ra là cần học một hàm ánh xạ từ không gian thể hiện vào tập các nhãn.
Hình 1.1 Phân lớp đơn nhãn truyền thống [128]
Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản.
Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn
11
bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).
Mô hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.
Tồn tại một số biến thể của bài toán phân lớp đơn nhãn. Khác với phân lớp đơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một số biến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn với mỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11].
C. C. Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyết định, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máy vectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất...
1.1.2. Phân lớp đơn nhãn đa thể hiện
Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp văn bản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khuôn mặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng một tập các thể hiện kết hợp với nhau. Đây là bài toán phân lớp đơn nhãn đa thể hiện, một dạng tiến hóa từ phân lớp đơn nhãn. Theo Z.H Zhou và cộng sự [128], [129], các công trình công bố sớm nhất về học đa thể hiện là [95], [115]. Trong bài toán phân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệu huấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãn dương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm. Mục tiêu là gán nhãn cho các túi chưa biết một cách chính xác.
Hình 1.2 Học đơn nhãn đa thể hiện [128]
Cho trước một tập dữ liệu *( ) ( ) ( )+ trong đó, là
12
một tập các thể hiện { } ( ) trong đó, là số thể hiện trong và là nhãn của . Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.
Trong phân lớp đơn nhãn đa thể hiện trên miền dữ liệu văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng các tập các đặc trưng khác nhau (ví dụ như mỗi tập đặc trưng biểu diễn cho một đoạn văn bản [107], hay mỗi tập đặc trưng biểu diễn cho một câu trong văn bản [119]), một văn bản được biểu diễn bởi các tập đặc trưng vừa xây dựng (đa thể hiện). Mô hình phân lớp đơn nhãn đa thể hiện đánh giá và kiểm tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.
Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theo phương pháp thích nghi thuật toán, trong đó một thuật toán phân lớp đơn nhãn đơn thể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiện sang mục tiêu phân biệt trên các túi dữ liệu. Theo Z.H Zhou và cộng sự [128], một số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật toán mật độ thay đổi (Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EM- DD [105], thuật toán cây quyết định RELIC [36], thuật toán k láng giềng gần nhất Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng [85], các thuật toán dựa trên máy vectơ hỗ trợ và phương pháp nhân như MI-SVM [107], DD-SVM [123], MISS-SVM [130], MI-Kernel [116]. Một số tiếp cận theo phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện về đơn thể hiện được Z.H Zhou và M.L Zhang đề xuất [130].
1.1.3. Phân lớp đa nhãn
Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoán chức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau. Đây là bài toán phân lớp đa nhãn. Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo.
13
Hình 1.3 Học đa nhãn [128]
Cho trước một tập dữ liệu *( ) ( ) ( )+ trong đó, là một thể hiện và là một tập nhãn { } ( ), là số nhãn trong . Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.
Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản.
Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).
Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau .
Các thách thức về dữ liệu đa nhãn, về mối quan hệ nhãn và đưa phân lớp đa nhãn vào ứng dụng thực tế tạo nên các chủ đề nghiên cứu thời sự và nhiều giải pháp kết quả đã và đang được công bố. Vì vậy, các chủ đề này được lựa chọn là các chủ đề tập trung nghiên cứu trong luận án.
1.1.4. Phân lớp đa nhãn đa thể hiện
Ở mức tiến hóa cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thể hiện được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [129] và được khái quát hóa trong [128]. Bài toán phân lớp đa nhãn đa thể hiện được phát biểu khái quát như sau: Cho trước một tập nhãn lớp, mỗi phần tử dữ liệu được phân lớp có thể đồng thời thuộc về nhiều lớp và mỗi phần tử dữ liệu có thể được biểu diễn qua nhiều thể hiện. Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhập nhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp một khung nhìn mang tính tự nhiên và gần với thực tế hơn.
14
Cho trước một tập dữ liệu *( ) ( ) ( )+, trong đó, là một tập các thể hiện { } ( ) và là một tập nhãn { } ( ), với là số thể hiện trong và
là số nhãn trong . Khung học máy đa nhãn đa thể hiện học một hàm ánh xạ từ không gian thể hiện vào không gian tập nhãn.
Hình 1.4 Học đa nhãn đa thể hiện [128]
Trong phân lớp đa nhãn đa thể hiện văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng các tập các đặc trưng khác nhau, mỗi văn bản được biểu diễn bởi các tập đặc trưng vừa xây dựng (đa thể hiện). Mô hình phân lớp đa nhãn đa thể hiện đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau .
Z.H. Zhou và cộng sự [128] hệ thống hóa các giải pháp học máy đa nhãn đa thể hiện và một số phương pháp điển hình được giới thiệu sau đây. Hai thuật toán MIMLSVM và MIMLBoost [128], [129] tiến hành việc giảm cấp bài toán phân lớp đa nhãn đa thể hiện thành các bài toán đơn giản hơn sử dụng học máy đa nhãn đơn thể hiện và học máy đa thể hiện đơn nhãn làm cầu nối. Thuật toán DBA [110] biểu diễn bài toán MIML dưới dạng mô hình sinh thống kê. Thuật toán Ranking Loss [27] tối ưu hóa hàm rủi ro xếp hạng nhãn cho túi và gán nhãn thể hiện. Thuật toán láng giềng gần nhất MIML-kNN được đề xuất trong [86].
1.2. Giới thiệu chung về phân lớp đa nhãn
Tuy không phải là dạng tiến hóa cao nhất trong khung học máy như giới thiệu trên đây, nhưng phân lớp đa nhãn có phạm vi ứng dụng rất rộng lớn trong thực tiễn, và vì vậy, phân lớp đa nhãn luôn là một chủ đề nghiên cứu – triển khai thời sự.
Phần tiếp theo trình bày khái quát một số vấn đề cơ bản về phân lớp đa nhãn.
15 1.2.1. Kỹ thuật phân lớp đa nhãn
Hình 1.5 Hai tiếp cận học đa nhãn [21]
Phân lớp đa nhãn được chia thành hai nhóm tiếp cận chính là tiếp cận chuyển đổi bài toán và tiếp cận thích nghi thuật toán.
Tiếp cận chuyển đổi bài toán là phương pháp chuyển đổi bài toán phân lớp đa nhãn thành một hoặc nhiều bài toán phân lớp đơn nhãn (phân lớp đa lớp hoặc phân lớp nhị phân) hoặc các bài toán hồi quy. Theo tiếp cận này, các bộ phân lớp đơn nhãn được thực thi sau đó các dự đoán phân lớp đơn nhãn được kết hợp lại thành kết quả dự đoán đa nhãn. Phương pháp này khá linh động vì có thể sử dụng bất kỳ bộ phân lớp đơn nhãn nào như Máy vectơ hỗ trợ SVM [109], Naïve Bayes [6], k láng giềng gần nhất kNN [26] và Perceptrons [57]…
16
Tiếp cận thích nghi thuật toán là phương pháp mở rộng các thuật toán học phân lớp đơn nhãn đã biết để áp dụng trực tiếp giải quyết bài toán phân lớp đa nhãn.
Các thuật toán phân lớp đơn nhãn điển hình nhất được chọn lựa để thích nghi là AdaBoost [106], cây quyết định [12], thuật toán học lười [86]...
Hình 1.5 thể hiện một cách trực quan các nhóm phương pháp cho phân lớp đa nhãn và một số thuật toán thuộc mỗi nhóm. Luận án trình bày một số thuật toán điển hình của mỗi tiếp cận ở phần tiếp theo.
1.2.1.1. Tiếp cận chuyển đổi bài toán
Để minh họa cho phương pháp này, luận án sử dụng tập dữ liệu ở Bảng 1.1.
Trong bảng dữ liệu có bốn mẫu được phân lớp vào tập nhãn lớp gồm bốn nhãn:
.
Mẫu Tập nhãn
1 * +
2 * +
3 * +
4 * +
Bảng 1.1 Ví dụ về dữ liệu đa nhãn
Sau đây là phát biểu của bài toán phân lớp đa nhãn được sử dụng chung cho các phương pháp được trình bày ở các phần tiếp theo.
Đầu vào:
- : Tập dữ liệu đa nhãn
- L: Tập nhãn cho trước gồm q nhãn Đầu ra:
- Một bộ phân lớp đa nhãn ( )
Độ phức tạp tính toán của các thuật toán trình bày dưới đây được xác định chủ yếu qua ba thành phần chung cho mọi thuật toán là: số mẫu huấn luyện ( ), số chiều thuộc tính ( ) và số nhãn lớp ( ). Ngoài ra, các thuật toán học nhị phân (hoặc đa lớp) trong phương pháp chuyển đổi bài toán có ký hiệu độ phức tạp pha huấn luyện là ( ) và pha kiểm thử là ( ).
17
a. Thuật toán tương hợp nhị phân – Binary Relevance(BR)
Theo M. R. Boutell và cộng sự [89], ý tưởng chính của thuật toán này là giảm cấp bài toán học đa nhãn thành q bài toán phân lớp nhị phân độc lập, trong đó mỗi bài toán phân lớp nhị phân tương ứng với một nhãn trong không gian nhãn. Theo đó, để xác định nhãn lớp thứ được ký hiệu là , đầu tiên thuật toán BR xây dựng một tập huấn luyện nhị phân tương ứng bằng việc xem xét sự liên quan của mỗi mẫu huấn luyện với nhãn .
{. ( )/ } (1.1) Trong đó ( ) {
Tiếp đó, có thể sử dụng bất kỳ thuật toán học máy nhị phân để xây dựng một bộ phân lớp nhị phân ví dụ ( ). Khi đó, với bất kỳ mẫu huấn luyện đa nhãn ( ), sẽ xem xét quá trình học của q bộ phân lớp nhị phân trên dữ liệu . Nếu nhãn tương ứng thì được coi là một dữ liệu dương, ngược lại được coi là một dữ liệu âm. Chiến thuật này là huấn luyện chéo (cross- training).
Với một dữ liệu cần phân lớp, BR sẽ dự đoán tập nhãn tương ứng bằng việc kết hợp các nhãn được xác định từ mỗi bộ phân lớp nhị phân.
{ ( ) } (1.2)
Mẫu Nhãn Mẫu Nhãn Mẫu Nhãn Mẫu Nhãn
1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
(a) (b) (c) (d)
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn
Tuy nhiên, khi tất cả các bộ phân lớp nhị phân cho đầu ra là âm, thì tập nhãn dự đoán Y sẽ bị rỗng. Để tránh việc dự đoán tập nhãn rỗng, luật T-Criterion có thể được áp dụng:
18
{ ( ) } ⋃* ( )+ (1.3) Trường hợp không bộ phân lớp nhị phân nào cho kết quả dương, T-Criterion sẽ bổ sung công thức (1.2) bằng việc đưa vào nhãn lớp với đầu ra tốt nhất (ít âm nhất). Bộ phân lớp đa nhãn được xác định theo công thức (1.3). Ngoài T-Criterion, một số quy tắc khác cũng có thể được sử dụng trong việc dự đoán tập nhãn dựa trên đầu ra của mỗi bộ phân lớp nhị phân.
Hình 1.7 mô tả đoạn giả mã minh họa cho thuật toán BR.
( ) 1. For j=1 to q do
2. Xây dựng tập huấn luyện nhị phân theo công thức (1.1) 3. Gán ( );
4. Endfor
5. Trả kết quả Y theo công thức (1.3) Hình 1.7 Thuật toán phân lớp BR [89]
Ưu điểm vượt trội của BR là cách tiếp cận trực tiếp để giải quyết vấn đề dữ liệu đa nhãn. Ngược lại, nhược điểm của BR là đã loại bỏ tất cả các mối quan hệ tiềm năng giữa các nhãn và bộ phân lớp nhị phân cho mỗi nhãn có thể rơi vào trạng thái mất cân bằng lớp khi lớn và mật độ nhãn thấp. Dựa theo đoạn chương trình giả mã, M.R Boutell và cộng sự [89] xác định được độ phức tạp tính toán cho giai đoạn huấn luyện là ( ( )) và cho giai đoạn kiểm tra là ( ( )).
b. Phương pháp chuỗi bộ phân lớp – Classifier Chain(CC)
Theo J.Read và cộng sự [64], ý tưởng của phương pháp này là chuyển bài toán học đa nhãn thành một chuỗi các phân lớp nhị phân, trong đó các bộ phân lớp nhị phân trong chuỗi được xây dựng dựa trên dự đoán của các bộ phân lớp trước đó.
Cho nhãn lớp { }, hàm * + * + là hàm hoán vị các nhãn theo một thứ tự xác định ( ) ( ) ( ). Với nhãn thứ trong danh sách, ( ) ( ), một tập huấn luyện nhị phân tương ứng được xây dựng bằng việc kết hợp mỗi dữ liệu với các dữ liệu liên quan đến các nhãn trước ( )
19
( ) {.[ ( )] ( ( ))/ } (1.4) Trong đó, ( ) . ( ( )) ( ( ))/
[ ( )] là vectơ kết hợp của vectơ và vectơ ( )
( ) là vectơ nhãn nhị phân cho các nhãn đứng trước ( ) trên dữ liệu Trường hợp đặc biệt ( ) . Tiếp đó, các thuật toán học nhị phân được sử dụng để đưa ra bộ phân lớp nhị phân ( ) * + , ví dụ ( ) ( ( )). Nói cách khác, ( ) xác định ( ) có là nhãn liên quan hay không.
Đối với một dữ liệu chưa biết, tập nhãn kết hợp của nó được dự đoán bằng cách đi qua chuỗi bộ phân lớp một số lần lặp. Ký hiệu ( ) * + là giá trị nhị phân dự đoán của ( ) trên dữ liệu x, được xác định như sau:
( ) [ ( )( )]
( ) [ ( )([ ( ) ( )])] ( ) (1.5) Trong đó, , - là hàm xác định giá trị nhị phân dự đoán của nhãn. Theo đó, tập nhãn dự đoán tương ứng là:
{ ( ) ( ) } (1.6) Rõ ràng là, hiệu quả của chuỗi bộ phân lớp được xây dựng như trên phụ thuộc nhiều vào hàm sắp xếp . Để giải thích cho ảnh hưởng của trật tự nhãn, một tập chuỗi bộ phân lớp (Ensemble of Classifier Chain) có thể được xây dựng với hoán vị ngẫu nhiên trên không gian nhãn, ví dụ ( ) ( ) ( ). Với mỗi hoán vị,
( ) ( ) một chuỗi bộ phân lớp áp dụng hàm ( ) không trực tiếp trên tập huấn luyện ban đầu mà lên một tập huấn luyện đã thay đổi ( ), trong đó ( ) được xác định bằng việc lấy mẫu không thay thế hoặc có thay thế [67].
Hình 1.8 mô tả đoạn giả mã thuật toán chuỗi bộ phân lớp (CC). Trong thuật toán này, mối quan hệ giữa các nhãn đã được xem xét theo một cách ngẫu nhiên. So với thuật toán BR, thuật toán chuỗi bộ phân lớp có ưu điểm là đã khai thác mối quan hệ giữa các nhãn nhưng nhược điểm là không thực thi song song được do đặc điểm của chuỗi. Luận án J. Read [67] chỉ ra rằng độ phức tạp tính toán của thuật
20
toán chuỗi bộ phân lớp cho pha huấn luyện là ( ( )) và pha kiểm tra là ( ( )).
( ) 1. For j=1 to q do
2. Xây dựng chuỗi tập huấn luyện nhị phân ( ) theo công thức (1.4)
3. Gán ( ) ( ( ));
4. Endfor
5. Trả kết quả Y theo công thức (1.6)
Hình 1.8 Thuật toán phân lớp CC [64]
c. Phương pháp xếp hạng nhãn theo kích cỡ - CalibratedLabelRanking (CLR) Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành bài toán xếp hạng nhãn trong đó việc xếp hạng các nhãn được thực thi bằng kỹ thuật so sánh cặp đôi.
Với q nhãn lớp { }, có tổng cộng ( ) bộ phân lớp nhị phân có thể được sinh ra bằng phương pháp so sánh cặp đôi, mỗi bộ phân lớp cho một cặp nhãn ( ) ( ). Cụ thể là, với mỗi cặp nhãn ( ), so sánh cặp đôi đầu tiên sẽ xây dựng một tập huấn luyện nhị phân tương ứng bằng việc xem xét mối quan hệ của mỗi mẫu huấn luyện với :
{. ( )/ | ( ) ( ) } (1.7) Trong đó
( ) { ( ) ( ) ( ) ( )
Đối với thể hiện chưa biết , thuật toán CLR đầu tiên sẽ xây dựng ( ) bộ phân lớp nhị phân được huấn luyện để đạt được tất cả các phiếu bầu cho mỗi nhãn lớp có thể.
( ) ∑ ⟦ ( ) ⟧
∑ ⟦ ( ) ⟧
( ) (1.8)
21
Dựa vào định nghĩa trên, ta có ∑ ( ) ( ) . Do đó, các nhãn trong không gian nhãn có thể được xếp hạng theo số phiếu bầu của nó.
( ) 1. for j=1 to q-1 do
2. for k=j+1 to q do
3. Xây dựng tập huấn luyện nhị phân theo công thức
{. ( )/ | ( ) ( ) } 4. Gán ( );
5. endfor 6. endfor
7. for j=1 to q do
8. Xây dựng tập huấn luyện nhị phân theo công thức
{. ( )/ } 9. Gán ( );
10. endfor
11. Trả kết quả Y theo công thức { ( ) ( ) }
Hình 1.9 Thuật toán phân lớp CLR [84]
Hình 1.9 trình bày đoạn giả mã của thuật toán CLR. Thuật toán này có độ phức tạp tính toán cho pha huấn luyện là ( ( )) và pha kiểm tra là ( ( )) [84]
d. Thuật toán tập k nhãn ngẫu nhiên – Random k Labelset (RakEL)
Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành một bộ các phân lớp đa lớp, trong đó mỗi máy học thành phần trong bộ tập trung vào một tập con ngẫu nhiên của không gian nhãn dựa trên bộ phân lớp đa lớp được tạo ra bằng kỹ thuật tập lũy thừa nhãn – LP [41], [43]. Chiến thuật chính là sử dụng thuật toán LP trên các tập k nhãn ngẫu nhiên (tập con kích thước k trên không gian nhãn để đảm báo hiệu quả tính toán), sau đó xây dựng bộ kết hợp các bộ phân lớp LP để đạt được tính hoàn thiện trong dự đoán.
Gọi là tập hợp tất cả các tập nhãn kích thước trong không gian nhãn ,
22
trong đó tập nhãn kích thước thứ được kí hiệu là ( ), ( ) ( ) ( ).
( ) 1. for r=1 to n do
2. Chọn ngẫu nhiên một tập k nhãn ( ) với ( ) 3. Xây dựng tập huấn luyện đa lớp
( ) theo công thức
( ) {( ( ). ( )/) } 4. Gán
( ) . ( )/;
5. endfor
6. Trả kết quả Y theo công thức { ( ) ( ) } Hình 1.10 Thuật toán phân lớp RakEL [43], [84]
Hình 1.10 trình bày đoạn giả mã của thuật toán Random k-Labelsets. Tiếp cận thể hiện mức độ liên quan của nhãn được kiểm soát bởi kích thước của tập nhãn k.
Thuật toán RakEL có độ phức tạp tính toán cho pha huấn luyện là ( ( )) và pha kiểm tra là ( ( )) được trình bày trong [43], [84].
1.2.1.2. Tiếp cận thích nghi thuật toán
a. Thuật toán k láng giềng gần nhất đa nhãn – Multi-Label k Nearest Neighbour (ML-kNN)
Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất để xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luật cực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa ra tập nhãn dự đoán.
Đoạn giả mã thuật toán ML-kNN được trình bày ở Hình 1.11. Thuật toán này có ưu điểm là thừa kế được những điểm mạnh của phương pháp học lười và suy diễn Bayesian đó là: Một là, biên quyết định có thể điều chỉnh một cách thích hợp dựa trên các láng giềng khác nhau được xác định cho mỗi dữ liệu chưa biết. Hai là, có thể xác định cân bằng lớp dựa trên các xác suất tiên nghiệm ước lượng cho mỗi nhãn lớp.
Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ) và pha kiểm thử là ( ) được trình bày trong [84].
23
( ) 1. for i=1 to m do
2. Xác định tập ( ) gồm k láng giềng gần nhất của x 3. endfor
4. for j=1 to q do
5. Xác định xác suất tiên nghiệm ( ) và ( ) theo công thức ( ) ∑ ⟦ ⟧
( ) ( ) ( ) 6. Tính mảng tần suất và ̃ theo công thức
, - ∑ ⟦ ⟧ ⟦ ( ) ⟧ ( )
7. endfor
8. Xác định tập ( ) gồm k láng giềng gần nhất của x 9. for j=1 to q do
Xác định lớp theo công thức
∑ ⟦ ⟧
( ) ( )
10. endfor
11. Trả kết quả Y theo công thức { ( ) ( ) } Hình 1.11 Thuật toán ML-kNN [84]
b. Thuật toán cây quyết định đa nhãn – Multi-Label Decision Tree(ML-DT)
Ý tưởng chính của phương pháp này là sử dụng thuật toán cây quyết định để giải quyết với dữ liệu đa nhãn, trong đó sử dụng độ lợi thông tin dựa trên entropy đa nhãn để xây dựng cây quyết định đệ quy.
Cho một tập dữ liệu đa nhãn *( ) + với là số mẫu, thông tin thu được bằng việc chia theo đặc trưng thứ tại giá trị chia như sau:
( ) ( ) ∑
* +
( ) (1.9) Trong đó,
*( ) +
*( ) + (1.10)