NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU

(1)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Văn Sang

NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2018

(2)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Văn Sang

NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU

Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS. TS. NGUYỄN HÀ NAM 2. PGS. TS. NGUYỄN HẢI CHÂU

(3)

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS.TS. Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu tại Bộ môn các Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội. Các số liệu và kết quả trình bày trong luận án là trung thực và chưa được công bố trong bất cứ các công trình nào khác trước đây.

Tác giả

Hà Văn Sang

(4)

LỜI CẢM ƠN

Luận án được thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của PGS.TS.

Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu.

Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu. Hai Thầy đã tận tụy chỉ dạy, giúp đỡ tôi từ định hướng nghiên cứu đến việc giải quyết những vấn đề khó khăn nhất trong quá trình nghiên cứu. Không chỉ về lĩnh vực nghiên cứu khoa học, các Thầy còn chỉ bảo cho tôi nhiều điều trong cuộc sống. Đó là những bài học vô cùng quý giá và hữu ích cho chính bản thân tôi trong thời gian tới.

Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các nhà khoa học trong khoa CNTT đã truyền đạt cho tôi những kiến thức quý báu và đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu.

Tôi xin gửi lời cảm ơn tới các Thầy, Cô giáo ở Bộ môn Tin học Tài chính kế toán, khoa Hệ thống Thông tin kinh tế, Học viện Tài chính, những người đồng nghiệp đã tạo điều kiện giúp đỡ tôi về mặt thời gian cũng như sắp xếp công việc trong quá trình tôi làm nghiên cứu sinh.

Tôi cũng gửi lời cảm ơn tất cả bạn bè, những người đã giúp đỡ và hỗ trợ tôi trong suốt quá trình nghiên cứu.

Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ tôi, anh chị em, đặc biệt là vợ của tôi, những người đã động viên, tạo mọi điều kiện thuận lợi để tôi có thể hoàn thành chương trình nghiên cứu sinh của mình.

Hà Văn Sang

Hà Nội, 1-12-2017

(5)

TÓM TẮT

Rút gọn đặc trưng ngày càng được sử dụng rộng rãi nhằm tăng hiệu năng cũng như giảm chi phí trong quá trình phân tích dữ liệu. Mục tiêu của việc rút gọn đặc trưng là xác định và giảm bớt đặc trưng của dữ liệu gốc dựa trên việc biến đổi không gian đặc trưng hoặc lựa chọn những đặc trưng quan trọng, loại bỏ các đặc trưng không liên quan, dư thừa nhằm giảm kích thước dữ liệu, từ đó cải thiện hiệu quả, độ chính xác của các mô hình phân tích dữ liệu. Các kỹ thuật rút gọn đặc trưng đã được áp dụng rộng rãi trong nhiều ứng dụng khác nhau như: cho điểm tín dụng, phân tích dữ liệu ung thư, tìm kiếm thông tin, phân lớp văn bản. Tuy nhiên, không tồn tại một kỹ thuật rút gọn đặc trưng mà hiệu quả trên mọi miền dữ liệu. Trong luận án này, chúng tôi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ thuật rút gọn đặc trưng nhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có theo hai hướng tiếp cận là lựa chọn đặc trưng và trích xuất đặc trưng.

Có nhiều cách tiếp cận rút gọn đặc trưng khác nhau đã được giới thiệu, tuy nhiên các cách tiếp cận này vẫn tồn tại một số hạn chế khi áp dụng với các miền dữ liệu khác nhau. Chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng có tên FRFE (Fast Recursive Feature Elimination) dựa trên hướng tiếp cận đóng gói (wrapper) với lõi là một thủ tục loại bỏ đặc trưng đệ quy. Để tăng hiệu quả của việc lựa chọn đặc trưng, chúng tôi đã đề xuất một hàm đánh giá (ranking) đặc trưng và thủ tục lựa chọn đặc trưng tương ứng. Hơn nữa, do đặc điểm của phương pháp lựa chọn đặc trưng đóng gói là chi phí tính toán cao, vì vậy chúng tôi đã áp dụng các thư viện xử lý phân tán để cải thiện hiệu năng của thuật toán đề xuất. Kết quả thực nghiệm thuật toán FRFE (được viết bằng ngôn ngữ R) trên hai bộ dữ liệu tín dụng Đức và Úc cho thấy thuật toán đề xuất đã cải thiện được thời gian chạy so với thuật toán cơ sở và đạt kết quả khả quan so với các kỹ thuật hiện có.

Theo hướng tiếp cận trích xuất đặc trưng, chúng tôi đã đề xuất phương pháp trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA. Đóng góp chính của phương pháp đề xuất

(6)

là xây dựng một hàm nhân mới dựa trên việc kết hợp có định hướng một số hàm nhân cơ bản [67]. Kết quả thực nghiệm thuật toán C-KPCA trên bốn bộ dữ liệu ung thư cho thấy thuật toán đề xuất cho kết quả ổn định và tốt hơn so với các phương pháp khác trong nhiều trường hợp.

Từ khóa: khai phá dữ liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng, rút gọn đặc trưng, KPCA

(7)

MỤC LỤC

LỜI CAM ĐOAN ... I LỜI CẢM ƠN ... II TÓM TẮT ... III MỤC LỤC ... V DANH MỤC TỪ VIẾT TẮT ... VII DANH MỤC HÌNH ẢNH ... IX DANH MỤC BẢNG BIỂU ... XI

MỞ ĐẦU ... 1

Tính cấp thiết của luận án ... 1

Mục tiêu của luận án ... 3

Đối tượng và phạm vi nghiên cứu ... 4

Phương pháp nghiên cứu ... 4

Đóng góp của luận án ... 4

Bố cục của luận án ... 5

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG ... 7

1.1 Rút gọn đặc trưng ... 7

1.2 Lựa chọn đặc trưng... 7

1.2.1 Mục tiêu của lựa chọn đặc trưng ... 8

1.2.2 Phân loại các kỹ thuật lựa chọn đặc trưng ... 8

1.2.3 Các thành phần chính của lựa chọn đặc trưng ... 9

1.2.4 Thủ tục lựa chọn đặc trưng ... 12

1.2.5 Các mô hình lựa chọn đặc trưng ... 13

1.3 Trích xuất đặc trưng ... 16

1.3.1 Mục tiêu của trích xuất đặc trưng ... 17

1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng ... 17

1.4 Một số nghiên cứu về rút gọn đặc trưng ... 19

1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng ... 19

1.4.2 Hướng nghiên cứu về trích xuất đặc trưng ... 27

1.4.3 Phân tích và đánh giá ... 30

(8)

1.5 Kết luận chương ... 31

CHƯƠNG 2. KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO ĐIỂM TÍN DỤNG ... 32

2.1 Bài toán cho điểm tín dụng ... 32

2.2 Các nghiên cứu liên quan ... 35

2.3 Phương pháp đề xuất ... 37

2.3.1 Sơ đồ hệ thống lựa chọn đặc trưng ... 37

2.3.2 Đề xuất hàm đánh giá và chiến lược tìm kiếm đặc trưng phù hợp ... 38

2.3.3 Cải tiến tốc độ xử lý bằng thư viện H20 ... 45

2.4 Thực nghiệm và kết quả ... 48

2.4.1 Thiết lập thực nghiệm ... 48

2.4.2 Dữ liệu thực nghiệm ... 49

2.4.3 Đánh giá hiệu năng phân lớp... 49

2.4.4 Kết quả thực nghiệm ... 53

CHƯƠNG 3. KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TOÁN PHÂN TÍCH DỮ LIỆU UNG THƯ ... 67

3.1 Bài toán phân tích dữ liệu ung thư ... 67

3.2 Các nghiên cứu liên quan ... 69

3.3 Phương pháp giải quyết ... 71

3.3.1 Sơ đồ hệ thống trích xuất đặc trưng ... 71

3.3.2 Hàm nhân tùy chọn cho PCA ... 73

3.3.3 Xây dựng hàm nhân tùy chọn ... 77

3.4 Thực nghiệm và kết quả ... 82

3.4.1 Thiết lập thực nghiệm ... 82

3.4.2 Dữ liệu thực nghiệm ... 82

3.4.3 Kết quả thực nghiệm ... 84

KẾT LUẬN ... 97

DANH MỤC CÔNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN ... 99

TÀI LIỆU THAM KHẢO ... 100

(9)

DANH MỤC TỪ VIẾT TẮT

Từ viết tắt Từ gốc Giải nghĩa

ACO Ant Colony Optimization Tối ưu đàn kiến

AUC Area under curve Diện tích dưới đường cong BG Bidirectional Generation Sinh tập con từ hai hướng CFS Correlation-based Feature

Selection

Lựa chọn đặc trưng dựa trên tương quan

DL Deep Learning Học sâu

DT Decision Tree Cây quyết định

FCFS Fast Correlation-based Feature Selection

Lựa chọn đặc trưng dựa trên tương quan nhanh

FRFE Fast Recursive Feature Elimination Loại bỏ đặc trưng đệ quy nhanh

GA Genetic Algorithm Thuật toán di truyền

ICA Independent component analysis Phân tích thành phần độc lập

IG Information Gain Độ lợi thông tin

KDD Knowledge Discovery in Databases

Khám phá tri thức k-NN k-Nearest Neighbors k-láng giềng gần nhất

LDA Linear discriminant analysis Phân tích biệt thức tuyến tính LR Logistic Regression Hồi qui logistic

MLP Multi-layer Perceptron Perceptron nhiều tầng mRMR minimum Redundancy Maximum

Relevance

Phù hợp nhiều nhất-dư thừa ít nhất

OLTP Online transaction processing Xử lý giao dịch trực tuyến PCA Principal Component Analysis Phân tích thành phần chính PSO Particle Swarm Optimization Tối ưu hóa bầy đàn

RF Random Forest Rừng ngẫu nhiên

RG Random Generation Sinh tập con ngẫu nhiên

SA Simulated Annealing Thuật toán mô phỏng tôi luyện SBE Sequential Backward Elimination Loại bỏ lùi tuần tự

SBG Sequential Backward Generation Sinh tập con lùi tuần tự SBS Sequential Sackward Search Tìm kiếm lùi tuần tự SFG Sequential Forward Generation Sinh tập con tiến tuần tự

(10)

SFS Sequential forward search Tìm kiếm tiến tuần tự SVD Singular Value Decomposition Phân tích giá trị riêng SVM Support Vector Machine Máy véc tơ hỗ trợ

(11)

DANH MỤC HÌNH ẢNH

Hình 1.1 Lựa chọn đặc trưng. ... 7

Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59] ... 9

Hình 1.3 Thủ tục lựa chọn đặc trưng[86] ... 12

Hình 1.4 Mô hình chọn lựa đặc trưng Lọc ... 13

Hình 1.5 Mô hình chọn lựa đặc trưng đóng gói ... 14

Hình 1.6 Trích xuất đặc trưng. ... 16

Hình 2.1 Quy trình lựa chọn đặc trưng của bài toán cho điểm tín dụng ... 37

Hình 2.2 Sơ đồ khối của thuật toán lựa chọn đặc trưng theo hướng tiến ... 39

Hình 2.3 Sơ đồ khối của lựa chọn đặc trưng theo hướng lui ... 41

Hình 2.4 Chiến lược lựa chọn đặc trưng FRFE ... 44

Hình 2.5 Kiến trúc của thư viện H20 ... 46

Hình 2.6 Phân lớp Random forest ... 47

Hình 2.7 Ví dụ về đường cong AUC [27] ... 51

Hình 2.8 Kiểm chứng chéo 5 lần ... 52

Hình 2.9 Danh sách các đặc trưng được sắp xếp theo độ lợi thông tin (IG) giảm dần ... 53

Hình 2.10 Danh sách các đặc trưng được sắp xếp theo độ đo Relief-F giảm dần ... 54

Hình 2.11 Danh sách các đặc trưng được sắp xếp theo độ tương quan giảm dần ... 55

Hình 2.12 So sánh kết quả dự đoán sử dụng 5, 10, 15, 20 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu của Đức ... 56

Hình 2.13 Độ chính xác phân lớp với bộ dữ liệu Đức ... 56

Hình 2.14 Độ chính xác phân lớp trên bộ dữ liệu Đức theo hướng quay lui ... 58

Hình 2.15 So sánh kết quả sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Đức ... 58 Hình 2.16 Xếp hạng đặc trưng theo độ lợi thông tin (IG) trên bộ dữ liệu tín dụng của Úc . 60

(12)

Hình 2.17 Xếp hạng đặc trưng theo độ đo Relief-F trên bộ dữ liệu tín dụng của Úc ... 61

Hình 2.18 Xếp hạng đặc trưng theo độ tương quan trên bộ dữ liệu tín dụng của Úc ... 62

Hình 2.19 So sánh kết quả dự đoán sử dụng 5, 7, 10 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu tín dụng của Úc... 63

Hình 2.20 Độ chính xác phân lớp với bộ dữ liệu Úc ... 63

Hình 2.21 Độ chính xác dự đoán trên bộ dữ liệu tín dụng Úc ... 65

Hình 2.22 Độ chính xác dự đoán sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Úc ... 65

Hình 3.1 Phân tích dữ liệu ung thư ... 68

Hình 3.2 Quy trình trích xuất đặc trưng cho bài toán phân tích dữ liệu ung thư ... 71

Hình 3.3 Chuyển dữ liệu sang không gian có chiều lớn hơn[21] ... 74

Hình 3.4 Độ chính xác phân lớp với bộ dữ liệu ung thư ruột kết ... 85

Hình 3.5 Độ chính xác phân lớp với bộ dữ liệu ung thư bạch cầu ... 87

Hình 3.6 Độ chính xác phân lớp với bộ dữ liệu lymphoma ... 89

Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thư tuyến tiền liệt ... 91

Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thư... 93

(13)

DANH MỤC BẢNG BIỂU

Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59] ... 11

Bảng 1.2 Ưu nhược điểm của mô hình Lọc[8] ... 14

Bảng 1.3 Ưu nhược điểm của mô hình Đóng gói [8] ... 15

Bảng 1.4 So sánh ba mô hình[33] ... 16

Bảng 2.1 Ý nghĩa của diện tích dưới đường cong AUC ... 51

Bảng 2.2 So sánh hiệu năng của các bộ phân lớp [55] trên bộ dữ liệu tín dụng của Đức ... 57

Bảng 2.3. Hiệu năng của các bộ phân lớp khác nhau [55] với bộ dữ liệu tín dụng Đức ... 59

Bảng 2.4 So sánh hiệu năng của các bộ phân lớp trên bộ dữ liệu tín dụng của Úc ... 64

Bảng 2.5 Hiệu năng của các bộ phân lớp khác nhau trên bộ dữ liệu tín dụng của Úc ... 66

Bảng 3.1 Cấu trúc bảng dữ liệu ung thư ruột kết ... 72

Bảng 3.2 Các hàm nhân được sử dụng ... 82

Bảng 3.3 Tổng hợp các bộ dữ liệu ung thư được sử dụng trong thực nghiệm ... 83

Bảng 3.4 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư ruột kết ... 84

Bảng 3.5 So sánh hàm nhân mới với hàm nhân cơ sở trên dữ liệu ung thư ruột kết ... 85

Bảng 3.6 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư ruột kết ... 86

Bảng 3.7 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư bạch cầu ... 86

Bảng 3.8 So sánh với hàm nhân cơ sở trên bộ dữ liệu ung thư bạch cầu ... 87

Bảng 3.9 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư bạch cầu ... 88

Bảng 3.10 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư máu trắng ... 88

Bảng 3.11 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu máu trắng ... 89

Bảng 3.12 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu lymphoma ... 90

Bảng 3.13 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư tuyến tiền liệt ... 90

(14)

Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thư tiền liệt tuyến ... 91 Bảng 3.15 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư tuyến tiền liệt ... 92 Bảng 3.16 So sánh phương pháp đề xuất(C-KPCA) với các phương pháp lựa chọn đặc

trưng khác ... 94 Bảng 3.17 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Colon và

Prostate ... 95 Bảng 3.18 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Lymphoma và

Prostate ... 95

(15)

MỞ ĐẦU

Tính cấp thiết của luận án

Trong những năm gần đây, dữ liệu trong thực tế đã gia tăng một cách nhanh chóng cả về dung lượng lẫn về chủng loại. Dữ liệu với số chiều lớn đã trở thành thách thức đối với các kỹ thuật xử lý, phân tích dữ liệu hiện có. Học máy (machine learning) và khai phá dữ liệu (data mining) cung cấp các công cụ giúp con người giải quyết vấn đề quản lý, bóc tách thông tin và tri thức bằng cách tự động phân tích một lượng lớn dữ liệu. Tuy nhiên, các kỹ thuật phân tích dữ liệu như phân lớp, dự báo có thể dẫn đến kết quả thấp hoặc không chính xác do không phải lúc nào dữ liệu cũng được xử lý đầy đủ, vẫn có nhiều dữ liệu dư thừa, không liên quan, hay nhiễu. Ngoài ra, các thuật toán phân lớp chạy mất nhiều thời gian, thậm chí có thể không thể thực hiện được nếu dữ liệu chưa được tiền xử lý một cách thích hợp.

Rút gọn đặc trưng là kỹ thuật giải quyết vấn đề thu gọn chiều dữ liệu nhằm giải quyết các vấn đề nêu trên. Rút gọn đặc trưng được phân loại thành “lựa chọn đặc trưng” và “trích xuất đặc trưng”. Trong đó, lựa chọn đặc trưng có thể chọn ra một nhóm con các đặc trưng phù hợp, liên quan từ tập dữ liệu gốc bằng cách loại bỏ các đặc trưng nhiễu, dư thừa không liên quan trong khi đó trích xuất đặc trưng sẽ trích rút ra các đặc trưng mới bằng một phép chuyển đổi. Rút gọn đặc trưng tạo điều kiện cho các kỹ thuật phân tích xử lý dữ liệu cải tiến hiệu năng theo nghĩa nâng cao hiệu suất mà vẫn giữ nguyên hoặc nâng cao được hiệu quả.

Nhiều kỹ thuật rút gọn đặc trưng đã được cộng đồng nghiên cứu trên thế giới công bố [9][12][69][99]. Theo thống kê từ năm 2010 tới năm 2017 trên cơ sở dữ liệu của Google scholar (https://scholar.google.com) thì có tới 88.500 tài liệu liên quan tới chủ đề lựa chọn đặc trưng (tìm kiếm từ khóa “Feature Selection”), và có tới 159.000 tài liệu liên quan tới chủ đề trích xuất đặc trưng (tìm kiếm từ khóa “Feature Extraction”). Cũng trong khoảng thời gian từ 2010-2017 trên cơ sở dữ liệu của trang

(16)

Sciencedirect¹ thì chủ đề lựa chọn đặc trưng có trên 11.880 bài báo khoa học, trong khi chủ đề trích chọn đặc trưng có hơn 32.980 bài báo liên quan.

Trong những năm gần đây, nhiều nghiên cứu đã tập trung vào cải tiến hiệu năng của kỹ thuật rút gọn đặc trưng bằng cách lựa chọn tập con đặc trưng có ích, hoặc trích xuất đặc trưng. Điển hình như luận án của Hall [34] đề xuất phương pháp lựa chọn đặc trưng dựa trên tương quan cho học máy; Diao và cộng sự [23] sử dụng tìm kiếm hài hòa (Harmony Search) cho việc xây dựng phương pháp lựa chọn đặc trưng.

Osiris Villacampa [91] nghiên cứu phương pháp lựa chọn đặc trưng và phân lớp cho việc ra quyết định của công ty; Nziga [69] sử dụng phương pháp trích xuất đặc trưng PCA thưa cho dòng dữ liệu. Verónica Bolón-Canedo cùng cộng sự [90] giới thiệu về dữ liệu có số thuộc tính lớn và các phương pháp lựa chọn đặc trưng cho dữ liệu tin sinh. Basant Agarwal và Namita Mittal [5] nghiên cứu trích xuất đặc trưng nổi bật trong việc phân tích quan điểm. Urszula và Lakhmi [83] giới thiệu xu hướng nghiên cứu về lựa chọn đặc trưng trong nhận dạng mẫu. Liang cùng cộng sự [56] nghiên cứu về rút gọn đặc trưng cho bài toán học đa nhãn. Florian Eyben [26] trích xuất không gian đặc trưng nhằm phân lớp dữ liệu âm thanh trực tuyến. Mark Nixon [68] sử dụng các kỹ thuật trích xuất đặc trưng trong việc xử lý ảnh. Tuy nhiên, các phương pháp rút gọn đặc trưng khác nhau sẽ cho kết quả khác nhau với từng miền ứng dụng tương ứng.

Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và công bố nhiều công trình khoa học liên quan tới học máy và khai phá dữ liệu. Tuy nhiên, hướng nghiên cứu về rút gọn đặc trưng chưa được quan tâm nhiều. Cụ thể, việc tìm kiếm từ khóa “lựa chọn

(17)

đặc trưng”, “lựa chọn thuộc tính”, hay “trích chọn đặc trưng” trên Google Scholar² cho kết quả chỉ khoảng vài chục tài liệu. Tài liệu liên quan tới lựa chọn đặc trưng, trích xuất đặc trưng là kết quả nghiên cứu của một số trường đại học. Chẳng hạn gần đây có một số luận án liên quan tới chủ đề rút gọn thuộc tính như: trong năm 2015, Hà Đại Dương [2] nghiên cứu một số phương pháp trích chọn đặc trưng nhằm phát hiện đám cháy qua dữ liệu ảnh; Vũ Văn Định [1] thực hiện việc rút gọn thuộc tính trong bảng quyết định không đầy đủ theo hướng tiếp cận tập thô; Nguyễn Thị Lan Hương [3] nghiên cứu và rút gọn thuộc tính trong bảng quyết định động theo hướng tiếp cận tập thô. Các luận án này đã đề xuất việc áp dụng một kỹ thuật lựa chọn hoặc trích xuất đặc trưng vào bài toán của mình, tập trung chủ yếu tới bài toán xử lí ảnh.

Như vậy, có thể nhận thấy rằng rút gọn đặc trưng hiện vẫn là chủ đề để các nhà nghiên cứu trong và ngoài nước tiếp tục nghiên cứu và phát triển.

Mục tiêu của luận án

Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật rút gọn đặc trưng tiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng.

Hướng tiếp cận lựa chọn đặc trưng xác định một tập con đặc trưng tốt nhất có thể từ tập đặc trưng ban đầu mà không làm giảm kết quả phân lớp. Để giải quyết mục tiêu này, luận án tập trung giải quyết một số vấn đề sau:

- Xây dựng một hàm đánh giá đặc trưng phù hợp với dữ liệu cần phân tích.

- Áp dụng chiến lược tìm kiếm theo kinh nghiệm nhằm làm giảm không gian tìm kiếm.

2 https://scholar.google.com.vn/

(18)

Hướng tiếp cận trích xuất đặc trưng xác định một phép biến đổi đặc trưng hiệu quả để thu được tập đặc trưng mới phù hợp với bộ phân lớp tương ứng. Để giải quyết mục tiêu này, luận án tập trung giải quyết một số vấn đề sau:

- Tìm hiểu kỹ thuật hàm nhân trong việc biến đổi không gian đặc trưng.

- Xây dựng hàm nhân mới phù hợp với dữ liệu cần phân tích.

Với mục tiêu cải tiến hiệu năng của các kỹ thuật phân tích dữ liệu, chúng tôi đã lựa chọn đề tài của luận án với tiêu đề: "Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu”.

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận án là kỹ thuật rút gọn đặc trưng cho bài toán phân lớp, theo hai hướng tiếp cận lựa chọn đặc trưng và trích xuất đặc trưng.

Phạm vi áp dụng các kỹ thuật rút gọn đặc trưng vào các miền ứng dụng là tương đối rộng. Trong luận án này, chúng tôi giới hạn phạm vi với hai miền ứng dụng là bài toán cho điểm tín dụng và phân tích dữ liệu ung thư.

Phương pháp nghiên cứu

Luận án sử dụng các phương pháp phân tích, tổng hợp lý thuyết, phương pháp mô hình hóa và phương pháp nghiên cứu thực nghiệm. Trong đó, lý thuyết cơ sở được phân tích và phương pháp đề xuất được mô hình hóa. Cuối cùng phương pháp nghiên cứu thực nghiệm được dùng để đánh giá, kiểm chứng kết quả của phương pháp đề xuất.

Đóng góp của luận án

Luận án đề xuất phương pháp rút gọn đặc trưng nhằm tăng hiệu năng của các kỹ thuật phân lớp theo hai hướng tiếp cận chính là lựa chọn đặc trưng và trích xuất đặc trưng:

Lựa chọn đặc trưng: chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng (FRFE) dựa trên hướng tiếp cận đóng gói. Nội dung chính của phương pháp đề xuất là việc loại bỏ đặc trưng đệ quy và việc cải tiến hàm đánh giá đặc trưng. Hàm đánh giá đặc

(19)

được ổn định hơn. Phương pháp đề xuất giúp tự động tìm ra tập con đặc trưng tối ưu cho mỗi bộ dữ liệu. Một vấn đề khác mà các phương pháp lựa chọn đặc trưng phải đối mặt đó là các phương pháp lựa chọn đặc trưng đóng gói (wrapper) có chi phí tính toán lớn. Để giải quyết vấn đề này chúng tôi sử dụng bộ phân lớp rừng ngẫu nhiên (random forest) với khả năng xử lý song song nhằm làm giảm thời gian thực hiện của phương pháp đề xuất. Thực nghiệm trên bộ dữ liệu tín dụng cho thấy phương pháp lựa chọn đặc trưng đề xuất này có khả năng đạt được mục tiêu mà luận án đặt ra. Những đóng góp dựa trên hướng tiếp cận lựa chọn đặc trưng cho bài toán cho điểm tín dụng được báo cáo trong các công bố [SANGHV1, SANGHV2, SANGHV3, SANGHV5].

Trích xuất đặc trưng: Ngoài cách tiếp cận lựa chọn đặc trưng, một hướng tiếp cận khác là trích xuất đặc trưng đã và đang được nhiều nhóm nghiên cứu quan tâm phát triển khi các kỹ thuật lựa chọn đặc trưng trở nên ít hiệu quả. Chúng tôi đã đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề xuất của chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ bản[40]. Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánh kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác. Thực nghiệm cho thấy C- KPCA cho kết quả ổn định và tốt hơn so với các phương pháp khác trong nhiều trường hợp. Hướng tiếp cận trích xuất đặc trưng cho bài toán phân tích dữ liệu ung thư được công bố trong [SANGHV4].

Các kết quả nghiên cứu trình bày trong luận án được công bố trong 05 công trình. Trong đó có 02 bài báo đăng ở tạp chí nước ngoài [SANGHV1, SANGHV2];

03 bài báo hội thảo quốc tế được công bố có chỉ số Scopus, trong đó 02 bài báo được Springer xuất bản và đưa vào danh mục LNCS.

Bố cục của luận án

Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính của luận án này được chia thành 03 chương, cụ thể như sau:

(20)

Chương 1: Phần đầu giới thiệu về lý thuyết cơ bản liên quan tới rút gọn đặc trưng, lựa chọn đặc trưng và trích xuất đặc trưng, đồng thời điểm lại một số nghiên cứu gần đây. Sau phần phân tích, đánh giá là kết luận của chương.

Chương 2: Đề xuất một hàm đánh giá đặc trưng và áp dụng chiến lược tìm kiếm theo kinh nghiệm dựa trên hàm đánh giá này nhằm nâng hiệu quả của việc lựa chọn đặc trưng. Sau khi trình bày về quy trình, giải pháp đề xuất, luận án áp dụng phương pháp đề xuất cho bộ dữ liệu tín dụng. Phần còn lại của chương thực hiện thực nghiệm trên các bộ dữ liệu tín dụng và so sánh kết quả với một số phương pháp lựa chọn đặc trưng khác.

Chương 3: Đề xuất một phương pháp trích xuất đặc trưng dựa trên việc xây dựng một hàm nhân mới trên cơ sở kết hợp một số hàm nhân cơ bản nhằm biến đổi không gian đặc trưng phù hợp với miền dữ liệu. Sau khi trình bày về quy trình, phương pháp đề xuất, phương pháp đề xuất được tiến hành trên bốn bộ dữ liệu ung thư. Việc thực nghiệm và so sánh với một số kỹ thuật khác được thực hiện ở phần còn lại của chương.

(21)

Chương 1. TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG

Hầu hết các lĩnh vực khoa học và công nghệ ngày nay đều đòi hỏi phân tích dữ liệu nhằm bóc tách các tri thức hữu ích giúp cải tiến hay nâng cao hiệu quả của các lĩnh vực này. Dữ liệu quan sát và thu thập được từ những ứng dụng trong thực tế thường chứa nhiều thông tin nhiễu, dư thừa, đặc biệt với tập dữ liệu có số lượng thuộc tính lớn có thể dẫn tới việc tốn kém tài nguyên khi áp dụng kỹ thuật phân tích dữ liệu, và nhiều trường hợp không thể thực hiện được. Xuất phát từ nhu cầu thực tiễn đó, các kỹ thuật rút gọn đặc trưng được nghiên cứu và phát triển để giải quyết những vấn đề trên. Nội dung chương này nhằm giới thiệu tổng quan về vấn đề rút gọn đặc trưng và điểm lại một số hướng nghiên cứu về rút gọn đặc trưng tiêu biểu hiện nay. Phần cuối của chương sẽ đưa ra một số phân tích, đánh giá một số kỹ thuật rút gọn đặc trưng thường được áp dụng hiện nay.

1.1 Rút gọn đặc trưng

Rút gọn đặc trưng được hiểu là quá trình thu gọn hoặc biến đổi không gian biểu diễn dữ liệu ban đầu thành một không gian con hoặc một không gian mới có số đặc trưng nhỏ hơn không gian ban đầu mà vẫn giữ được các đặc tính của dữ liệu gốc.

Trong nhiều trường hợp, tập dữ liệu ban đầu có chứa nhiều đặc trưng không liên quan cho sự mô tả bản chất của hiện tượng mà ta quan tâm, khi đó có thể loại bỏ các đặc trưng không liên quan này và chỉ giữ lại các đặc trưng quan trọng. Có hai phương pháp để rút gọn đặc trưng gồm lựa chọn đặc trưng và trích xuất đặc trưng.

1.2 Lựa chọn đặc trưng

- Lựa chọn đặc trưng (Feature Selection): chọn lựa một tập con các đặc trưng từ các đặc trưng ban đầu mà không có sự thay đổi về giá trị của đặc trưng.

[ x₁ x₂

⋮ x_N

]𝑙ự𝑎 𝑐ℎọ𝑛 đặ𝑐 𝑡𝑟ư𝑛𝑔

→ [ x_𝑖₁ x_𝑖₂

⋮ x_𝑖_M

] (𝑀 < 𝑁)

Hình 1.1 Lựa chọn đặc trưng.

(22)

Lựa chọn đặc trưng là một trong những phương pháp hết sức tự nhiên để giải quyết vấn đề loại bỏ các đặc trưng dư thừa, trùng lặp và không liên quan trong dữ liệu. Kết quả của lựa chọn đặc trưng là một tập con các đặc trưng từ tập đặc trưng ban đầu nhưng vẫn đảm bảo các tính chất của dữ liệu gốc. Lựa chọn đặc trưng giúp: (1) cải tiến hiệu năng (về tốc độ, khả năng dự đoán, và đơn giản hóa mô hình); (2) trực quan hóa dữ liệu cho việc lựa chọn mô hình; (3) giảm chiều và loại bỏ nhiễu.

1.2.1 Mục tiêu của lựa chọn đặc trưng

Mục tiêu chính của lựa chọn đặc trưng là xác định các đặc trưng quan trọng và loại bỏ các đặc trưng không liên quan hoặc không phù hợp. Các thuật toán lựa chọn đặc trưng khác nhau sẽ có thể có các mục tiêu khác nhau. Một số mục tiêu thường được sử dụng:

- Tìm ra tập con các đặc trưng có kích cỡ nhỏ nhất có thể, mà nó là cần và đủ cho việc phân tích dữ liệu (cụ thể ở đây là phân lớp)

- Chọn một tập con có M đặc trưng từ một tập gồm N đặc trưng ban đầu (M<N), trong đó giá trị của hàm mục tiêu được tối ưu trên tập con kích cỡ M.

- Chọn một tập con các đặc trưng nhằm cải tiến độ chính xác dự đoán hoặc làm giảm kích cỡ của tập dữ liệu mà không làm giảm độ chính xác dự đoán của bộ phân lớp.

1.2.2 Phân loại các kỹ thuật lựa chọn đặc trưng

Dựa vào tính sẵn có của thông tin nhãn lớp (label), kỹ thuật lựa chọn đặc trưng có thể được chia thành ba loại: phương pháp có giám sát, bán giám sát, và không giám sát. Thông tin nhãn có sẵn của lớp giúp cho các thuật toán lựa chọn đặc trưng có giám sát lựa chọn được các đặc trưng phù hợp. Khi chỉ có một số ít dữ liệu đã được gán nhãn, có thể sử dụng lựa chọn đặc trưng bán giám sát, trong đó có thể tận dụng được lợi thế của cả dữ liệu được gán nhãn và dữ liệu không được gán nhãn. Hầu hết các thuật toán lựa chọn đặc trưng bán giám sát đều dựa trên việc xây dựng ma trận tương tự và lựa chọn các đặc trưng phù hợp nhất với ma trận tương tự đó.

(23)

1.2.3 Các thành phần chính của lựa chọn đặc trưng

Liu và Motoda [59] chỉ ra ba thành phần chính của lựa chọn đặc trưng là: (1) Chiến lược tìm kiếm tập con, (2) Hướng tìm kiếm hay nguyên tắc lựa chọn, bổ sung, loại bỏ hoặc thay đổi đặc trưng trong quá trình tìm kiếm, và (3) Tiêu chí đánh giá các tập con khác nhau. Hình 1.2 dưới đây thể hiện lựa chọn đặc trưng theo 3 thành phần nói trên.

Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59]

(1) Chiến lược tìm kiếm

Do số tập con là 2^N nên không gian tìm kiếm sẽ tăng theo hàm mũ khi N tăng lên. Không gian tìm kiếm sẽ là tương đối nhỏ khi số lượng đặc trưng N là nhỏ. Khi không gian tìm kiếm lớn thì chiến lược tìm kiếm được sử dụng sẽ ảnh hưởng lớn tới hiệu năng của nó. Kết quả tìm kiếm phụ thuộc vào việc lựa chọn chiến lược tìm kiếm.

Mục tiêu là tìm được một tập con các đặc trưng tối ưu trong thời gian ít nhất có thể theo các tiêu chí cho trước. Các chiến lược tìm kiếm có thể được chia thành 3 nhóm dưới đây.

Tìm kiếm toàn bộ (chiến lược vét cạn): trong chiến lược này, tất cả các khả năng có thể của các tập con sẽ được kiểm tra. Kết quả cuối cùng một tập con tốt nhất

Cơ bản Nhất quán Chính xác

Tiêu chí đánh giá

Toàn bộ Kinh nghiệm Không xác định

Chiến lược tìm kiếm Tiến

Lùi Ngẫu nhiên Hướng tìm kiếm

(24)

theo tiêu chí tìm kiếm. Độ phức tạp không gian của chiến lược này trong trường hợp tổng quát nhất là 𝛰(2^𝑁). Khi biết trước được hướng tìm kiếm, thì không gian tìm kiếm sẽ là (^𝑁₀) + (^𝑁₁) + ⋯ + (_𝑀^𝑁) Trong đó, M là số lượng đặc trưng tối thiểu của một tập con thỏa mãn một số tiêu chí đánh giá nào đó.

Tìm kiếm theo kinh nghiệm: là quá trình tìm kiếm sử dụng hàm đánh giá để hướng dẫn sự tìm kiếm. Mục tiêu của hàm đánh giá nhằm xác định theo kinh nghiệm định hướng để tìm được tập con tối ưu. Chiến lược tìm kiếm theo kinh nghiệm chỉ thực hiện theo một lộ trình cụ thể và tìm ra một tập con gần tối ưu nên nó cho kết quả nhanh hơn so với chiến lược tìm kiếm vét cạn.

Tìm kiếm không xác định: chiến lược này khác với hai chiến lược kể trên ở chỗ nó tìm kiếm tập con kế tiếp một cách ngẫu nhiên. Chiến lược này thường được áp dụng trong không gian tìm kiếm khá lớn và tồn tại nhiều giá trị tối ưu cục bộ. Ưu điểm chính là của chiến lược này là tránh được các tối ưu cục bộ và tương đối dễ cài đặt.

(2)Hướng tìm kiếm

Việc tìm kiếm tập con các đặc trưng tối ưu trong không gian tìm kiếm có thể bắt đầu từ một tập rỗng sau đó lần lượt thêm từng đặc trưng hoặc bắt đầu từ một tập đủ các đặc trưng rồi loại bỏ từng đặc trưng. Với việc tìm kiếm như vậy thì thời gian trung bình để tìm ra tập con tối ưu giữa các hướng tìm kiếm khác nhau không có sự khác biệt. Việc tạo ra tập con các đặc trưng có mối liên hệ chặt chẽ với hướng tìm kiếm.

Tìm kiếm tiến tuần tự (Sequential Forward Generation-SFG): Bắt đầu từ một tập rỗng các đặc trưng Sselect Tại mỗi bước tìm kiếm, dựa trên một số tiêu chí nhất định, một đặc trưng được thêm vào tập Sselect. Quá trình tìm kiếm này sẽ dừng lại khi tất cả các đặc trưng trong tập đặc trưng ban đầu được thêm vào Sselect . Kết quả là một danh sách xếp hạng các đặc trưng được tạo ra theo thứ tự được thêm vào Sselect.

Tìm kiếm lùi tuần tự (Sequential Backward Generation-SBG): Bắt đầu với một tập đủ các đặc trưng. Tại mỗi bước tìm kiếm dựa vào một số tiêu chí nào đó, một

(25)

loại bỏ cho tới khi trong tập đặc trưng chỉ còn lại một đặc trưng. Kết quả là một danh sách xếp hạng các đặc trưng theo thứ tự bị loại được tạo ra.

SBG và SFG là hai phương pháp bổ sung cho nhau vì đôi khi tìm ra đặc trưng quan trọng nhất là dễ dàng hơn so với tìm ra đặc trưng ít quan trọng và ngược lại.

Tìm kiếm theo hai hướng (Birectional Generation-BG): Nếu trong trường hợp tập đặc trưng tối ưu không nằm trong khu vực giữa của không gian tìm kiếm, thì việc bắt đầu tìm kiếm từ cả hai phía của không gian tìm kiếm là giải pháp phù hợp. Quá trình tìm kiếm sẽ được bắt đầu từ hai hướng một cách đồng thời. Khi một trong hai chiều tìm kiếm tìm được M đặc trưng tốt nhất trước khi đi đến điểm giữa trong không gian tìm kiếm thì quá trình dừng lại. Nếu cả hai chiều tìm kiếm tiến đến điểm giữa trong không gian tìm kiếm thì quá trình cũng kết thúc.

Khi số lượng các đặc trưng liên quan M là nhỏ hơn N/2, SFG chạy nhanh hơn, ngược lại nếu M lớn hơn N/2 khi đó SBG chạy nhanh hơn. Thường thì giá trị của M là không biết trước nên ta không thể biết chiến lược nào chạy nhanh hơn. Khi đó BG có ý nghĩa.

Tìm kiếm ngẫu nhiên (Random Generation-RG): việc tìm kiếm được bắt đầu theo một hướng ngẫu nhiên. Trong khi tìm kiếm việc thêm hay loại bỏ bớt một đặc trưng cũng được thực hiện một cách ngẫu nhiên. Do chiến lược tìm kiếm không đi theo một chiều cố định nào đó trong việc tạo ra tập đặc trưng tối ưu nên phương pháp này tránh được các tối ưu địa phương. Mối quan hệ giữa hướng tìm kiếm và chiến lược tìm kiếm được mô tả trong Bảng 1.1. Ký hiệu × thể hiện sự kết hợp giữa chiến lược tìm kiếm và hướng tìm kiếm là không khả thi.

Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59]

Hướng tìm kiếm Chiến lược tìm kiếm

Toàn bộ Kinh nghiệm Không xác định

Tìm kiếm tiến tuần tự √ √ ×

Tìm kiếm lùi tuần tự √ √ ×

Tìm kiếm theo hai hướng √ √ ×

Tìm kiếm ngẫu nhiên × √ √

(26)

(3)Tiêu chí đánh giá

Sau khi xem xét về chiến lược và hướng tìm kiếm, vấn đề tiếp theo cần xem xét là đánh giá một đặc trưng là có ích hay xác định tập con đặc trưng được lựa chọn là tốt hay không tốt. Cần phải phân biệt giữa tập con tốt nhất và tập con tối ưu đối với các kỹ thuật lựa chọn đặc trưng. Việc đánh giá này thường là phức tạp và có nhiều tiêu chí đánh giá khác nhau. Chẳng hạn việc đánh giá có thể xem xét xem các đặc trưng được chọn lựa có làm tăng độ chính xác của bộ phân lớp hay không? Các đặc trưng được chọn lựa có giúp làm giảm chi phí tính toán hay không? Một số độ đo thường được sử dụng trong lựa chọn đặc trưng gồm có độ đo chính xác, độ lợi thông tin (Information Gain), độ đo khoảng cách, độ đo phụ thuộc, độ đo nhất quán.

1.2.4 Thủ tục lựa chọn đặc trưng

Mặc dù lựa chọn đặc trưng có thể được áp dụng với nhiều mô hình học, tuy nhiên trong khuôn khổ luận án này chúng tôi chỉ tập trung vào việc nghiên cứu kỹ thuật lựa chọn đặc trưng để tăng hiệu năng của các bộ phân lớp. Dash và Liu [86]

chia tiến trình lựa chọn đặc trưng thành bốn khối chính: Sinh tập con, đánh giá, điều kiện dừng và kiểm chứng kết quả (Hình 1.3).

Hình 1.3 Thủ tục lựa chọn đặc trưng[86]

Sinh tập con: là việc tìm kiếm trong không gian của các đặc trưng để có được các tập con có khả năng phân lớp và dự đoán tốt nhất. Với N là số các đặc trưng thì

Tập đặc trưng ban đầu

Sinh tập con

Tập con

Đánh giá

Điều kiện dừng

Kiểm chứng kết quả

Sai Đúng

(27)

tổng số tập con có thể có là 2^N, nên việc duyệt qua tất cả các tập con của các đặc trưng là tốn kém.

Đánh giá: sau khi sinh tập con các đặc trưng, người ta sử dụng một hàm hoặc một bộ tiêu chí để đánh giá mức độ phù hợp (độ tốt) của tập con được chọn lựa. Kết quả trả về của hàm đánh giá sau đó được sử dụng để xác định thứ hạng của các tập con đặc trưng được đánh giá.

Điều kiện dừng: được sử dụng để đảm bảo tiến trình rút gọn tập đặc trưng kết thúc khi không thể tìm thấy tập con đặc trưng tốt hơn.

Kiểm chứng kết quả: kiểm tra kết quả với các thuật toán học được chọn nhằm xác nhận hiệu năng của kỹ thuật lựa chọn đặc trưng.

1.2.5 Các mô hình lựa chọn đặc trưng Mô hình Lọc (Filter)

Hình 1.4 Mô hình chọn lựa đặc trưng Lọc

Mô hình Lọc (Filter) là phương pháp lựa chọn đặc trưng đơn giản nhất (Hình 1.4). Đầu vào của mô hình là toàn bộ các đặc trưng của tập dữ liệu, sau khi thực hiện việc đánh giá các đặc trưng sử dụng các độ đo hoặc các tiêu chí nhất định cho trước thì đầu ra của mô hình là danh sách các đặc trưng với điểm số của từng đặc trưng.

Việc lựa chọn M đặc trưng có điểm số cao nhất (hoặc thấp nhất) sẽ cho tập con đặc trưng tốt nhất theo một tiêu chí nhất định. Ưu nhược điểm của một số phương pháp lọc được liệt kê trong Bảng 1.2

Tất cả đặc trưng

Filter Tập con đặc trưng

tốt nhất

Phân lớp Tính toán xếp hạng

theo các độ đo tương ứng

(28)

Bảng 1.2 Ưu nhược điểm của mô hình Lọc[8]

Ưu điểm Nhược điểm Ví dụ

Đơn biến Đơn giản

Nhanh, dễ mở rộng

Không phụ thuộc vào bộ phân lớp

Loại bỏ các đặc trưng có liên quan

Kết quả phân lớp cuối cùng có độ chính xác không cao.

X²

Khoảng cách Ơ clit t-test

Độ lợi thông tin (IG) Gain ratio

Đa biến

Độc lập với bộ phân lớp Độ phức tạp tính toán thấp Sử dụng cho bộ dữ liệu kích cỡ lớn

Chậm hơn các kỹ thuật đơn biến

Có thể không loại bỏ được các đặc trưng dư thừa

Lựa chọn đặc trưng dựa trên tương quan (CFS) Lựa chọn đặc trưng dựa trên tương quan nhanh (FCFS)

Mô hình Đóng gói (Wrapper)

Mô hình đóng gói tìm kiếm tập con các đặc trưng tốt bằng cách đánh giá chất lượng của các tập đặc trưng. Việc đánh giá chất lượng thường sử dụng hiệu năng (độ chính xác dự đoán hoặc phân lớp) của thuật toán học (Hình 1.5).

Hình 1.5 Mô hình chọn lựa đặc trưng đóng gói

Để đánh giá chất lượng của tập đặc trưng, chúng sử dụng phản hồi (feedback) từ mô hình dự đoán. Sở dĩ mô hình này được gọi là đóng gói bởi nó luôn ‘bao quanh’

bộ phân lớp. Mô hình đóng gói có thể sử dụng các chiến lược tìm kiếm khác nhau chẳng hạn như tìm kiếm tuần tự, hoặc ngẫu nhiên. Ưu nhược điểm của mô hình đóng

Tất cả đặc trưng

Bộ sinh tập con

Thuật toán học

Tập con đặc trưng

Kết quả đánh giá

Wrapper

Tập con đặc trưng tốt nhất

(29)

Bảng 1.3 Ưu nhược điểm của mô hình Đóng gói [8]

Ưu điểm Nhược điểm Ví dụ

Thuật toán lựa chọn tuần tự Có tương tác với bộ phân lớp

Chi phí tính toán thấp

Dễ bị quá khớp Thực hiện dễ dàng

Dễ gặp tối ưu địa phương

Lựa chọn tiến tuần tự (SFS)

Loại bỏ lùi tuần tự (SBE) Beam Search

Thuật toán lựa chọn tiến hóa Tìm được tập con tối ưu

Tương tác với bộ phân lớp Hiệu năng cao hơn mô hình lọc

Tính toán phức tạp Dễ bị quá khớp hơn

SA GA PSO ACO

Mô hình nhúng (Embedded)

Mô hình nhúng giúp cải tiến hiệu năng phân lớp và tăng tốc độ của quá trình lựa chọn. Mô hình nhúng là sự tích hợp, nhúng kỹ thuật lựa chọn đặc trưng vào mô hình học. Mô hình này kết hợp ưu điểm của mô hình Lọc và Đóng gói bằng cách sử dụng đồng thời tiêu chí đánh giá độc lập và các thuật toán học để đánh giá tập con các đặc trưng. Mô hình Lọc có thể cung cấp một chỉ dẫn thông minh cho mô hình Đóng gói, chẳng hạn như: giảm không gian tìm kiếm, một điểm khởi đầu tốt, đường tìm kiếm ngắn và thông minh hơn. Để thực hiện được mô hình Nhúng người phát triển cần tìm hiểu cấu trúc của thuật toán học, xác định các tham số có thể sử dụng cho việc đánh giá mức độ quan trọng của đặc trưng. Nói cách khác, các đặc trưng được xếp hạng ngay trong quá trình thực thi của việc học, không phải sau khi việc học hoàn thành như trong mô hình Đóng gói. Bảng 1.4 dưới đây so sánh ba mô hình lựa chọn đặc trưng dựa theo ba hướng tiếp cận:

(30)

Bảng 1.4 So sánh ba mô hình[33]

Mô hình Lọc Mô hình Đóng gói Mô hình Nhúng Tiêu chuẩn Đo lường độ phù hợp

đặc trưng/ tập con đặc trưng

Đo lường tính có ích của tập con đặc trưng

Chiến lược tìm kiếm

Thường là thứ tự của các đặc trưng

Tìm kiếm không gian toàn bộ đặc trưng

Tìm kiếm được hướng dẫn bởi quá trình học

Đánh giá Sử dụng các kiểm định thống kê

Sử dụng kiểm chứng chéo

Ưu điểm Nhanh, không phụ thuộc mô hình học

Có thể lựa chọn được các đặc trưng

“tối ưu” nhất

Chi phí tính toán thấp

Nhược điểm Có thể không lựa chọn được các đặc trưng “hữu ích” nhất

Dễ bị “quá khớp” Ít bị “quá khớp”

1.3 Trích xuất đặc trưng

- Trích xuất đặc trưng (Feature extraction): biến đổi không gian đặc trưng ban đầu sang một không gian khác mà có thể dễ dàng phân tích hơn. Hay nói cách khác là nó xây dựng một tập đặc trưng mới từ tập đặc trưng ban đầu với số đặc trưng nhỏ hơn.

[ x₁ x₂

⋮ x_N

]𝑡𝑟í𝑐ℎ 𝑥𝑢ấ𝑡 đặ𝑐 𝑡𝑟ư𝑛𝑔

→ [ y₁ y₂

⋮ y_M

] = 𝑓 ([

x₁ x₂

⋮ x_N

])

Hình 1.6 Trích xuất đặc trưng.

Trích xuất đặc trưng liên quan tới việc tạo ra tập đặc trưng “mới” từ tập đặc trưng ban đầu, thông qua việc áp dụng một hàm hoặc một quá trình chuyển đổi. Trích xuất đặc trưng thực hiện một số phép biến đổi từ đặc trưng ban đầu để tạo ra các đặc trưng mới (tập đặc trưng đích) để có thể dễ dàng phân tích hơn.

(31)

1.3.1 Mục tiêu của trích xuất đặc trưng

- Tăng hiệu năng của thuật toán học do dữ liệu sau khi trích xuất có thể dễ dàng phân tích hơn so với dữ liệu ban đầu.

- Trực quan hóa dữ liệu được thực hiện dễ dàng hơn do dữ liệu sau phép biến đổi có thể dễ dàng biểu diễn hơn so với dữ liệu gốc

- Giảm nhiễu và dư thừa.

1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng

Cách thức phân loại của các kỹ thuật trích xuất đặc trưng thường khác so với cách phân loại của các kỹ thuật lựa chọn đặc trưng. Có nhiều cách phân loại dựa trên các đặc điểm của kỹ thuật trích xuất. Trong khuôn khổ luận án này, chúng tôi tập trung phân loại các kỹ thuật trích xuất đặc trưng thành hai loại là các phương pháp có giám sát và các phương pháp không có giám sát. Ngoài ra, còn có thể phân loại theo các mô hình tuyến tính và mô hình phi tuyến.

Các phương pháp không giám sát gồm: Phân tích thành phần chính (PCA), Phân tích giá trị riêng (SVD), Phân tích yếu tố (FA)…

Các phương pháp có giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân tích thành phần độc lập (ICA)…

Các kỹ thuật không có giám sát Phân tích thành phần chính

Phân tích thành phần chính (Principal Component Analysis-PCA) là kỹ thuật rút gọn chiều được sử dụng rộng rãi trong các lĩnh vực như học máy, nén dữ liệu, phân tích hình ảnh, nhận dạng mẫu, dự đoán thời gian thực và trực quan hóa dữ liệu.

Giả sử các phần tử dữ liệu được biểu diễn bằng vector n chiều, phương pháp phân tích thành phần chính sẽ tìm k vector trực giao n chiều có thể dùng để biểu diễn dữ liệu, với k ≤ n. Khi đó, phép chiếu trên không gian k chiều cho phép biểu diễn dữ liệu ban đầu bằng một không gian nhỏ hơn. Phương pháp phân tích thành phần chính sẽ kết hợp các đặc trưng ban đầu với nhau để tạo ra các đặc trưng mới. Các đặc trưng mới được gọi là thành phần chính và chúng có số lượng ít hơn hoặc bằng các đặc

(32)

trưng ban đầu. PCA là một trong các kỹ thuật không có giám sát bởi dữ liệu ban đầu không có sẵn thông tin về tin nhãn. PCA có thể sử dụng để trích xuất các thông tin liên quan nhiều nhất từ một tập dữ liệu có chứa thông tin dư thừa hoặc nhiễu.

Phân tích giá trị riêng (SVD)

Phân tích giá trị riêng [6] của một ma trận X cỡ n×d được thực hiện bằng tích của ba ma trận

𝐗 = 𝐔𝐒𝐕^𝐓 _(1.1)

Trong đó: 𝐔 là ma trận trực giao cỡ n×n 𝐒 là ma trận cỡ n×d

𝐕^𝐓 là ma trận nghịch đảo của 𝐕

SVD thường được dùng để giảm chiều của ma trận bằng cách loại bỏ các cột không tiêu biểu hoặc không quan trọng.

Phân tích yếu tố

Phân tích yếu tố (Factor Analysis-FA) cũng là một mô hình tuyến tính, nhưng là mô hình xác suất chứa biến ẩn. FA được đề xuất lần đầu tiên bởi các nhà tâm lý.

FA giả sử rằng các biến được đo phụ thuộc vào một số yếu tố chung, không rõ và thường không đo đạc được. Ví dụ điểm thi của sinh viên thường liên quan, phụ thuộc vào yếu tố “thông minh” của mỗi sinh viên. Mục tiêu của FA là khai thác các mối quan hệ như thế và có thể được sử dụng để giảm chiều của tập dữ liệu theo một mô hình yếu tố. Phân tích yếu tố là mô hình dữ liệu có nhiều ưu điểm, cụ thể trong trường hợp tập dữ liệu ban đầu có chiều cao, thì phân tích yếu tố cho phép mô hình hóa dữ liệu trực tiếp bởi phân phối Gauss với ít tham biến hơn.

Các kỹ thuật có giám sát

Phân tích biệt thức tuyến tính

Phân tích biệt thức tuyến tính (Linear Discriminant Analysis-LDA) là một kỹ thuật có giám sát; trong đó LDA tối đa hóa độ tin cậy tuyến tính giữa dữ liệu của các lớp khác nhau. Tương tự như PCA, LDA tìm kiếm một kết hợp tuyến tính của các đặc trưng để dựng hàm phân lớp của các đối tượng. LDA mô hình hóa sự khác biệt

(33)

giữa các lớp trong khi PCA không quan tâm tới những khác biệt này. LDA thường được sử dụng với dạng dữ liệu có kiểu số.

Phân tích thành phần độc lập

Phân tích thành phần độc lập (Independent Component Analysis-ICA) là một phương pháp biến đổi tuyến tính, trong đó các đại diện mong muốn là một trong các thành phần phụ thuộc ít nhất vào các thành phần đại diện. Việc sử dụng các đặc trưng trích xuất được phát triển theo lý thuyết về giảm sự dư thừa. Các thuật toán ICA được chia thành hai loại: một là các thuật toán được phát triển từ việc giảm thiểu thông tin tương hỗ; và loại thứ hai những thuật toán khác được phát triển từ việc tối đa hóa phân phối chuẩn.

1.4 Một số nghiên cứu về rút gọn đặc trưng 1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng

Trong nghiên cứu [53], các tác giả phân chia các hướng nghiên cứu thành bốn nhóm là hướng nghiên cứu dựa trên sự tương quan, hướng nghiên cứu dựa trên thống kê, hướng nghiên cứu dựa trên lý thuyết thông tin và hướng nghiên cứu dựa trên học thưa.

1.4.1.1 Hướng nghiên cứu dựa trên sự tương quan

Các thuật toán lựa chọn đặc trưng khác nhau sử dụng các tiêu chí khác nhau để xác định các đặc trưng liên quan. Một số độ đo được sử dụng để đánh giá mức độ quan trọng của đặc trưng là điểm số Laplace (Laplacian Score), điểm số Fisher, Relief-F…

Thuật toán cứu trợ (Relief-F) là một trong những thuật toán lựa chọn đặc trưng phổ biến nhất do nó đơn giản và hoạt động hiệu quả. Tính chất của dữ liệu ảnh hưởng tới việc thực hiện thuật toán cứu trợ. Cụ thể, nếu dữ liệu có nhiều nhiễu thì Relief-F có thể cho kết quả kém chính xác. Nếu trong tập dữ liệu có giá trị ngoại lai (outlier) thì độ chính xác sẽ giảm nhiều hơn nữa. Vì vậy, cần phải hết sức cẩn thận khi chọn mẫu cho tập dữ liệu. Ngoài ra, Relief-F chỉ xếp hạng các đặc trưng dựa trên mức độ quan trọng của từng đặc trưng. Do đó, trong nghiên cứu [102], các tác giả đã lai ghép

(34)

Relief-F với một thuật toán di truyền nhằm lựa chọn các đặc trưng tối ưu. Các tham số của thuật toán di truyền được xác định một cách phù hợp dựa vào số đặc trưng được lựa chọn từ Relief-F.

Nhận xét: Ưu điểm của các phương pháp lựa chọn đặc trưng dựa trên sự tương quan là tương đối đơn giản và dễ hiểu bởi công việc tính toán chỉ tập trung vào xây dựng ma trận tương quan sau đó tính điểm số cho từng đặc trưng. Do có hiệu suất cao nên chúng thường được sử dụng cho các bài toán phân lớp. Các phương pháp này cũng độc lớp với các thuật toán học khi lựa chọn các đặc trưng. Tuy nhiên, nhược điểm của các phương pháp này là không thể xác định được các đặc trưng dư thừa bởi chúng có thể lặp lại việc tìm kiếm các đặc trưng có độ tương quan cao trong suốt quá trình lựa chọn.

1.4.1.2 Hướng nghiên cứu dựa trên thống kê

Các độ đo thống kê cũng được sử dụng để làm tiêu chuẩn lựa chọn đặc trưng.

Các phương pháp lựa chọn đặc trưng sử dụng độ đo thống kê được xếp vào nhóm các phương pháp lọc do chúng không phụ thuộc vào thuật toán học mà chỉ đánh giá đặc trưng dựa trên các độ đo thống kê. Các phương pháp này có thể không loại bỏ được các đặc trưng dư thừa trong pha lựa chọn do chúng chỉ đánh giá các đặc trưng một cách độc lập. Một số độ đo hay được sử dụng là: phương sai thấp (Low Variance), điểm số T (T-score), điểm số F (F-score), X², chỉ số Gini.

Nhận xét: Các phương pháp lựa chọn đặc trưng dựa trên thống kê sử dụng các độ đo để loại bỏ các đặc trưng không mong muốn. Với ưu điểm đơn giản, dễ hiểu và chi phí tính toán thấp, chúng thường được sử dụng trong bước tiền xử lý sau đó mới áp dụng cho các phương pháp lựa chọn đặc trưng phức tạp khác. Giống như các phương pháp lựa chọn đặc trưng dựa trên sự tương quan, các phương pháp này đánh giá độ quan trọng của các đặc trưng một cách độc lập nên không thể loại bỏ được các đặc trưng dư thừa. Một nhược điểm khác của các phương pháp này là chúng chỉ có thể làm việc với dữ liệu rời rạc. Các biến kiểu số hay liên tục cần phải xử lý rời rạc hóa trước khi được áp dụng.

(35)

1.4.1.3 Hướng nghiên cứu trên lý thuyết thông tin

Phần lớn các thuật toán lựa chọn đặc trưng hiện có là dựa trên lý thuyết thông tin. Các thuật toán này sử dụng điều kiện lọc theo kinh nghiệm để đánh giá độ quan trọng của đặc trưng. Hầu hết các thuật toán dựa trên khái niệm entropy để đo sự không chắc chắn của một biến ngẫu nhiên rời rạc. Độ lợi thông tin (Information Gain) giữa hai biến X và Y được sử dụng để đo lượng thông tin dùng chung của X và Y. Một số thuật toán lựa chọn đặc trưng dựa trên lý thuyết thông tin:

- Độ lợi thông tin (Information Gain): đo sự quan trọng của đặc trưng bằng mối tương quan của nó với nhãn lớp. Giả sử rằng một đặc trưng có độ tương quan cao với nhãn lớp thì nó có thể giúp đạt hiệu suất phân lớp tốt. Công việc đánh giá độ quan trọng của từng đặc trưng được thực hiện riêng biệt, do đó nó có thể bỏ qua các đặc trưng dư thừa. Sau khi có được điểm số của các đặc trưng, có thể lựa chọn ra các đặc trưng có điểm số cao nhất.

- Lựa chọn đặc trưng dựa trên thông tin tương hỗ (Mutual Information): nhược điểm của phương pháp độ lợi thông tin là việc giả thiết các đặc trưng là độc lập với nhau. Trong thực tế, một đặc trưng được gọi là tốt nếu nó liên quan cao với nhãn lớp và không liên quan tới các đặc trưng khác. Nói cách khác cần làm giảm mối liên quan giữa các đặc trưng. Phương pháp này xem xét cả các đặc trưng liên quan và các đặc trưng dư thừa trong pha lựa chọn đặc trưng.

- Liên quan nhiều nhất-dư thừa ít nhất (Minimum Redundancy Maximum Relevance-mRMR): Peng và cộng sự [76] đề xuất điều kiện liên quan nhiều nhất- dư thừa ít nhất để lựa chọn số đặc trưng cần chọn. Thuật toán giúp cho việc lựa chọn càng nhiều đặc trưng, ảnh hưởng của các đặc trưng dư thừa càng giảm.

- Thông tin tương hỗ chung (Joint Mutual Information): Meyer và cộng sự [64]

đề xuất điều kiện thông tin tương hỗ chung nhằm tăng cường thông tin bổ sung được chia sẻ giữa các đặc trưng chưa được chọn và đặc trưng đã được chọn.

Nhận xét: khác với các phương pháp lựa chọn đặc trưng dựa trên sự tương quan, hầu hết các phương pháp lựa chọn đặc trưng dựa trên lý thuyết thông tin có thể

(36)

xác định được các đặc trưng liên quan và các đặc trưng dư thừa. Cũng giống như các phương pháp dựa trên sự tương quan, các phương pháp dựa trên lý thuyết thông tin là độc lập với thuật toán học. Do đó, các phương pháp này thường chỉ phù hợp với bài toán phân lớp. Do không có sự hướng dẫn của nhãn lớp nên không thể xác định rõ ràng việc đánh giá mức quan trọng của các đặc trưng. Ngoài ra, các phương pháp này chỉ có thể áp dụng cho dữ liệu rời rạc do đó các biến số liên tục cần phải được xử lý rời rạc hóa.

1.4.1.4 Hướng nghiên cứu dựa trên học thưa (Sparse learning)

Trong những năm gần đây, các phương pháp lựa chọn đặc trưng dựa trên học thưa đã được nhiều nhà nghiên cứu quan tâm do hiệu suất tốt và dễ hiểu. Hướng nghiên cứu dựa trên học thưa có mục tiêu là giảm thiểu lỗi với một số qui tắc thưa.

Các qui tắc thưa làm cho các hệ số của đặc trưng thu nhỏ dần (hoặc chính xác bằng 0) và sau đó các đặc trưng tương ứng có thể được loại bỏ một cách dễ dàng. Một số phương pháp lựa chọn đặc trưng dựa trên học thưa:

Lựa chọn đặc trưng với qui tắc chuẩn ^ℓ_𝑝: phương pháp này được áp dụng cho bài toán phân lớp nhị phân hoặc hồi qui đa biến. Để lựa chọn đặc trưng điều kiện giới hạn thưa ℓ_𝑝𝑛𝑜𝑟𝑚 được đưa vào mô hình, trong đó 0 ≤ 𝑝 ≤ 1. Có thể lựa chọn đặc trưng bằng cách lựa chọn các đặc trưng có trọng số lớn. Thông thường trọng số càng cao thì độ quan trọng của đặc trưng càng lớn. Các phương pháp lựa chọn đặc trưng theo ℓ1-norm gồm có [98][96][36].

Lựa chọn đặc trưng với qui tắc chuẩn ℓ_𝑝,𝑞 : phương pháp này được áp dụng cho bài toán phân lớp đa nhãn hoặc hồi qui đa biến. Các bài toán này tương đối khó hơn do có đa nhãn và đa mục tiêu và pha lựa chọn đặc trưng phải là nhất quán trên nhiều mục tiêu. Việc lựa chọn đặc trưng liên quan được chuyển thành việc giải bài toán tối ưu. Đề giải bài toán này một số tác giả đã tìm kiếm giải pháp tối ưu địa phương[16].

Ngoài ra, nhiều tác giả đã nghiên cứu và đề xuất các phương pháp lựa chọn đặc trưng hiệu quả dựa trên học thưa [24][43][74][75].