CHƯƠNG 2. KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO
2.4 Thực nghiệm và kết quả
2.4.4 Kết quả thực nghiệm
Với tập danh sách các đặc trưng đã được xếp hạng, chúng tôi có thể lựa chọn nhóm gồm 50% các đặc trưng cao nhất hoặc lựa chọn các đặc trưng có giá trị IG >
50% giá trị của số cực đại IG. Mười đặc trưng được lựa chọn theo tiêu chí độ lợi thông tin có số thứ tự là: 1, 20, 3, 2, 5, 6, 13, 15, 14, 4. Kết quả cho thấy đặc trưng trạng thái hiện tại (ca_status) có độ lợi thông tin cao nhất, nó sẽ được chọn là đặc trưng quyết định để phân lớp khách hàng. Tiếp đến là các đặc trưng liên quan tới khách hàng người nước ngoài, thời gian, lịch sử và số tiền vay.
Cũng thực hiện với bộ dữ liệu trên bằng phương pháp lựa chọn đặc trưng Relief-F có kết quả như trong Hình 2.10:
Hình 2.10 Danh sách các đặc trưng được sắp xếp theo độ đo Relief-F giảm dần Kết quả của thực nghiệm lựa chọn các đặc trưng có số thứ tự : 1, 3, 4, 6, 7, 9,
Độ đo Relief-F
Đặc trưng
thông tin, kết quả cho thấy đặc trưng trạng thái hiện tại (ca_status) có giá trị độ đo cao nhất, nó sẽ là đặc trưng quyết định để phân lớp khách hàng. Tuy nhiên, các đặc trưng tiếp theo của khách hàng có sự khác biệt và gồm có thông tin về lịch sử và mục đích vay. Kết quả thực nghiệm sử dụng phương pháp lựa chọn đặc trưng dựa trên độ tương quan được thể hiện trong Hình 2.11
Hình 2.11 Danh sách các đặc trưng được sắp xếp theo độ tương quan giảm dần Theo kết quả ở Hình 2.11, với mỗi một độ đo khác nhau cho ra các tập đặc trương được lựa chọn có các chỉ số khác nhau. Kết quả phân lớp dữ liệu sử dụng 5, 10, 15, và 20 đặc trưng có thứ hạng cao nhất theo ba phương pháp được thể hiện trong Hình 2.12
Độ tương quan
Đặc trưng
Hình 2.12 So sánh kết quả dự đoán sử dụng 5, 10, 15, 20 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu của Đức
Do các phương pháp lựa chọn đặc trưng này dựa vào tính chất của bộ dữ liệu và độc lập với bộ phân lớp. Để giải quyết vấn đề trên, chúng tôi tiến hành áp dụng Phương pháp đóng gói đề xuất theo hướng tìm kiếm tiến và sử dụng bộ phân lớp rừng ngẫu nhiên (random forest) trong các thực nghiệm. Giá trị của tham số mtry được mặc định và tham số ntree đã thử với giá trị 100. Hình 2.13 cho thấy kết quả thực nghiệm được tính trung bình trên 20 thử nghiệm độc lập.
Kết quả thực nghiệm lựa chọn đặc trưng theo hướng lựa chọn tiến
Hình 2.13 Độ chính xác phân lớp với bộ dữ liệu Đức
Độ chính xác
Số lượng đặc trưng
Hiệu năng của một số bộ phân lớp khác nhau [55] được so sánh và thể hiện trong Bảng 2.2 . Cơ sở dùng để so sánh là kết quả phân lớp mà không lựa chọn đặc trưng. Một số bộ phân lớp được sử dụng trong thực nghiệm của chúng tôi bao gồm:
SVM, CART, k-NN, Naive Bayes, MLP. Các phương pháp lựa chọn đặc trưng khác nhau cũng được sử dụng để so sánh bao gồm cả phương pháp Lọc và phương pháp Đóng gói. Phương pháp lọc bao gồm: t-test, phân tích biệt thức tuyến tính (LDA), hồi quy Logistic (LR). Phương pháp Đóng gói sử dụng các kỹ thuật tối ưu bao gồm: thuật toán di truyền (GA) và tối ưu hóa bầy đàn (PSO).
Bảng 2.2 So sánh hiệu năng của các bộ phân lớp [55] trên bộ dữ liệu tín dụng của Đức Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương pháp
cơ sở
t-test LDA LR GA PSO
SVM 76,74 75,72 75,10 76,54 73,76 77,18
CART 74,28 73,52 73,66 75,72 74,16 74,30
k-NN 71,82 71,86 72,62 72,24 71,60 70,86
Naïve Bayes 72,40 70,88 71,44 71,56 74,16 70,52
MLP 73,28 73,44 73,42 74,03 72,54 71,76
RandomForest 75,3
Lựa chọn tiến 76,20
Qua kết quả so sánh hiệu năng của các phương pháp khác nhau như thể hiện trong Bảng 2.2, chúng tôi thấy rằng độ chính xác của RF trên tập hợp con các đặc trưng mới được chọn đã được tăng lên từ 73.4% ban đầu thành 76,20%. Và số lượng các đặc trưng được lựa chọn chỉ còn lại 65% so với số lượng đặc trưng ban đầu.
Hơn nữa, phương pháp của chúng tôi dựa trên kỹ thuật xử lý song song của kiến trúc H20 cho phép thời gian để chạy nhanh hơn 9,5 lần so với bộ phân lớp rừng ngẫu nhiên gốc.
Kết quả thực nghiệm theo hướng lùi sử dụng FRFE
Áp dụng phương pháp lựa chọn đặc trưng FRFE theo hướng lùi, chúng tôi có kết quả như Hình 2.14
Hình 2.14 Độ chính xác phân lớp trên bộ dữ liệu Đức theo hướng quay lui Pha huấn luyện cho kết quả bộ tập con các đặc trưng tốt nhất bao gồm 13 đặc trưng và độ chính xác phân lớp dự đoán là 77,3%. Độ chính xác dự đoán tăng lên 78,95%, trong khi độ chính xác trung bình trên dữ liệu ban đầu là 76,60%.
Kết quả thực nghiệm trên bộ dữ liệu sử dụng đặc trưng thu được từ phương pháp lọc, tiến và FRFE được thể hiện trong Hình 2.15, trong đó cột cuối là kết quả phân lớp dự đoán bằng Random forest trên tập dữ liệu ban đầu.
Hình 2.15 So sánh kết quả sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Đức
0.60 0.65 0.70 0.75 0.80 0.85 0.90
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Độ chính xác dự đoán
Số đặc trưng được chọn
CV Pred
Chúng tôi cũng thực hiện so sánh hiệu năng phân lớp của phương pháp đề xuất với các phương pháp khác như trong Bảng 2.3
Bảng 2.3. Hiệu năng của các bộ phân lớp khác nhau [55] với bộ dữ liệu tín dụng Đức Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương
pháp cơ sở
t-test LDA LR GA PSO
SVM 76,74 75,72 75,10 76,54 73,76 77,18
CART 74,28 73,52 73,66 75,72 74,16 74,30
k-NN 71,82 71,86 72,62 72,24 71,60 70,86
Naïve Bayes 72,40 70,88 71,44 71,56 74,16 70,52
MLP 73,28 73,44 73,42 74,03 72,54 71,76
Random Forest 76,60
FRFE 78,95
Kết quả cho thấy thời gian thực hiện việc lựa chọn đặc trưng sử dụng bộ phân lớp Random forest của gói H20 nhanh gấp khoảng 10 lần so với thời gian thực hiện việc lựa chọn đặc trưng sử dụng bộ phân lớp Random forest gốc. Thời gian thực hiện phân lớp bằng random forest của gói H20 nhanh hơn bởi nó có cơ chế xử lý song song. Thời gian thực thi nhanh hơn giúp cho phương pháp FRFE đề xuất có khả năng lựa chọn các đặc trưng một cách hiệu quả.
2.4.4.2 Bộ dữ liệu tín dụng Úc
Tương tự như bộ dữ liệu tín dụng của Đức, phương pháp Lọc đầu tiên chúng tôi sử dụng là độ lợi thông tin (IG), kết quả chạy thực nghiệm khi sử dụng toàn bộ tập dữ liệu như sau:
Hình 2.16 Xếp hạng đặc trưng theo độ lợi thông tin (IG) trên bộ dữ liệu tín dụng của Úc
Các đặc trưng được lựa chọn bằng phương pháp độ lợi thông tin có thứ tự như trên Hình 2.16. Các đặc trưng X8, X10, X9, X14, X7 có thứ hạng cao nhất theo độ lợi thông tin. Đây chính là các đặc trưng sẽ được lựa chọn theo tiêu chí độ lợi thông tin. Các đặc trưng X1, X11, X12 có độ lợi thông tin tương đối thấp, nó không có đóng góp nhiều thông tin do đó có thể loại bỏ.
Cũng thực hiện với bộ dữ liệu sử dụng phương pháp Relief-F có kết quả như trong Hình 2.17
Độ lợi thông tin (IG)
Đặc trưng
Hình 2.17 Xếp hạng đặc trưng theo độ đo Relief-F trên bộ dữ liệu tín dụng của Úc Các đặc trưng được lựa chọn theo thứ tự là: X8, X5, X11, X4, X1. Giống như phương pháp độ lợi thông tin, đặc trưng X8 có độ đo cao nhất so với các đặc trưng khác. Đặc trưng X8 có thể được sử dụng làm tiêu chí đầu tiên để phân lớp dữ liệu.
Trong phương pháp này các đặc trưng như X14, X13, X10, X7 có thể loại bỏ do chúng có giá trị xếp hạng tương đối thấp.
Phương pháp lựa chọn đặc trưng dựa trên độ tương quan được thực hiện và cho kết quả được sắp xếp theo thứ tự giảm dần như sau:
Độ đo Relief-F
Đặc trưng
Hình 2.18 Xếp hạng đặc trưng theo độ tương quan trên bộ dữ liệu tín dụng của Úc Các đặc trưng được xếp hạng theo độ tương quan so với các độ đo IG và Relief- F được thể hiện trong Hình 2.18. Nhìn vào kết quả có thể thấy đặc trưng X8 có độ quan trọng nhất trong việc phân loại khách hàng.
Cũng như bộ dữ liệu tín dụng Đức, theo kết quả ở Hình 2.18 thì với mỗi một độ đo khác nhau cho ra những kết quả lựa chọn đặc trưng khác nhau. Từ đó có thể thấy rằng các phương pháp lọc có thời gian thực hiện nhanh cho chỉ cần tính toán các độ đo một lần. Tuy nhiên, một đặc trưng tốt được lựa chọn theo độ đo này có thể lại không tốt với độ đo khác. Điều quan trọng hơn là các phương pháp lọc hoàn toàn không phụ thuộc vào các bộ phân lớp, do đó ít có khả năng cải tiến độ chính xác của các bộ phân lớp.
Kết quả phân lớp sử dụng 5, 7 và 10 đặc trưng có thứ hạng cao nhất theo ba phương pháp được thể hiện trong Hình 2.19.
Độ tương quan
Đặc trưng
Hình 2.19 So sánh kết quả dự đoán sử dụng 5, 7, 10 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu tín dụng của Úc
Chúng tôi tiến hành áp dụng phương pháp Đóng gói đề xuất theo hướng tìm kiếm tiến. Trong thực nghiệm của chúng tôi, giá trị mặc định cho tham số mtry đã được sử dụng và tham số ntree đã thử với giá trị 100. Tiến hành thực nghiệm trên hướng tiếp cận lựa chọn đặc trưng tiến, chúng tôi có kết quả:
Hình 2.20 Độ chính xác phân lớp với bộ dữ liệu Úc
Độ chính xác
Số lượng đặc trưng
Bảng 2.4 cho thấy các hiệu năng của các bộ phân lớp khác nhau và các phương pháp lựa chọn đặc trưng khác nhau. Các kết quả thu được cho thấy rằng độ chính xác phân lớp của RF trên tập hợp con gồm 9 đặc trưng được chọn đã được cải thiện rõ rệt. Độ chính xác trung bình là 87,82% trên bộ dữ liệu ban đầu, trong khi độ chính xác trung bình tăng tới 89,40% sau khi áp dụng phương pháp lựa chọn đặc trưng của chúng tôi.
Bảng 2.4 So sánh hiệu năng của các bộ phân lớp trên bộ dữ liệu tín dụng của Úc Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương
pháp cơ sở
t-test LDA LR GA PSO
SVM 85,52 85,52 85,52 85,52 85,52 85,52
CART 85,25 85,46 85,11 84,85 84,82 85,20
k-NN 86,06 85,31 84,81 84,69 84,64 84,58
Naïve Bayes 68,52 67,09 66,74 86,09 85,86 68,55
MLP 85,60 86,00 85,89 85,57 85,49 84,15
Random forest 86,81
Lựa chọn tiến 89,40
Dựa trên xử lý song song, thời gian để huấn luyện với kiểm chứng chéo bằng phương pháp của chúng trong 20 lần thử nghiệm chỉ còn 2.974 giây (~ 50 phút). Kết quả so sánh thời gian trong một lần thực nghiệm giữa bộ phân lớp H2O Random forest và bộ phân lớp Random forest gốc.
Chiến lược lựa chọn đặc trưng FRFE
Sau khi tiến hành chạy thủ tục FRFE, tập con tốt nhất thu được bao gồm 07 đặc trưng được lựa chọn và phương pháp đề xuất đạt độ chính xác là 87.5% trong trường hợp của bộ dữ liệu tín dụng Úc.
Hình 2.21 Độ chính xác dự đoán trên bộ dữ liệu tín dụng Úc
Kết quả so sánh độ chính xác dự đoán sử dụng các đặc trưng được lựa chọn bởi các phương pháp được thể hiện trong Hình 2.22. Trong đó cột cuối là kết quả phân lớp dự đoán bằng Random forest trên tập dữ liệu ban đầu.
Hình 2.22 Độ chính xác dự đoán sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Úc Cũng so sánh với các bộ phân lớp khác trong [55] gồm: SVM, CART, k-NN, Naïve Bayes, MLP. Các phương pháp Lọc gồm: t-test, phân tích biệt thức tuyến tính, hồi qui logistic. Các phương pháp Đóng gói: thuật toán di truyền (GA) và tối ưu hóa bầy đàn (PSO). Như ta thấy độ chính xác của phương pháp đề xuất cao hơn nhiều so
0.7 0.75 0.8 0.85 0.9 0.95
1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3
Độ chính xác
Số đặc trưng được chọn
CV Pred
83.9 84.5
86.37
89.4 89.16
86.81
80 81 82 83 84 85 86 87 88 89 90
Độ chính xác(%)
Phương pháp lựa chọn đặc trưng
với các phương pháp khác hiện có. Sau khi áp dụng phương pháp đề xuất, độ chính xác tăng lên 89.16%, trong khi độ chính xác trung bình trên dữ liệu gốc là 87.25%.
Bảng 2.5 Hiệu năng của các bộ phân lớp khác nhau trên bộ dữ liệu tín dụng của Úc Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương
pháp cơ sở
t-test LDA LR GA PSO
SVM 85,52 85,52 85,52 85,52 85,52 85,52
CART 85,25 85,46 85,11 84,85 84,82 85,20
k-NN 86,06 85,31 84,81 84,69 84,64 84,58
Naïve Bayes 68,52 67,09 66,74 86,09 85,86 68,55
MLP 85,60 86,00 85,89 85,57 85,49 84,15
Random forest 86,81
FRFE 89,16
Bằng việc sử dụng kỹ thuật song song của kiến trúc H2O, thời gian chạy huấn luyện với kiểm chứng chéo 5-lần chỉ mất 09 phút với bộ dữ liệu tín dụng Úc.
So sánh hai phương pháp tìm kiếm:
Như đã trình bày và phân tích ở chương một, chiến lược lựa chọn đặc trưng FRFE theo hướng lùi cho kết quả cao hơn so với chiến lược tìm kiếm tiến. Tuy nhiên, thời gian thực hiện thì lại lâu hơn do phải quay lui thực hiện tính toán nhiều lần.