CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG
1.4 Một số nghiên cứu về rút gọn đặc trưng
1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng
giữa các lớp trong khi PCA không quan tâm tới những khác biệt này. LDA thường được sử dụng với dạng dữ liệu có kiểu số.
Phân tích thành phần độc lập
Phân tích thành phần độc lập (Independent Component Analysis-ICA) là một phương pháp biến đổi tuyến tính, trong đó các đại diện mong muốn là một trong các thành phần phụ thuộc ít nhất vào các thành phần đại diện. Việc sử dụng các đặc trưng trích xuất được phát triển theo lý thuyết về giảm sự dư thừa. Các thuật toán ICA được chia thành hai loại: một là các thuật toán được phát triển từ việc giảm thiểu thông tin tương hỗ; và loại thứ hai những thuật toán khác được phát triển từ việc tối đa hóa phân phối chuẩn.
1.4 Một số nghiên cứu về rút gọn đặc trưng
Relief-F với một thuật toán di truyền nhằm lựa chọn các đặc trưng tối ưu. Các tham số của thuật toán di truyền được xác định một cách phù hợp dựa vào số đặc trưng được lựa chọn từ Relief-F.
Nhận xét: Ưu điểm của các phương pháp lựa chọn đặc trưng dựa trên sự tương quan là tương đối đơn giản và dễ hiểu bởi công việc tính toán chỉ tập trung vào xây dựng ma trận tương quan sau đó tính điểm số cho từng đặc trưng. Do có hiệu suất cao nên chúng thường được sử dụng cho các bài toán phân lớp. Các phương pháp này cũng độc lớp với các thuật toán học khi lựa chọn các đặc trưng. Tuy nhiên, nhược điểm của các phương pháp này là không thể xác định được các đặc trưng dư thừa bởi chúng có thể lặp lại việc tìm kiếm các đặc trưng có độ tương quan cao trong suốt quá trình lựa chọn.
1.4.1.2 Hướng nghiên cứu dựa trên thống kê
Các độ đo thống kê cũng được sử dụng để làm tiêu chuẩn lựa chọn đặc trưng.
Các phương pháp lựa chọn đặc trưng sử dụng độ đo thống kê được xếp vào nhóm các phương pháp lọc do chúng không phụ thuộc vào thuật toán học mà chỉ đánh giá đặc trưng dựa trên các độ đo thống kê. Các phương pháp này có thể không loại bỏ được các đặc trưng dư thừa trong pha lựa chọn do chúng chỉ đánh giá các đặc trưng một cách độc lập. Một số độ đo hay được sử dụng là: phương sai thấp (Low Variance), điểm số T (T-score), điểm số F (F-score), X2, chỉ số Gini.
Nhận xét: Các phương pháp lựa chọn đặc trưng dựa trên thống kê sử dụng các độ đo để loại bỏ các đặc trưng không mong muốn. Với ưu điểm đơn giản, dễ hiểu và chi phí tính toán thấp, chúng thường được sử dụng trong bước tiền xử lý sau đó mới áp dụng cho các phương pháp lựa chọn đặc trưng phức tạp khác. Giống như các phương pháp lựa chọn đặc trưng dựa trên sự tương quan, các phương pháp này đánh giá độ quan trọng của các đặc trưng một cách độc lập nên không thể loại bỏ được các đặc trưng dư thừa. Một nhược điểm khác của các phương pháp này là chúng chỉ có thể làm việc với dữ liệu rời rạc. Các biến kiểu số hay liên tục cần phải xử lý rời rạc hóa trước khi được áp dụng.
1.4.1.3 Hướng nghiên cứu trên lý thuyết thông tin
Phần lớn các thuật toán lựa chọn đặc trưng hiện có là dựa trên lý thuyết thông tin. Các thuật toán này sử dụng điều kiện lọc theo kinh nghiệm để đánh giá độ quan trọng của đặc trưng. Hầu hết các thuật toán dựa trên khái niệm entropy để đo sự không chắc chắn của một biến ngẫu nhiên rời rạc. Độ lợi thông tin (Information Gain) giữa hai biến X và Y được sử dụng để đo lượng thông tin dùng chung của X và Y. Một số thuật toán lựa chọn đặc trưng dựa trên lý thuyết thông tin:
- Độ lợi thông tin (Information Gain): đo sự quan trọng của đặc trưng bằng mối tương quan của nó với nhãn lớp. Giả sử rằng một đặc trưng có độ tương quan cao với nhãn lớp thì nó có thể giúp đạt hiệu suất phân lớp tốt. Công việc đánh giá độ quan trọng của từng đặc trưng được thực hiện riêng biệt, do đó nó có thể bỏ qua các đặc trưng dư thừa. Sau khi có được điểm số của các đặc trưng, có thể lựa chọn ra các đặc trưng có điểm số cao nhất.
- Lựa chọn đặc trưng dựa trên thông tin tương hỗ (Mutual Information): nhược điểm của phương pháp độ lợi thông tin là việc giả thiết các đặc trưng là độc lập với nhau. Trong thực tế, một đặc trưng được gọi là tốt nếu nó liên quan cao với nhãn lớp và không liên quan tới các đặc trưng khác. Nói cách khác cần làm giảm mối liên quan giữa các đặc trưng. Phương pháp này xem xét cả các đặc trưng liên quan và các đặc trưng dư thừa trong pha lựa chọn đặc trưng.
- Liên quan nhiều nhất-dư thừa ít nhất (Minimum Redundancy Maximum Relevance-mRMR): Peng và cộng sự [76] đề xuất điều kiện liên quan nhiều nhất- dư thừa ít nhất để lựa chọn số đặc trưng cần chọn. Thuật toán giúp cho việc lựa chọn càng nhiều đặc trưng, ảnh hưởng của các đặc trưng dư thừa càng giảm.
- Thông tin tương hỗ chung (Joint Mutual Information): Meyer và cộng sự [64]
đề xuất điều kiện thông tin tương hỗ chung nhằm tăng cường thông tin bổ sung được chia sẻ giữa các đặc trưng chưa được chọn và đặc trưng đã được chọn.
Nhận xét: khác với các phương pháp lựa chọn đặc trưng dựa trên sự tương quan, hầu hết các phương pháp lựa chọn đặc trưng dựa trên lý thuyết thông tin có thể
xác định được các đặc trưng liên quan và các đặc trưng dư thừa. Cũng giống như các phương pháp dựa trên sự tương quan, các phương pháp dựa trên lý thuyết thông tin là độc lập với thuật toán học. Do đó, các phương pháp này thường chỉ phù hợp với bài toán phân lớp. Do không có sự hướng dẫn của nhãn lớp nên không thể xác định rõ ràng việc đánh giá mức quan trọng của các đặc trưng. Ngoài ra, các phương pháp này chỉ có thể áp dụng cho dữ liệu rời rạc do đó các biến số liên tục cần phải được xử lý rời rạc hóa.
1.4.1.4 Hướng nghiên cứu dựa trên học thưa (Sparse learning)
Trong những năm gần đây, các phương pháp lựa chọn đặc trưng dựa trên học thưa đã được nhiều nhà nghiên cứu quan tâm do hiệu suất tốt và dễ hiểu. Hướng nghiên cứu dựa trên học thưa có mục tiêu là giảm thiểu lỗi với một số qui tắc thưa.
Các qui tắc thưa làm cho các hệ số của đặc trưng thu nhỏ dần (hoặc chính xác bằng 0) và sau đó các đặc trưng tương ứng có thể được loại bỏ một cách dễ dàng. Một số phương pháp lựa chọn đặc trưng dựa trên học thưa:
Lựa chọn đặc trưng với qui tắc chuẩn ℓ𝑝: phương pháp này được áp dụng cho bài toán phân lớp nhị phân hoặc hồi qui đa biến. Để lựa chọn đặc trưng điều kiện giới hạn thưa ℓ𝑝𝑛𝑜𝑟𝑚 được đưa vào mô hình, trong đó 0 ≤ 𝑝 ≤ 1. Có thể lựa chọn đặc trưng bằng cách lựa chọn các đặc trưng có trọng số lớn. Thông thường trọng số càng cao thì độ quan trọng của đặc trưng càng lớn. Các phương pháp lựa chọn đặc trưng theo ℓ1-norm gồm có [98][96][36].
Lựa chọn đặc trưng với qui tắc chuẩn ℓ𝑝,𝑞 : phương pháp này được áp dụng cho bài toán phân lớp đa nhãn hoặc hồi qui đa biến. Các bài toán này tương đối khó hơn do có đa nhãn và đa mục tiêu và pha lựa chọn đặc trưng phải là nhất quán trên nhiều mục tiêu. Việc lựa chọn đặc trưng liên quan được chuyển thành việc giải bài toán tối ưu. Đề giải bài toán này một số tác giả đã tìm kiếm giải pháp tối ưu địa phương[16].
Ngoài ra, nhiều tác giả đã nghiên cứu và đề xuất các phương pháp lựa chọn đặc trưng hiệu quả dựa trên học thưa [24][43][74][75].
Nhận xét: Các phương pháp lựa chọn đặc trưng dựa trên học thưa có thể được nhúng vào một thuật toán học bất kỳ (chẳng hạn hồi qui tuyến tính, SVM, Random Forest..). Do đó, có thể cải thiện hiệu năng của các thuật toán học. Ngoài ra, với đặc tính thưa của trọng số của đặc trưng, mô hình trở nên dễ hiểu, dễ giải thích. Tuy nhiên, các phương pháp này vẫn còn gặp phải một số hạn chế. Thứ nhất, nó tối ưu hóa trực tiếp một thuật toán học bằng việc lựa chọn đặc trưng, do đó các đặc trưng được lựa chọn chỉ phù hợp với thuật toán học này mà không phù hợp với thuật toán học khác.
Có nghĩa là không tổng quát. Thứ hai, các phương pháp này liên quan tới việc giải bài toán tối ưu với các phép toán phức tạp trên ma trận (nhân, đảo ngược,..) trong hầu hết các trường hợp. Do đó, chi phí tính toán cao là một trong những hạn chế của các phương pháp này.
1.4.1.5 Một số hướng nghiên cứu khác:
Ngoài các phương pháp lựa chọn đặc trưng thuộc bốn nhóm đã trình bày ở trên, các nhà nghiên cứu còn tập trung vào phát triển các phương pháp lựa chọn đặc trưng theo chiến lược tìm kiếm và tiêu chí đánh giá.
Tìm kiếm kinh nghiệm và tham lam
Nakariyakul và Casasent [66] cải tiến thuật toán lựa chọn đặc trưng tuần tự tiến nhằm chọn một tập hợp con của các đặc trưng. Các tác giả đã đề xuất cải tiến các thuật toán lựa chọn đặc trưng gốc bằng cách thêm một bước tìm kiếm bổ sung được gọi là "thay thế đặc trưng yếu". Bước tìm kiếm bổ sung này sẽ thực hiện việc loại bỏ một đặc trưng bất kỳ trong tập các đặc trưng con hiện đang được chọn. Sau đó thêm tuần tự từng đặc trưng mới nhằm cải thiện các tập con đặc trưng hiện thời.
Yusta [101] trình bày ba chiến lược tìm kiếm theo kinh nghiệm để giải quyết các bài toán lựa chọn đặc trưng (GRASP, tìm kiếm Tabu và thuật toán Memetic). Ba chiến lược tìm kiếm này được so sánh với giải thuật di truyền và với các phương pháp lựa chọn đặc trưng điển hình khác như SFFS và SBFS. Kết quả cho thấy GRASP và tìm kiếm Tabu có được kết quả tốt hơn so với các phương pháp còn lại.
Tìm kiếm dựa trên tối ưu
Khi bài toán lựa chọn đặc trưng có thể được coi là một bài toán tối ưu hóa tổ hợp, các nhà nghiên cứu đã sử dụng các thuật toán di truyền, tối ưu đàn kiến, phương pháp tập thô và tối ưu hóa bầy đàn (Particle Swarm Optimization) để giải quyết.
Một thủ tục tìm kiếm khác dựa trên các thuật toán di truyền (GA), đó là một kỹ thuật tìm kiếm tổ hợp dựa trên cả hai độ đo ngẫu nhiên và xác suất. Các tập con đặc trưng được đánh giá bằng cách sử dụng hàm phù hợp và sau đó qua kết hợp trao đổi chéo và đột biến để tạo ra thế hệ tiếp theo của các tập con.
Othman Soufan và các cộng sự [82] đề xuất một phương pháp lựa chọn đặc trưng hiệu quả theo mô hình đóng gói trong đó sử dụng chiến lược tìm kiếm dựa trên thuật toán di truyền. Việc kiểm tra và đánh giá số lượng lớn các đặc trưng được triển khai song. Trong bước tiền xử lý các tác giả cũng tích hợp các phương pháp lọc khác nhau. Một ưu điểm nổi bật của phương pháp này là trọng số và các tham số khác của GA có thể điểu chỉnh đề phù hợp các ứng dụng khác nhau.
Các phương pháp lựa chọn đặc trưng sử dụng thuật toán di truyền thường gặp khó khăn khi số lượng đặc trưng lớn.
Tối ưu hóa bầy đàn (Particle Swarm Optimization-PSO) là một kỹ thuật tối ưu hóa ngẫu nhiên dựa vào dân số được phát triển bởi Kennedy và Eberhart [48]. PSO mô hình hóa việc đàn chim bay đi tìm kiếm thức ăn cho nên nó thường được xếp vào các loại thuật toán có sử dụng trí tuệ bầy đàn. Bae và cộng sự [9] đề xuất một thuật toán tiến hóa được gọi là bầy đàn thông minh động dựa trên biến đổi của thuật toán PSO. Một phương pháp lựa chọn đặc trưng lai giữa GA và PSO được Pedram Ghamisi và cộng sự [30] đề xuất nhằm phán đoán điểm ảnh trong quá trình xử lý ảnh. Thuật toán lai này tự động dừng khi giá trị trung bình của cá thể nhỏ hơn một giá trị ngưỡng cho trước. Ưu điểm của phương pháp này là không cần phải thiết lập số lượng đặc trưng cần thiết trước khi bắt đầu các vòng lặp.
Trong nghiên cứu của Martin Jung và Zscheischler Jakob [46], các tác giả giới thiệu một thuật toán di truyền lai cho việc lựa chọn đặc trưng. Thuật toán di truyền được chỉ dẫn bởi Rừng ngẫu nhiên (RF) giúp làm giảm chi phí tính toán của hàm mục
tiêu. Hướng dẫn này gợi ý những đặc trưng sẽ bị loại bỏ và giữ lại những đặc trưng phù hợp nhất.
Gần đây, Ghaemi Manizheh và cộng sự đề xuất một phương pháp lựa chọn đặc trưng sử dụng thuật toán tối ưu rừng (FOA)[29]. Đầu tiên, thuật toán tối ưu rừng được áp dụng cho bài toán có không gian liên tục, sau đó nó được áp dụng cho bài toán có không gian đặc trưng rời rạc bằng cách thiết lập lại bậc của cây tốt nhất về giá trị không.
Maldonado và Weber [63] giới thiệu một thuật toán đóng gói để lựa chọn đặc trưng, trong đó sử dụng SVM với các hàm nhân. Phương pháp của họ được dựa trên sự lựa chọn tuần tự ngược, bằng cách sử dụng số lỗi đánh giá trên một tập con làm độ đo để quyết định đặc trưng nào bị loại bỏ trong mỗi lần lặp.
Kỹ thuật lai
Các kỹ thuật lai là một dạng của các phương pháp dựa trên kết hợp mô hình (ensemble) với mục đích tạo ra một nhóm các tập con đặc trưng từ các thuật toán lựa chọn đặc trưng khác nhau và sau đó tổng hợp lấy ra kết quả cuối cùng tốt nhất. Kỹ thuật này có thể làm giảm thiểu vấn đề không ổn định, nhiễu của từng phương pháp lựa chọn đặc trưng, và do đó các công việc học tiếp sau được cải thiện đáng kể. Tương tự như các phương pháp học kết hợp thông thường, các phương pháp lựa chọn đặc trưng lai gồm hai bước: (1) Xây dựng một tập các kết quả lựa chọn đặc trưng khác nhau, (2) Kết hợp các kết quả này để có được kết quả cuối cùng. Việc thực hiện các bước khác nhau sẽ cho ra các phương pháp lựa chọn đặc trưng khác nhau.
Unler và cộng sự [89] trình bày một thuật toán lựa chọn tập con đặc trưng lai giữa lọc và đóng gói dựa trên tối ưu hóa hạt bầy đàn (PSO) cho bộ phân lớp SVM.
Mô hình lọc dựa trên các thông tin tương hỗ (MI), MI là một độ đo tổng hợp của đặc trưng liên quan và dư thừa đối với các tập con đặc trưng được lựa chọn. Mô hình đóng gói là một thuật toán cải tiến dựa trên PSO.
Cách tiếp cận của Peng và cộng sự [77] gồm hai phần: (1) thêm một bước tiền lựa chọn để nâng cao hiệu quả trong việc tìm kiếm các tập con đặc trưng với hiệu
năng phân lớp được cải tiến, (2) sử dụng đường cong (ROC) để mô tả hiệu suất của đặc trưng riêng lẻ và tập con đặc trưng trong việc phân lớp.
Lee và Leu [50] đề xuất một phương pháp lai mới để lựa chọn đặc trưng trong việc phân tích dữ liệu microarray. Phương pháp này lần đầu tiên sử dụng thuật toán di truyền với cài đặt tham số động (GADP) để tạo ra một số tập hợp gen và để xếp hạng các gen theo tần số xuất hiện của chúng trong các tập con gen. Sau đó, sử dụng phương pháp X2 để chọn một số gen thích hợp trong số các gen được xếp hạng cao nhất.
Xie và Wang [97] đề xuất một phương pháp lựa chọn đặc trưng lai, cải tiến F- score và tìm kiếm kế tiếp tuần tự (IFSFS). Họ cải tiến F-score gốc bằng cách đo độ phân biệt giữa hai bộ số thực sau đó đo sự phân biệt giữa nhiều hơn hai bộ số thực.
Các cải tiến F-score và tìm kiếm kế tiếp tuần tự (SFS) được kết hợp để tìm tập con tối ưu trong quá trình lựa chọn đặc trưng, trong đó, cải tiến F-score được dùng như là một tiêu chí đánh giá của phương pháp lọc còn SFS là một hệ thống đánh giá dựa trên phương pháp đóng gói.
Các phương pháp tập thô
Lý thuyết tập thô (Rough Set) đã được giới thiệu bởi Pawlak [73] để giải quyết với các khái niệm không chính xác hoặc mơ hồ. Swiniarski và Skowron [85] giới thiệu các ứng dụng cho phép sử dụng phương pháp tập thô để lựa chọn đặc trưng.
Chen và cộng sự [18] đề xuất một phương pháp lựa chọn đặc trưng dựa trên bit để tìm tập đặc trưng nhỏ nhất đại diện cho các chỉ số của một tập dữ liệu cho trước.
Cách tiếp cận này bắt nguồn từ việc lập chỉ mục bitmap và kỹ thuật tập thô. Nó bao gồm hai giai đoạn. Trong giai đoạn đầu, tập dữ liệu đã cho được biến đổi thành một ma trận bitmap được lập chỉ mục với một số thông tin dữ liệu bổ sung. Trong giai đoạn thứ hai, một tập hợp các đặc trưng phù hợp được lựa chọn và sử dụng đại diện cho các chỉ số phân lớp của tập dữ liệu cho trước. Sau khi các đặc trưng phù hợp được lựa chọn, chúng có thể được đánh giá bởi các chuyên gia trước khi tập các đặc trưng cuối cùng của dữ liệu được đề xuất.