• Tidak ada hasil yang ditemukan

Hướng nghiên cứu về trích xuất đặc trưng

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG

1.4 Một số nghiên cứu về rút gọn đặc trưng

1.4.2 Hướng nghiên cứu về trích xuất đặc trưng

Phương pháp dựa trên lý thuyết phân tích thống kê là phương pháp thường được sử dụng trong trích xuất đặc trưng. Các phương pháp thống kê có thể phân tích

và xử lý dữ liệu một cách hiệu quả. Chẳng hạn, một số phương pháp cổ điển như phân tích thành phần chính (PCA), phân tích biệt thức tuyến tính (LDA), phân tích yếu tố (FA).

Phương pháp trích xuất đặc trưng phổ biến nhất và sử dụng rộng rãi là phân tích thành phần chính (PCA) được giới thiệu bởi Karl. PCA là một biến đổi tuyến tính của dữ liệu nhằm giảm thiểu sự dư thừa (đo lường thông qua hiệp phương sai) và tối đa hóa thông tin (được đo thông qua các phương sai). Zhang và cộng sự [103] đề xuất một thuật toán cho phân lớp đa nhãn, trong đó tích hợp quá trình trích xuất đặc trưng dựa trên PCA. Đầu tiên, quá trình trích xuất đặc trưng được thực thi dựa trên phân tích thành phần chính để loại bỏ các đặc trưng không liên quan. Tiếp đó, tiến hành quá trình lựa chọn đặc trưng dựa trên thuật toán sinh để lựa chọn những tập con các đặc trưng có ích nhất theo nghĩa làm tối ưu hàm rủi ro khoảng cách và rủi ro xếp hạng.

Phân tích thành phần độc lập (ICA) [81] là một phương pháp thống kê dùng để chuyển đổi một véc tơ đa chiều sang các thành phần độc lập. Bằng cách đó, nó cho phép loại bỏ dư thừa từ dữ liệu. Karhunen cùng cộng sự [47] đã sử dụng nguyên lý của ICA để trích xuất đặc trưng mẫu.

Park và Lee [72] mở rộng phân tích biệt thức tuyến tính (LDA) được sử dụng trong phân lớp đơn nhãn nhằm giảm chiều trong phân lớp đa nhãn.

Wang và cộng sự đề xuất kỹ thuật trích xuất đặc trưng – phân tích biệt thức tuyến tính cân bằng. Ý tưởng của mô hình là định nghĩa một ma trận phân bố trong lớp và một ma trận phân bố đa lớp cho học đa nhãn. Vì mỗi thể hiện có thể quan hệ với nhiều lớp nên ma trận phân bố trong lớp và đa lớp được biến đổi cho phù hợp.

Mô hình đề xuất LDA cân bằng lớp này tương đương với LDA truyền thống thực thi trên tập dữ liệu sau khi biến đổi bản sao.

Ngoài ra, phương pháp trích xuất đặc trưng dựa trên phân tích ma trận giá trị đơn (Matrix Singular Value Decomposition), phương pháp phân tích biệt thức không tương quan thống kê (Statistical Uncorrelated Discriminant Analysis) là các phương

Hướng nghiên cứu dựa trên hàm nhân

Hàm nhân được sử dụng để chuyển đổi dữ liệu từ không gian phi tuyến ban đầu sang không gian đặc trưng tuyến tính. Các phương pháp sử dụng hàm nhân nhằm phát triển một hướng tiếp cận mới để giải quyết các bài toán phi tuyến, và từ đó có thể áp dụng các thuật toán phân tích dữ liệu tuyến tính. Các hàm nhân được dùng phổ biến hiện nay là hàm đa thức, hàm đa thức thứ tự p, hàm Gaussian Radial Basis Function (RBF).

Phân tích thành phần chính dựa trên hàm nhân (KPCA) [99] với ý tưởng chính là ánh xạ từ dữ liệu đầu vào sang một không gian đặc trưng thông qua một ánh xạ phi tuyến. Zhou [105] chỉ ra một cách tiếp cận để phân tích thành phần chính dựa trên hàm nhân theo phương pháp xác suất gọi là phân tích thành phần chính dựa trên hàm nhân xác suất (PKPCA); nhằm kết hợp một cách tự nhiên giữa PPCA và KPCA để khắc phục những hạn chế của PCA.

Phân tích khác biệt Fisher dựa trên hàm nhân(Kernel FDA)[80], phân tích khác biệt tương quan tiêu chuẩn (KCCDA) cũng là các phương pháp điển hình dựa trên hàm nhân.

Hướng nghiên cứu dựa trên kiến trúc mạng nơ-ron

Các phương pháp mạng nơ-ron và gần đây là học sâu (Deep learning) là các phương pháp phi tuyến phổ biến. Năm 2006 Hilton và cộng sự áp dụng thành công mạng nơ-ron trong việc giảm chiều dữ liệu và đưa ra khái niệm học sâu “deep learning”.

Hiện nay, các kỹ thuật học sâu đang được áp dụng cho nhiều ứng dụng trong thực tế do có hiệu quả cao. Nghiên cứu về mạng nơ-ron đã được thực hiện từ nhiều thâp năm trước đây và đạt được nhiều thành công. Mặc dù các thuật toán học sâu đạt được nhiều thành tựu đáng kể nhưng, nó chỉ phù hợp với một số bài toán cụ thể, mà không thể thay thế được quá rút gọn đặc trưng trong mọi trường hợp. Rút gọn đặc trưng vẫn là chủ đề được quan tâm trong nhiều lĩnh vực.