CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG
1.3 Trích xuất đặc trưng
- Trích xuất đặc trưng (Feature extraction): biến đổi không gian đặc trưng ban đầu sang một không gian khác mà có thể dễ dàng phân tích hơn. Hay nói cách khác là nó xây dựng một tập đặc trưng mới từ tập đặc trưng ban đầu với số đặc trưng nhỏ hơn.
[ x1 x2
⋮ xN
]𝑡𝑟í𝑐ℎ 𝑥𝑢ấ𝑡 đặ𝑐 𝑡𝑟ư𝑛𝑔
→ [ y1 y2
⋮ yM
] = 𝑓 ([
x1 x2
⋮ xN
])
Hình 1.6 Trích xuất đặc trưng.
Trích xuất đặc trưng liên quan tới việc tạo ra tập đặc trưng “mới” từ tập đặc trưng ban đầu, thông qua việc áp dụng một hàm hoặc một quá trình chuyển đổi. Trích xuất đặc trưng thực hiện một số phép biến đổi từ đặc trưng ban đầu để tạo ra các đặc trưng mới (tập đặc trưng đích) để có thể dễ dàng phân tích hơn.
1.3.1 Mục tiêu của trích xuất đặc trưng
- Tăng hiệu năng của thuật toán học do dữ liệu sau khi trích xuất có thể dễ dàng phân tích hơn so với dữ liệu ban đầu.
- Trực quan hóa dữ liệu được thực hiện dễ dàng hơn do dữ liệu sau phép biến đổi có thể dễ dàng biểu diễn hơn so với dữ liệu gốc
- Giảm nhiễu và dư thừa.
1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng
Cách thức phân loại của các kỹ thuật trích xuất đặc trưng thường khác so với cách phân loại của các kỹ thuật lựa chọn đặc trưng. Có nhiều cách phân loại dựa trên các đặc điểm của kỹ thuật trích xuất. Trong khuôn khổ luận án này, chúng tôi tập trung phân loại các kỹ thuật trích xuất đặc trưng thành hai loại là các phương pháp có giám sát và các phương pháp không có giám sát. Ngoài ra, còn có thể phân loại theo các mô hình tuyến tính và mô hình phi tuyến.
Các phương pháp không giám sát gồm: Phân tích thành phần chính (PCA), Phân tích giá trị riêng (SVD), Phân tích yếu tố (FA)…
Các phương pháp có giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân tích thành phần độc lập (ICA)…
Các kỹ thuật không có giám sát Phân tích thành phần chính
Phân tích thành phần chính (Principal Component Analysis-PCA) là kỹ thuật rút gọn chiều được sử dụng rộng rãi trong các lĩnh vực như học máy, nén dữ liệu, phân tích hình ảnh, nhận dạng mẫu, dự đoán thời gian thực và trực quan hóa dữ liệu.
Giả sử các phần tử dữ liệu được biểu diễn bằng vector n chiều, phương pháp phân tích thành phần chính sẽ tìm k vector trực giao n chiều có thể dùng để biểu diễn dữ liệu, với k ≤ n. Khi đó, phép chiếu trên không gian k chiều cho phép biểu diễn dữ liệu ban đầu bằng một không gian nhỏ hơn. Phương pháp phân tích thành phần chính sẽ kết hợp các đặc trưng ban đầu với nhau để tạo ra các đặc trưng mới. Các đặc trưng mới được gọi là thành phần chính và chúng có số lượng ít hơn hoặc bằng các đặc
trưng ban đầu. PCA là một trong các kỹ thuật không có giám sát bởi dữ liệu ban đầu không có sẵn thông tin về tin nhãn. PCA có thể sử dụng để trích xuất các thông tin liên quan nhiều nhất từ một tập dữ liệu có chứa thông tin dư thừa hoặc nhiễu.
Phân tích giá trị riêng (SVD)
Phân tích giá trị riêng [6] của một ma trận X cỡ n×d được thực hiện bằng tích của ba ma trận
𝐗 = 𝐔𝐒𝐕𝐓 (1.1)
Trong đó: 𝐔 là ma trận trực giao cỡ n×n 𝐒 là ma trận cỡ n×d
𝐕𝐓 là ma trận nghịch đảo của 𝐕
SVD thường được dùng để giảm chiều của ma trận bằng cách loại bỏ các cột không tiêu biểu hoặc không quan trọng.
Phân tích yếu tố
Phân tích yếu tố (Factor Analysis-FA) cũng là một mô hình tuyến tính, nhưng là mô hình xác suất chứa biến ẩn. FA được đề xuất lần đầu tiên bởi các nhà tâm lý.
FA giả sử rằng các biến được đo phụ thuộc vào một số yếu tố chung, không rõ và thường không đo đạc được. Ví dụ điểm thi của sinh viên thường liên quan, phụ thuộc vào yếu tố “thông minh” của mỗi sinh viên. Mục tiêu của FA là khai thác các mối quan hệ như thế và có thể được sử dụng để giảm chiều của tập dữ liệu theo một mô hình yếu tố. Phân tích yếu tố là mô hình dữ liệu có nhiều ưu điểm, cụ thể trong trường hợp tập dữ liệu ban đầu có chiều cao, thì phân tích yếu tố cho phép mô hình hóa dữ liệu trực tiếp bởi phân phối Gauss với ít tham biến hơn.
Các kỹ thuật có giám sát
Phân tích biệt thức tuyến tính
Phân tích biệt thức tuyến tính (Linear Discriminant Analysis-LDA) là một kỹ thuật có giám sát; trong đó LDA tối đa hóa độ tin cậy tuyến tính giữa dữ liệu của các lớp khác nhau. Tương tự như PCA, LDA tìm kiếm một kết hợp tuyến tính của các đặc trưng để dựng hàm phân lớp của các đối tượng. LDA mô hình hóa sự khác biệt
giữa các lớp trong khi PCA không quan tâm tới những khác biệt này. LDA thường được sử dụng với dạng dữ liệu có kiểu số.
Phân tích thành phần độc lập
Phân tích thành phần độc lập (Independent Component Analysis-ICA) là một phương pháp biến đổi tuyến tính, trong đó các đại diện mong muốn là một trong các thành phần phụ thuộc ít nhất vào các thành phần đại diện. Việc sử dụng các đặc trưng trích xuất được phát triển theo lý thuyết về giảm sự dư thừa. Các thuật toán ICA được chia thành hai loại: một là các thuật toán được phát triển từ việc giảm thiểu thông tin tương hỗ; và loại thứ hai những thuật toán khác được phát triển từ việc tối đa hóa phân phối chuẩn.
1.4 Một số nghiên cứu về rút gọn đặc trưng