• Tidak ada hasil yang ditemukan

Tiếp cận giảm chiều không gian đặc trưng đầu vào

Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn

1.3.1. Tiếp cận giảm chiều không gian đặc trưng đầu vào

Các dữ liệu đa nhãn trong các ứng dụng thực tế như phân lớp văn bản, gán nhãn ảnh,… thường có chiều rất lớn cỡ hàng trăm, thậm chí hàng nghìn đặc trưng.

38

Không gian đặc trưng trong dữ liệu đa nhãn đôi khi được sắp theo một hoặc nhiều trật tự khác nhau dẫn đến không gian tìm kiếm bùng nổ hơn nhiều so với dữ liệu trong phân lớp nhị phân và phân lớp đa lớp truyền thống.

Theo F.Herrera và cộng sự [29], các phương pháp giảm chiều đặc trưng phân chia theo nhiều cách khác nhau tùy thuộc vào tiêu chuẩn lựa chọn tập con đặc trưng như sau:

- Tiếp cận lựa chọn đặc trưng và trích rút đặc trưng: Phương pháp lựa chọn đặc trưng tiến hành lựa chọn các đặc trưng hữu ích dựa trên đánh giá độ liên quan của đặc trưng xuất hiện trong dữ liệu nguồn. Phương pháp trích rút đặc trưng sinh ra đặc trưng mới từ tập đặc trưng ban đầu.

- Tiếp cận giảm chiều đặc trưng có giám sát và không giám sát: Phương pháp không giám sát thực hiện giảm chiều đặc trưng chỉ dựa trên bản thân dữ liệu mà không quan tâm đến tập nhãn của phần tử dữ liệu, điển hình là phương pháp phân tích thành phần chính PCA[55]. Ngược lại, các phương pháp giảm chiều có giám sát tận dụng được thông tin về nhãn lớp thông qua việc phân tích mối quan hệ giữa đặc trưng và nhãn lớp, điển hình là phương pháp phân tích tương quan kinh điển CCA[45] và phân tích biệt thức tuyến tính LDA6 [33], trong đó mối quan hệ phụ thuộc giữa đầu vào và đầu ra được xác định thông qua các ma trận biến thiên chéo.

- Tiếp cận lọc và đóng gói: Tiếp cận lọc thực hiện lựa chọn đặc trưng dựa hoàn toàn vào tập dữ liệu ban đầu dựa trên một số tiêu chuẩn như độ đo khoảng cách và độ đo phân kỳ, độ đo thông tin, xác suất lỗi, độ đồng nhất hoặc khoảng cách giữa các lớp,… Tiếp cận này không phụ thuộc vào bất kỳ thuật toán học nào nên loại bỏ được vấn đề sai lệch (bias) giữa việc lựa chọn đặc trưng và mô hình học.

Trong khi đó, tiếp cận đóng gói được thiết kế để tối ưu tập con đặc trưng sử dụng một bộ phân lớp cho trước trong quá trình đánh giá. Tiếp cận này bị phụ thuộc vào bộ phân lớp và do đó có thể suy diễn các tương tác giữa các đặc

6 LDA – Linear Discriminant Analysis

39

trưng. Tiếp cận lai giữa hai phương pháp này cũng được đề xuất trong đó khâu lựa chọn đặc trưng được coi là một phần của quá trình huấn luyện mô hình.

Phương pháp cây quyết định và rừng ngẫu nhiên [77] là hai điển hình của phương pháp lai. Trong khi, tiếp cận lọc cho hiệu quả tốt hơn về thời gian, tiếp cận đóng gói lại cho thực thi tốt hơn.

- Tiếp cận giảm chiều đặc trưng tuyến tính và phi tuyến tính: Hầu hết các thuật toán lựa chọn đặc trưng dựa trên phương pháp thống kê tuyến tính (hồi quy tuyến tính) như PCA và LDA. Trong PCA, một chuyển đổi tuyến tính được áp dụng trên tập đặc trưng ban đầu để ánh xạ sang không gian đặc trưng ít chiều hơn.

Các phương pháp giảm chiều đặc trưng không giám sát chỉ dựa trên sự phân tích của thông tin dư thừa trên tập đặc trưng đầu vào mà không sử dụng các thông tin nhãn lớp, do đó các phương pháp này có thể áp dụng trực tiếp trên dữ liệu đa nhãn. Ngược lại, các phương pháp giảm chiều đặc trưng có giám sát có sử dụng thông tin về nhãn lớp nên cần biến đổi để thích nghi với dữ liệu đa nhãn. Hướng tiếp cận chuyển đổi bài toán đa nhãn về dạng truyền thống sử dụng biến đổi nhị phân BR và biến đổi tập con LP; sau đó kết quả đánh giá tương ứng với mỗi nhãn được kết hợp để tạo ra xếp hạng tổng thể cho các đặc trưng. Tiếp cận này là tiêu chuẩn quan hệ đơn biến hay nói cách khác các đặc trưng được đánh giá một cách độc lập, không xem xét đến sự dư thừa đặc trưng và mối quan hệ giữa các đặc trưng. Một tiêu chuẩn đa biến như kỹ thuật thông tin tương hỗ là một giải pháp được sử dụng trong nhiều nghiên cứu để khắc phục những nhược điểm này.

G.Doquire và M.Verleysen [33], [34] đề xuất mô hình phân lớp đa nhãn theo tiếp cận chuyển đổi bài toán sử dụng phương pháp cắt tỉa PPT theo chiến thuật tìm kiếm tham lam với tiêu chuẩn tìm kiếm là thông tin tương hỗ đa chiều. J. Lee và cộng sự [61] đề xuất một thuật toán lựa chọn đặc trưng đa nhãn sử dụng độ đo thông tin tương hỗ xấp xỉ để đánh giá mối quan hệ giữa tập đặc trưng và tập nhãn.

S. Li và cộng sự [112] đề xuất bộ thuật toán lựa chọn thuộc tính đa nhãn dựa trên độ lợi thông tin để đánh giá mối quan hệ giữa đặc trưng và tập nhãn, sau đó tiến hành lựa chọn các đặc trưng hữu ích dựa trên ngưỡng. Mô hình đề xuất là độc lập

40

với máy phân lớp nên có thể được áp dụng cho nhiều bài toán.

Trong luận án của mình [111], S. Jungjit đã đề xuất một số phương pháp lựa chọn đặc trưng cho phân lớp đa nhãn dựa trên mối quan hệ tương quan, trong đó tập trung vào các phương pháp tìm kiếm tập con đặc trưng phù hợp bao gồm kỹ thuật tìm kiếm leo đồi (hill-climbing search), kỹ thuật khai thác tri thức di truyền sử dụng tìm kiếm leo đồi và kỹ thuật tìm kiếm sử dụng giải thuật di truyền (Genetic Algorithms), đồng thời kết hợp với hai bộ phân lớp đa nhãn kinh điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn trên mạng Nơron lan truyền ngược (BPMLL).

Gần đây, L.Jian và cộng sự [78] đã đề xuất một tiếp cận lựa chọn đặc trưng đa nhãn MIFS (Multi-label Informed Feature Selection) với hai đóng góp chính là sử dụng các ngữ nghĩa ẩn của đa nhãn để định hướng pha lựa chọn đặc trưng bằng cách ánh xạ không gian nhãn vào không gian rút gọn có chiều thấp hơn rồi sử dụng không gian rút gọn này thay vì sử dụng không gian nhãn ban đầu để điều chỉnh quá trình lựa chọn đặc trưng và khai thác mối quan hệ nhãn trong không gian nhãn để chọn các đặc trưng tiêu biểu chung cho các nhãn. J.Li và H.Liu [62] đã khái quát một số thách thức trong lựa chọn đặc trưng đối với dữ liệu lớn và cung cấp một kho mã nguồn mở (scikit-feature) các thuật toán lựa chọn đặc trưng phổ biến như nhóm thuật toán lựa chọn đặc trưng có giám sát và không giám sát dựa trên lý thuyết thông tin, nhóm thuật toán dựa trên thống kê, nhóm thuật toán lựa chọn đặc trưng luồng, đặc trưng có cấu trúc,… nhằm thúc đẩy các nghiên cứu về lựa chọn đặc trưng. Kho mã nguồn mở này được K.Cheng và cộng sự [75] phát triển thành bộ công cụ FeatureMiner với mục đích giúp việc sử dụng các thuật toán lựa chọn đặc trưng dễ dàng hơn.

Xây dựng tập đặc trưng riêng cho từng nhãn hoặc tập con nhãn là một hướng mới trong bài toán giảm chiều đặc trưng [54], [59], [83]. Theo xu thế đó, luận án tiến hành các nghiên cứu xây dựng tập đặc trưng riêng cho từng nhãn / tập con nhãn nhằm tìm kiếm tập con đặc trưng tối ưu nhất và nâng cao hiệu quả phân lớp tại công trình [PTNgan5, PTNgan6].

41