Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN
1.2. Giới thiệu chung về phân lớp đa nhãn
1.2.3. Đánh giá phân lớp đa nhãn
Trong bài toán học máy truyền thống, hiệu quả của hệ thống học được đánh giá thông qua các độ đo thông thường như độ chính xác (accuracy), độ hồi tưởng (recall), độ đo hài hoà F-measure,… Tuy nhiên, việc đánh giá hiệu quả thực thi trong học đa nhãn phức tạp hơn nhiều so với học đơn nhãn truyền thống vì mỗi một mẫu có thể đồng thời thuộc về nhiều lớp. Do đó, một số độ đo đánh giá hiệu quả của hệ thống học đa nhãn được đề xuất.
Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84]
M.L Zhang và Z.H Zhou [84] chia các độ đo thành hai nhóm là độ do dựa trên mẫu và độ đo dựa trên nhãn. Độ đo dựa trên mẫu thực hiện bằng cách đánh giá
32
sự thực thi của hệ thống học trên mỗi mẫu kiểm tra riêng biệt, sau đó trả về giá trị trung bình của tập kiểm tra. Khác với độ đo dựa trên mẫu, độ do dựa trên nhãn thực hiện bằng cách đánh giá sự thực thi của hệ thống trên mỗi nhãn riêng biệt, sau đó trả về giá trị trung bình macro/micro của tất các các nhãn lớp.
Hình 1.15 thể hiện tóm tắt các độ đo đánh giá học đa nhãn trên hai ứng dụng chính là phân lớp và xếp hạng đa nhãn.
1.2.3.1. Các độ đo dựa trên mẫu - Độ chính xác tập con:
( ) ∑⟦ ( ) ⟧
(1.22) Độ chính xác tập con đánh giá sự phân chia của các mẫu được phân lớp chính xác, ví dụ tập nhãn được dự đoán là đồng nhất với tập nhãn đúng.
- Hamming Loss
( ) ∑ ( )
(1.23) Trong đó, là sự khác nhau giữa 2 tập dữ liệu. Chỉ số hamming loss đánh giá tỷ lệ cặp thể hiện-nhãn bị phân lớp sai, ví dụ một nhãn liên quan bị bỏ qua hoặc gán nhãn không liên quan. Khi mỗi mẫu trong chỉ liên quan đến một nhãn, ( ) bằng lần về tỷ lệ phân lớp nhầm theo phương pháp truyền thống.
- , ( ) ∑ ( )
( )
(1.24)
( ) ∑ ( ) ( )
(1.25)
( ) ∑ ( )
(1.26)
33
( ) ( ) ( ) ( )
( ) ( ) (1.27) Ngoài ra, là một phiên bản tích hợp của ( ) ( ) với nhân tố cân bằng . Lựa chọn phổ biến nhất là dẫn đến trung bình điều hòa của độ đo precision và recall.
Khi hàm giá trị thực trung gian ( ) đã xác định, bốn độ đo xếp hạng dựa trên nhãn có thể được định nghĩa như sau:
- One-error
( ) ∑⟦[ ( )] ⟧
(1.28) One-error đánh giá số lần nhãn được xếp hạng cao nhất không nằm trong tập nhãn có thể. Do đó, nếu mục tiêu của hệ thống đa lớp là gán một nhãn đơn cho một tài liệu, độ đo one-error sẽ đếm số lần nhãn được dự đoán không nằm trong Y.
Trong phân lớp đơn nhãn, độ đo one-error tương ứng với độ đo lỗi thông thường.
- Coverage:
( ) ∑ ( )
(1.29) Trong khi độ đo one-error đánh giá thực thi của một hệ thống đối với nhãn được xếp hạng đầu, mục tiêu của độ đo coverage là xác định độ đo của một hệ thống đối với tất cả các nhãn có thể của tài liệu. Coverage được định nghĩa như khoảng cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm.
Đối với phân lớp đơn nhãn, coverage là thứ hạng trung bình của nhãn đúng và coverage nhận giá trị zero nếu hệ thống không xuất hiện lỗi phân lớp nào.
- Ranking Loss: Tính phân bố trung bình của các cặp nhãn.
( ) ∑
̅
*( ) ( ) ( ) ( ) ̅+| (1.30) - Average Precision
34 ( ) ∑
∑|{ ( ) ( ) }|
( )
(1.31) Độ đo Average Precision đánh giá thành phần trung bình của các nhãn liên quan được xếp hạng cao hơn một nhãn cụ thể .
Các độ đo, one-error, coverage và ranking loss, giá trị càng thấp thì thực thi của hệ thống càng tốt, với giá trị tối ưu của ∑ cho coverage và 0 cho one-error và ranking loss. Đối với độ đo đa nhãn dựa trên mẫu khác, giá trị đo càng lớn, thì hệ thống thực thi càng tốt, và giá trị tối ưu là 1.
1.2.3.2. Các độ đo dựa trên nhãn
Đối với một nhãn thứ j ( ), bốn đại lượng cơ bản đặc trưng cho thực thi phân lớp nhị phân trên nhãn này có thể được định nghĩa dựa trên hàm phân lớp ( ) như sau theo khảo sát của F. Sebastiani [31]:
Nhãn Dữ liệu thực
Có nhãn Không có nhãn
Dự đoán Có nhãn TPj TNj
Không có nhãn FPj FNj
Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán
Trong đó:
TPj (True Positives): số lượng ví dụ dương được thuật toán gán đúng nhãn TNj (True Negatives): số lượng ví dụ dương được thuật toán gán sai vào nhãn FPj (False Positives): số lượng ví dụ âm được thuật toán gán sai vào nhãn FNj (False Negatives): số lượng ví dụ âm được thuật toán gán sai vào nhãn
|{ ( ) }|
|{ ( ) }|
|{ ( ) }|
|{ ( ) }|
Theo định nghĩa trên, + .
35
Dựa trên bốn đại lượng, hầu hết các độ do phân lớp đa nhãn nhị phân có thể nhận được. Cho ( ) là độ đo phân lớp nhị phân cụ thể ( ), độ đo phân lớp dựa trên nhãn có thể đạt được theo mô hình sau:
- Độ trung bình thô ( Macro-averaging):
( ) ∑ ( )
(1.32) - Độ trung bình mịn (Micro-averaging)
( ) (∑
∑
∑
∑
) (1.33)
Trong đó:
( )
(1.34) ( )
(1.35)
( )
(1.36)
( ) ( )
( ) (1.37) Theo công thức tính, độ trung bình thô và độ trung bình mịn giả thiết “trọng số bằng nhau” lần lượt cho các nhãn và các mẫu. Dễ dàng chỉ ra rằng ( ) ( ) và ( ) ( ) .
Khi hàm giá trị thực trung gian ( ) đã xác định, độ đo xếp hạng dựa trên nhãn có thể được tính như sau:
∑
∑ |{( ) ( ) ( ) ( ) ̅}|
| || ̅|
(1.38)
Trong đó, * +, ̅ * + tương
36
ứng với tập thể hiện kiểm tra với nhãn và tập thể hiện kiểm tra không có nhãn . Tương tự, giá trị độ trung bình mịn được xác định như sau:
*( ) ( ) ( ,y") ( ) ( ,y") +
(1.39) Trong đó, *( ) +, *( ) + là tập các cặp thể hiện-nhãn liên quan và tập các cặp thể hiện-nhãn không liên quan.
Đối với các độ đo đa nhãn dựa trên nhãn, giá trị độ đo càng lớn thể hiện thực thi của hệ thống càng tốt, với giá trị tối ưu là 1.