A. Salami và cộng sự [23] đề xuất mạng EEG-ITNet, một mô hình CNN nhỏ gọn sử dụng mạng tích chập đa nhánh (Inception) và mạng tích chập giãn nở một chiều (Dilated Causal Convolution). Phép toán tích chập giãn nở là nền tảng của các mô hình tích chập theo thời gian - Temporal Convolutional Network (TCN), mô hình được ứng dụng phổ biến trong các bài toán về xử lý dữ liệu theo thời gian. TCN đã được áp dụng trong các nghiên cứu trước đây về phân loại tín hiệu EEG và có được một số kết quả nhất định.
(a) Khối Inception
(b) Khối Temporal Convolution Network (TCN)
(c) Khối Dimension Reduction (DR) (d) Khối Classification
Hình 3.5: Kiến trúc mạng EEG-ITNet [23]
Kiến trúc của EEG-ITNet (hình 3.5) bao gồm bốn khối chính. Ở khối đầu tiên (Inception block), EEG-ITNet sử dụng ba nhánh tích chập song song, mỗi nhánh bao gồm một lớp tích chập theo chiều thời gian (kích thước ma trận nhân là 1∗ Fi), hoạt động như bộ lọc tần số và một lớp tích chập tách biệt theo chiều sâu (kích thước ma trận nhân làN ∗1), hoạt động như bộ lọc theo không gian, tương tự như mạng EEGNet.
Kích thuớc ma trận nhân thường được chọn theo tần số lấy mẫu của tín hiệu, vd.K1 = s.f req/8, K2=s.f req/4vàK3 =s.f req/2. Việc sử dụng ba nhánh có kích thước ma trận nhân khác nhau sẽ loại bỏ hạn chế khi kích thước này là cố định, giúp mô hình có thể học được đặc trưng trên nhiều dải tần số hơn. Kích thước ma trận nhân của các lớp tích chập càng lớn, mô hình sẽ học được đặc trưng ở dải tần số thấp hơn của tín hiệu và ngược
lại. Ở khối thứ hai (TC block), mạng TCN được sử dụng để tách các đặc trưng có tính phân biệt trên miền thời gian với tín hiệu sau khi được phân tách bởi Inception block.
TCN bao gồm các khối tích chập phần dư (Residual block), mỗi khối có các lớp tích chập giãn một chiều biệt theo chiều sâu (Depthwise Causal Convolution), trích rút các đặc trưng độc lập theo từng nguồn của tín hiệu. Kích thước vùng tiếp nhận (Receptive field) của các khối tích chập sẽ tăng dần (độ giãn sẽ tăng dần theo lũy thừa của2). Các đặc trưng trên nhiều dải tần số sẽ được kết hợp vói nhau bằng lớp tích chập1×1ở khối thứ ba (DR block) của mạng EEG-ITNet. Ở khối cuối cùng (Classification block), EEG- ITNet sử dụng một lớp tuyến tính và hàm Softmax để tính xác suất mỗi nhãn dữ liệu.
Tương tự như mạng EEGNet, EEG-ITNet cũng sử dụng lớp chuẩn hóa đặc trưng (Batch Normalization) (khác với TCN sử dụngWeight Normalization), hàm kích hoạtELU, lớp tổng hợp trung bình (Average Pooling), kỹ thuật chính quy hóa (Dropout) và ràng buộc về chuẩn tối đa (||wdepthwise||2<1).
Với thực nghiệm trên bộ dữ liệu BCI competition IV - 2a về tác vụ tưởng tượng ảnh vận động (bảng 3.1), [23] cho thấy mô hình EEG-ITNet có độ chính xác trung bình cao nhất theo cả ba tiêu chí đánh giá so với các mô hình CNN trước đây, bao gồm EEGNet.
Bảng 3.1: Độ chính xác trung bình các mô hình CNN trên bộ dữ liệu BCI competition IV - 2a [23]
Mô hình Trên từng đối tượng Trên toàn bộ đối tượng Trên toàn bộ đối tượng và tinh chỉnh theo từng đối tượng
EEG-Inception 0.7350 0.6354 0.7504
EEG-TCNet 0.7454 0.6512 0.7581
EEGNet 8,2 0.7369 0.6404 0.7392
EEG-ITNet 0.7674 0.6944 0.7874
CHƯƠNG 4
Thực nghiệm
Chương này trình bày các thông số đánh giá mô hình phân loại, thực nghiệm và kết quả thu được của luận văn khi thực nghiệm trên hai bộ dữ liệu tín hiệu điện não về tác vụ tưởng tượng ảnh vận động bao gồm: Physionet Motor Movement/Imagery và HMI EEG-ET.
1 Thông số đánh giá mô hình phân loại
Tương tự như nhiều bài toán phân loại phổ biến khác, các mô hình phân loại tín hiệu điện não EEG thường được đánh giá trên bốn thông số chính: Accuracy/Balanced Accuracy, Cohen’s Kappa và F1-Score.
Bảng 4.1: Ma trận lỗi (Confusion matrix) cho phân lớp nhị phân Prediction
Positive Negative Ground truth Positive True Positive (TP) False Negative (FN)
Negative False Positive (FP) True Negative (TN)
Precision: là tỉ lệ giữa số dự đoán chính xác so với số lượng các dự đoán thuộc cùng nhãn. Precision phản ánh khả năng tin cậy của mô hình khi dự đoán một mẫu thuộc về nhãn được xem xét.
P recision= T P
T P +F P (4.1)
Recall: là tỉ lệ giữa số dự đoán chính xác so với số lượng thực sự của dữ liệu có cùng nhãn (ground truth). Recall đánh giá độ chính xác của dự đoán với nhãn được xem xét.
Recall = T P
T P +F N (4.2)
Accuracy: là độ chính xác dự đoán của mô hình trên toàn bộ tập dữ liệu.
Accuracy = T P +T N
T P +F P +T N +F N = T P +T N
N (4.3)
Balanced Accuracy (BAC): là độ chính xác dự đoán của mô hình trên toàn bộ tập dữ liệu khi phân bố dữ liệu không cân bằng giữa các nhãn. Trong phân loại tín hiệu EEG, phân bố số lượng giữa các nhãn thường không đồng đều (vd. phân biệt trạng thái nghỉ ngơi “rest” so với các trạng thái khác trong các bộ dữ liệu về MI).
BAC = 1
2( T P
T P +F N + T N
T N +F P) (4.4)
Tổng quát trong phân loạiK nhãn,BAC là giá trị trung bình củarecall tương ứng với mỗi nhãn.
BAC = 1 K
K
X
i=1
recalli (4.5)
Cohen’s Kappa: được xây dựng để đánh giá sự phù hợp, đồng thuận giữa nhãn thực sự của dữ liệu (ground truth) và nhãn dự đoán của mô hình (prediction).Kappa có giá trị trong khoảng[−1,1], giá trị Kappa càng gần 1, mức độ đồng thuận càng cao và ngược lại,Kappacó giá trị bằng 0 tương đương với các lựa chọn ngẫu nhiên.
Kappa = Po−Pe
1−Pe (4.6)
trong đó,
Polà giá trị đồng thuận quan sát được (độ chính xác dự đoán của mô hình).
Pe là tổng xác suất giả định của khả năng đồng thuận theo từng nhãn.
Pe =PP ositive+PN egative
= T P +F N
N ∗T P +F P
N +T N +F P
N ∗ T N+F N N
(4.7)
F1-Score: là trung bình điều hòa của precisionvàrecall, thường được sử dụng để đánh giá mô hình khi phân bố nhãn của dữ liệu không cân bằng.
F1 = 2∗ precision∗recall
precision+recall (4.8)