• Tidak ada hasil yang ditemukan

PHÂN LOẠI TÍN HIỆU ĐIỆN NÃO DỰA TRÊN HỌC SÂU HƯỚNG ĐẾN XÂY DỰNG HỆ THỐNG ĐÁNH VẦN BẰNG MẮT

N/A
N/A
Protected

Academic year: 2024

Membagikan "PHÂN LOẠI TÍN HIỆU ĐIỆN NÃO DỰA TRÊN HỌC SÂU HƯỚNG ĐẾN XÂY DỰNG HỆ THỐNG ĐÁNH VẦN BẰNG MẮT"

Copied!
54
0
0

Teks penuh

(1)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN XUÂN ĐẠT

PHÂN LOẠI TÍN HIỆU ĐIỆN NÃO

DỰA TRÊN HỌC SÂU HƯỚNG ĐẾN XÂY DỰNG HỆ THỐNG ĐÁNH VẦN BẰNG MẮT

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

HÀ NỘI - 2022

(2)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN XUÂN ĐẠT

PHÂN LOẠI TÍN HIỆU ĐIỆN NÃO

DỰA TRÊN HỌC SÂU HƯỚNG ĐẾN XÂY DỰNG HỆ THỐNG ĐÁNH VẦN BẰNG MẮT

Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 8480101.01

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Lê Thanh Hà TS. Tạ Việt Cường

HÀ NỘI - 2022

(3)

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành đến PGS.TS. Lê Thanh Hà, TS. Tạ Việt Cường và Phòng thí nghiệm Tương tác người - máy (HMI Laboratory), Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội đã hướng dẫn và giúp đỡ tôi trong suốt quá trình học tập, cũng như quá trình nghiên cứu, thực hiện luận văn này.

Ngoài ra, tôi cũng xin gửi lời cảm ơn chân thành đến TS. Nguyễn Thế Hoàng Anh, Viện Khoa học và Công nghệ Việt Nam - Hàn Quốc (VKIST) đã hướng dẫn, có những góp ý và chỉnh sửa quan trọng về các vấn đề được đề cập và giải quyết trong quá trình nghiên cứu, thực hiện luận văn.

(4)

LỜI CAM KẾT

Tôi xin cam đoan rằng luận văn này,"Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt"do chính bản thân thực hiện dưới sự hướng dẫn của PGS.TS. Lê Thanh Hà và TS. Tạ Việt Cường.

Tất cả tài liệu tham khảo, trích dẫn của các nghiên cứu liên quan, bảng biểu, hình ảnh được trình bày trong luận văn có nguồn gốc và được chú thích rõ ràng trong mô tả và phần Tài liệu tham khảo của luận văn.

Tôi xin chịu toàn bộ trách nhiệm trước hội đồng và nhà trường về cam kết của mình.

Hà Nội, ngày 31 tháng 08 năm 2022 Học viên

Trần Xuân Đạt

(5)

TÓM TẮT

Các hệ thống giao diện não - máy tính sử dụng tín hiệu điện não có thể phân biệt các hoạt động nhận thức khác nhau của con người, sử dụng điều khiển các thiết bị ngoại vi. Các hệ thống này có vai trò quan trọng đối với những người bị tổn thương chức năng vận động hay mắc chứng xơ cứng teo cơ một bên, giúp họ phục hồi và cải thiện khả năng giao tiếp. Hệ thống đánh vần kết hợp sử dụng tín hiệu điện não và theo dõi ánh mắt là một hệ thống giao tiếp có tiềm năng rất lớn cho những người bị tổn thương chức năng vận động, khi có thể mở rộng và nâng cao tính hiệu quả của hệ thống đánh vần bằng mắt bằng cách sử dụng tín hiệu điện não.

Tưởng tượng ảnh vận động (MI) là một trong những mô hình tín hiệu điện não được sử dụng phổ biến trong các hệ thống giao diện não - máy tính. So với các mô hình khác của tín hiệu điện não, MI được con người thực hiện một cách chủ động nên có khả năng phát triển độc lập và kết hợp cao hơn với mô hình theo dõi ánh mắt trong hệ thống đánh vần, phù hợp với điều kiện sử dụng thực tế.

Luận văn thực nghiệm và so sánh khả năng phân loại các trạng thái khác nhau của tín hiệu điện não bằng phương pháp căn chỉnh dữ liệu của tín hiệu điện não và sử dụng mô hình học sâu (mạng nơ-ron tích chập). Luận văn thử nghiệm phương pháp trên hai bộ dữ liệu về tín hiệu điện não cho tác vụ tưởng tượng ảnh vận động. Với bộ dữ liệu HMI EEG-ET được xây dựng phục vụ phát triển hệ thống đánh vần bằng mắt cho những người tổn thương chức năng vận động với hạn chế về dữ liệu cho mỗi đối tượng, luận văn thử nghiệm mô hình phân loại cho các bệnh nhân bị chứng xơ cứng teo cơ một bên và so sánh kết quả với những đối tượng khỏe mạnh khác.

Từ khóa: Hệ thống giao diện não - máy tính (BCI), Electroencephalography (EEG), Tưởng tượng ảnh vận động (MI), Căn chỉnh dữ liệu tín hiệu EEG, Mạng nơ-ron tích chập (CNN)

(6)

MỤC LỤC

TÓM TẮT

i

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

iv

DANH MỤC CÁC BẢNG

v

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

vi

1 Tổng quan 1

1 Đặt vấn đề . . . 1

2 Định nghĩa bài toán và hướng tiếp cận . . . 2

3 Đóng góp của luận văn . . . 3

4 Cấu trúc của luận văn . . . 3

2 Tín hiệu điện não 5

1 Giao diện não - máy tính . . . 5

2 Điện não đồ không xâm lấn . . . 6

3 Tưởng tượng ảnh vận động . . . 10

4 Các nghiên cứu liên quan về phân loại tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động . . . 12

3 Phân loại tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động sử dụng mô hình học sâu 16

1 Quy trình phân loại tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động sử dụng mô hình học sâu . . . 16

2 Căn chỉnh dữ liệu tín hiệu điện não . . . 18

2.1 Căn chỉnh tín hiệu theo phiên thu, đối tượng . . . 18

2.2 Căn chỉnh tín hiệu theo nhãn . . . 19

3 Mô hình học sâu trong phân loại tín hiệu điện não . . . 21

3.1 EEGNet . . . 21

3.2 EEG-ITNet . . . 22

4 Thực nghiệm 25

1 Thông số đánh giá mô hình phân loại . . . 25
(7)

2 Bộ dữ liệu Physionet Motor Movement/Imagery . . . 27

2.1 Giới thiệu . . . 27

2.2 Phương pháp đánh giá . . . 27

2.3 Kết quả thực nghiệm . . . 28

3 Bộ dữ liệu HMI EEG-ET . . . 30

3.1 Giới thiệu . . . 30

3.2 Phương pháp đánh giá . . . 31

3.3 Kết quả thực nghiệm . . . 33

5 Kết luận 39

1 Kết luận . . . 39

2 Hướng phát triển trong tương lai . . . 40

TÀI LIỆU THAM KHẢO

41

(8)

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Amyotrophic Lateral Sclerosis (ALS) Bệnh nhân xơ cứng teo cơ một bên Balanced Accuracy (BAC) Độ chính xác sau cân bằng

Band Power (BP) Năng lượng trung bình của phổ tần số Brain-Computer Interface (BCI) Giao diện não - máy tính

Common Spatial Patterns (CSP) Các mẫu không gian chung Convolutional Neural Network (CNN) Mạng nơ-ron tích chập

Electroencephalography (EEG) Tín hiệu điện não không xâm lấn

Euclidean Alignment (EA) Căn chỉnh dữ liệu theo phiên thu/đối tượng

Event-related synchronization (ERS) Đồng bộ năng lượng phổ tần số theo sự kiện vận động/tưởng tượng vận động Event-related desynchronization (ERD) Bất đồng bộ năng lượng phổ tần số theo

sự kiện vận động/tưởng tượng vận động Label Alignment (LA) Căn chỉnh dữ liệu theo nhãn

Motor Imagery (MI) Tưởng tượng ảnh vận động

Riemannian Manifold (RM) Không gian của ma trận đối xứng xác định dương

Temporal Convolutional Network (TCN) Mạng nơ-ron tích chập theo thời gian

(9)

DANH MỤC CÁC BẢNG

Bảng 2.1. Các nhịp sóng chính của tín hiệu EEG . . . 9 Bảng 3.1. Độ chính xác trung bình các mô hình CNN trên bộ dữ liệu BCI

competition IV - 2a [23] . . . 24 Bảng 4.1. Ma trận lỗi (Confusion matrix) cho phân lớp nhị phân . . . 25 Bảng 4.2. Độ chính xác trung bình trên bộ dữ liệu Physionet MMIDB . . . . 29 Bảng 4.3. Kết quả phân loại trung bình trên bộ dữ liệu HMI EEG-ET trong

thực nghiệm Exp0 . . . 33 Bảng 4.4. Kết quả phân loại trung bình của mô hình học sâu với các nhóm

kênh trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp0 . . . . 36 Bảng 4.5. Kết quả phân loại trung bình của mô hình [EA] EEG-ITNet trên

bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp1 . . . 36 Bảng 4.6. Kết quả phân loại trung bình của mô hình [LA,EA] EEG-ITNet

trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp2 . . . 37 Bảng 4.7. Kết quả phân loại trung bình của mô hình [EA] CSP-BP-SVM

trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp2-ALS . . . . 37 Bảng 4.8. Kết quả phân loại trung bình của mô hình [EA] CSP-BP-SVM

trên bộ dữ liệu HMI EEG-ET giữa đối tượng khỏe mạnh và bệnh nhân ALS (theo phiên thu) . . . 38

(10)

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Hệ thống nhập liệu sử dụng tín hiệu điện não (thực hiện / tưởng

tượng ảnh vận động) và theo dõi ánh mắt [1] . . . 2

Hình 2.1. Tổng quan hệ thống BCI [Nguồn: how2electronics] . . . 6

Hình 2.2. Tín hiệu điện não EEG . . . 7

Hình 2.3. Vị trí các thùy trên vỏ não [1] . . . 8

Hình 2.4. Vị trí đặt các điện cực theo chuẩnStandard 10-10[Nguồn: Wikipedia] 8 Hình 2.5. Vị trí các vùng trên vỏ não vận động [3] . . . 11

Hình 2.6. ERD và ERS của nhịp sóng Mu (Alpha) và Beta tại hai điện cực C3 và C4 [5] . . . 12

Hình 2.7. Biểu diễn không gian Riemannian Manifold (RM) của ma trận đối xứng xác định dương (SPD) [12] . . . 13

Hình 3.1. Phân tách tín hiệu EEG [Nguồn: braindecode] . . . 17

Hình 3.2. Quy trình phân loại tín hiệu điện não sử dụng mô hình học sâu (CNN) . . . 17

Hình 3.3. Phương pháp căn chỉnh dữ liệu EA - LA với tín hiệu EEG [18] . . 21

Hình 3.4. Kiến trúc mạng EEGNet [14] . . . 22

Hình 3.5. Kiến trúc mạng EEG-ITNet [23] . . . 23

Hình 4.1. Mô hình thực nghiệm của bộ dữ liệu Physionet MMIDB [20] . . . 27

Hình 4.2. Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu Physionet MMIDB [15] . . . 28

Hình 4.3. Biểu diễn tín hiệu EEG của các đối tượng trên không gian Rie- mannian Manifold của bộ dữ liệu Physionet MMIDB (tSNE) . . . 29

Hình 4.4. Ma trận lỗi trung bình của mô hình [EA] EEG-ITNet trên bộ dữ liệu Physionet MMIDB . . . 30

Hình 4.5. Quy trình thu dữ liệu một kịch bản trong phiên thu của bộ dữ liệu HMI EEG-ET . . . 31

Hình 4.6. Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu HMI EEG- ET trong thực nghiệm Exp0 . . . 32

Hình 4.7. Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu HMI EEG- ET trong thực nghiệm Exp1 . . . 32

(11)

Hình 4.8. Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu HMI EEG-

ET trong thực nghiệm Exp2 . . . 32

Hình 4.9. Ma trận lỗi trung bình của mô hình [EA] EEG-ITNet trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp0 . . . 34

Hình 4.10. Các mẫu không gian của tín hiệu EEG được học từ mô hình [EA] EEG-ITNet . . . 34

Hình 4.11. Mật độ phổ năng lượng của tín hiệu EEG (8 - 30Hz) . . . 35

Hình 4.12. Vị trí các nhóm điện cực của bộ dữ liệu HMI EEG-ET . . . 35

Hình 4.13. So sánh kết quả thực nghiệm Exp1, Exp2 và Exp2-ALS . . . 37

(12)

CHƯƠNG 1

Tổng quan

1 Đặt vấn đề

Khả năng giao tiếp, truyền đạt ý nghĩ của con người bằng hành động hay ngôn ngữ phụ thuộc rất nhiều vào khả năng kiểm soát và hoạt động của cơ bắp trong cơ thể. Con người cần sử dụng các cơ bắp này để nói chuyện hoặc thực hiện các hành vi giao tiếp.

Những người bị tổn thương chức năng vận động hay những bệnh nhân mắc chứng xơ cứng teo cơ một bên (ALS) gặp khó khăn hoặc mất khả năng vận động của các cơ, điều này khiến cho quá trình giao tiếp của họ gặp các vấn đề lớn. Bệnh nhân ALS dần dần mất khả năng kiểm soát các cơ do sự suy giảm các tế bào thần kinh vận động trung ương và ngoại vi, dẫn đến họ có thể mất khả năng nói. Những người này cần một hệ thống bên ngoài hỗ trợ khả năng giao tiếp. Các hệ thống giao diện não - máy tính, cụ thể là các hệ thống đánh vần là một giải pháp khả thi khi sử dụng tín hiệu điện não để thực hiện các hành động thay cho chuyển động của các cơ. Các hệ thống hỗ trợ giao tiếp này cải thiện đáng kể chất lượng cuộc sống của những bệnh nhân bị tổn thương khả năng vận động.

Các hệ thống giao diện não - máy tính cho đánh vần sử dụng tín hiệu điện não thường có tốc độ nhập liệu chậm hơn so với các hệ thống đánh vần sử dụng phương pháp theo dõi ánh mắt (Eye-tracking). Tuy nhiên, các hệ thống này phụ thuộc vào khả năng chuyển động của mắt, chúng thường kém hiệu quả khi người sử dụng suy giảm khả năng thị lực. Các hệ thống đánh vần gần đây thường kết hợp tín hiệu điện não và theo dõi ánh mắt để xây dựng một hệ thống giao diện não - máy tính lai (Hybrid BCI) để cải thiện tốc độ cũng như độ chính xác của hệ thống. Hình 1.1 minh họa hệ thống giao diện não - máy tính lai phục vụ mục đích nhập liệu (đánh vần).

Với mong muốn cải thiện hiệu quả của hệ thống giao diện não - máy tính (BCI) cho đánh vần sử dụng theo dõi ánh mắt hiện có, luận văn nghiên cứu các phương pháp và xây dựng mô hình phân loại tín hiệu điện não dựa trên mô hình học sâu (mạng nơ-ron tích chập) để có thể kết hợp với hệ thống đánh vần bằng mắt đã có trong tương lai. Luận văn đánh giá kết quả của mô hình phân loại trên dữ liệu từ các đối tượng khỏe mạnh và

(13)

bệnh nhân ALS, cũng như khả năng sử dụng dữ liệu từ các phiên thu, đối tượng khác (bằng cách áp dụng các phương pháp căn chỉnh dữ liệu) để phân biệt tín hiệu điện não khi dữ liệu của mỗi đối tượng hạn chế, đặc biệt với các bệnh nhân ALS.

Hình 1.1: Hệ thống nhập liệu sử dụng tín hiệu điện não (thực hiện / tưởng tượng ảnh vận động) và theo dõi ánh mắt [1]

2 Định nghĩa bài toán và hướng tiếp cận

Phân loại tín hiệu điện não là một trong những bài toán điển hình của nghiên cứu về khoa học thần kinh. Phân loại tín hiệu điện não cho phép tìm kiếm các đặc trưng của não bộ trong những trạng thái nhất định, cũng như xây dựng các hệ thống giao diện não - máy tính.

Với các hệ thống giao diện não - máy tính, cụ thể là các hệ thống đánh vần, ba mô hình của tín hiệu điện não được sử dụng phổ biến bao gồm: kích thích tiềm năng liên quan đến sự kiện (khoảng 300ms), phản hồi tự nhiên trước các kích thích thị giác tại các tần số nhất định và tưởng tượng ảnh vận động. Các mô hình này có thể được phân biệt với nhau bởi các đặc trưng cần được trích rút và mô hình phân loại tương ứng. Luận văn tập trung vào việc phân loại tín hiệu điện não EEG trong tác vụ tưởng tượng ảnh vận động. Các đối tượng sử dụng có thể tưởng tượng quá trình thực hiện vận động tự nguyện, chủ động, không phụ thuộc vào các kích thích từ bên ngoài như các kích thích về thị giác so với hai mô hình còn lại (não bộ phản hồi lại các kích thích này). Do đó, mô hình này có tiềm năng rất lớn trong việc xây dựng hệ thống đánh vần kết hợp với hệ thống theo dõi ánh mắt đã có từ trước.

Với sự phát triển nhanh chóng của các mô hình học sâu, các nghiên cứu gần đây về khoa học thần kinh cũng tập trung áp dụng các mô hình này bên cạnh các mô hình học

(14)

máy truyền thống và đạt được những kết quả nhất định. Khác với các mô hình học máy truyền thống, các mô hình học sâu không bị phụ thuộc vào đặc trưng của từng loại mô hình tín hiệu điện não, tổng quát cho nhiều bài toán khác nhau.

Như vậy, luận văn giải quyết bài toán phân loại các đoạn tín hiệu điện não liên tục theo thời gian sử dụng mô hình học sâu, cụ thể là mạng nơ-ron tích chập và đánh giá kết quả trên hai bộ dữ liệu về tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động với các nhãn là các chuyển động của từng bộ phận cơ thể như tay trái, tay phải, hai chân, . . .

- Đầu vào: Các đoạn tín hiệu điện nãoxi RN xT, vớiN là số kênh,T là độ dài của tín hiệu theo thời gian.

- Đầu ra: Nhãn của các đoạn tín hiệu điện não trong tác vụ tưởng tượng ảnh vận độngyi {nghỉ, hai chân trái/phải, tay trái, tay phải, . . . }.

3 Đóng góp của luận văn

Luận văn tập trung vào thực nghiệm các phương pháp phân loại tín hiệu điện não bằng các mô hình học sâu đã được đề xuất trước đó cho tác vụ tưởng tượng ảnh vận động. Luận văn đánh giá phương pháp căn chỉnh dữ liệu và mô hình học sâu trên hai bộ dữ liệu về tác vụ tưởng tượng ảnh vận động: Physionet Motor Movement/Imagery [2]

và HMI EEG-ET, trong đó HMI EEG-ET là bộ dữ liệu hoàn toàn mới của Phòng thí nghiệm Tương tác người - máy (HMI), Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội. Bộ dữ liệu HMI EEG-ET gồm hơn 100 đối tượng khỏe mạnh và bệnh nhân ALS (tiếp tục mở rộng), được xây dựng với mục tiêu phát triển hệ thống đánh vần kết hợp tín hiệu điện não và theo dõi ánh mắt. Luận văn đánh giá khả năng xây dựng phương pháp phân loại tín hiệu điện não sử dụng mô hình học sâu cho bệnh nhân ALS với lượng dữ liệu hạn chế của mỗi đối tượng.

4 Cấu trúc của luận văn

Phần sau của luận văn được chia thành 4 chương bao gồm các nội dung sau:

- Chương 2: Tín hiệu điện não. Chương này trình bày một số lý thuyết, khái niệm cơ bản về tín hiệu điện não, tác vụ tưởng tượng ảnh vận động và các nghiên cứu liên quan đến bài toán phân loại.

- Chương 3: Phân loại tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động sử dụng mô hình học sâu. Chương này trình bày phương pháp phân loại tín hiệu điện não được sử dụng trong luận văn, bao gồm: căn chỉnh tín hiệu điện não và mô hình học sâu - mạng nơ-ron tích chập được sử dụng để phân loại tín hiệu.

(15)

- Chương 4: Thực nghiệm. Chương này trình bày các thông số đánh giá mô hình phân loại, thực nghiệm và kết quả thu được của luận văn khi thực nghiệm trên hai bộ dữ liệu tín hiệu điện não về tác vụ tưởng tượng ảnh vận động bao gồm: Physionet Motor Movement/Imagery và HMI EEG-ET.

- Chương 5: Kết luận. Chương này trình bày các kết luận của luận văn sau khi thực hiện các thực nghiệm, các hạn chế và các hướng phát triển tiếp theo của luận văn trong tương lai.

(16)

CHƯƠNG 2

Tín hiệu điện não

Chương này trình bày một số lý thuyết, khái niệm cơ bản về tín hiệu điện não, tác vụ tưởng tượng ảnh vận động và các nghiên cứu liên quan đến bài toán phân loại tín hiệu điện não.

1 Giao diện não - máy tính

Giao diện não - máy tính hay Brain-Computer Interface (BCI) là hệ thống hoạt động giữa não và máy tính, cho phép con người giao tiếp hoặc điều khiển qua máy tính, các thiết bị điện tử trực tiếp bằng tín hiệu điện não mà không cần thực hiện chuyển động.

Các hệ thống BCI được ứng dụng trong lĩnh vực y tế khi hỗ trợ giao tiếp, điều khiển các thiết bị điện tử, hoặc xe lăn, chi giả, . . . cho những người bị tổn thương chức năng vận động hoặc những bệnh nhân cần phục hồi chức năng sau các tổn thương về não. Ngoài ra, hệ thống BCI còn được áp dụng trong các lĩnh vực khác như trò chơi điện tử, thực tế ảo, . . . (hình 2.1).

(17)

Hình 2.1: Tổng quan hệ thống BCI [Nguồn: how2electronics]

Các hệ thống BCI có thể được phân biệt dựa trên nhiều khía cạnh: cách thu, tiền xử lý dữ liệu, trích chọn đặc trưng hay các bộ phân lớp được sử dụng. Nhìn chung, các hệ thống BCI được chia làm hai loại chính là xâm lấn và không xâm lấn:

- Các hệ thống BCI xâm lấn là các hệ thống mà thiết bị được đặt trực tiếp trong/trên bề mặt của não bộ. Các hệ thống này có thể thu thập và xử lý các tín hiệu chi tiết và có độ chính xác cao. Tuy nhiên, nó cũng đặt ra các rủi ro về sức khỏe khi cần thực hiện phẫu thuật và chi phí lớn, nên chúng thường không phổ biến. Hệ thống BCI xâm lấn phổ biến có thể kể đến điện não đồ xâm lấn(Electrocorticography - ECoG).

- Các hệ thống BCI không xâm lấn là các hệ thống mà thiết bị không cần đặt trực tiếp trên bề mặt của não bộ, được cài đặt nhanh chóng, đơn giản hơn. Các hệ thống này được sử dụng phổ biến cả bên trong và ngoài y tế. Tuy nhiên, các hệ thống không xâm lấn này có độ chính xác kém hơn và không thể thu thập tín hiệu từ các vùng nằm sâu phía trong não. Một số hệ thống BCI không xâm lấn phổ biến như chụp cộng hưởng từ (Functional magnetic resonance imaging - fMRI) hay điện não đồ không xâm lấn (Electroencephalography - EEG).

2 Điện não đồ không xâm lấn

Electroencephalography (EEG) là phương pháp không xâm lấn, được dùng để đo đạc hoạt động của các nhóm tế bào thần kinh cùng hoạt động trong não bộ bằng cách

(18)

ghi lại điện thế tại các điện cực được đặt trên da đầu. Các giá trị điện thế thu được tạo thành một tín hiệu liên tục theo thời gian gọi là sóng não hay tín hiệu điện não. Các giá trị điện thế thường nằm trong khoảng từ−100µV đến+100µV. Tín hiệu EEG có độ chi tiết theo thời gian (temporal resolution) cao nhưng có hạn chế về độ chi tiết theo không gian (spatial resolution) do số lượng điện cực được đặt trên da đầu có hạn. Hình 2.2 mô tả tín hiệu điện não EEG thu được tại một số điện cực được đặt trên da đầu trong các khoảng thời gian nhất định với nhãn tương ứng. Từ đây, tín hiệu điện não trong luận văn được hiểu là tín hiệu EEG.

Hình 2.2: Tín hiệu điện não EEG

Não người được chia thành đại não, tiểu não và thân não. Bề mặt của đại não là vỏ não được chia thành hai bán cầu não trái, phải và bốn thùy chính: thùy trán (frontal lobe), thùy thái dương (temporal lobe), thùy đỉnh (parietal lobe), thùy chẩm (occipital lobe) (hình 2.3). Thùy trán là vùng lớn nhất, chịu trách nhiệm cho các vận động tự nguyện, biểu cảm và một số chức năng như lập kế hoạch, điều phối và kiểm soát. Thùy thái dương chịu trách nhiệm cho các chức năng về âm thanh, ngôn ngữ. Thùy đỉnh thực hiện các nhận thức về cơ thể, không gian và thùy chẩm liên quan đến các chức năng về thị giác [1].

(19)

Hình 2.3: Vị trí các thùy trên vỏ não [1]

Qua các thực nghiệm, vị trí các điện cực được đặt trên vỏ não theo một số mẫu, tiêu chuẩn nhất định. Các vị trí này được lựa chọn dựa trên chức năng của vùng não tương ứng và loại tín hiệu mong muốn thu được trong mỗi thực nghiệm. Một số tiêu chuẩn đặt các điện cực phổ biến bao gồm: Standard 10-20, Standard 10-10 (hình 2.4),Standard 10-05, . . . . Mật độ (số lượng) các điện cực càng cao, độ chi tiết về không gian của tín hiệu EEG càng lớn.

Hình 2.4: Vị trí đặt các điện cực theo chuẩnStandard 10-10[Nguồn: Wikipedia]

(20)

Tín hiệu EEG được biểu diễn qua các dao động quan sát được tại các vị trí nhất định trên vỏ não trong một số dải tần số cụ thể. Các nhịp sóng này có thể mang thông tin về trạng thái hiện tại của não bộ và có thể kiểm soát chúng một cách tự nguyện. Các nhịp sóng chính trong tín hiệu EEG bao gồm:Delta,Theta,Alpha,Mu,BetaGamma.

Bảng 2.1 mô tả khái quát đặc điểm và trạng thái xuất hiện các nhịp sóng chính của tín hiệu EEG.

Bảng 2.1: Các nhịp sóng chính của tín hiệu EEG

Tên Tần số Đặc trưng / Trạng thái

Delta (δ) 0 - 4Hz Sóng chậm và có biên độ lớn nhất, thường được tìm thấy trong trạng thái ngủ sâu ở người trưởng thành, trẻ sơ sinh.

Theta (θ) 4 - 8Hz Xuất hiện khi con người trong trạng thái buồn ngủ hoặc thư giãn sâu.

Alpha (α) 8 - 12Hz

Được tìm thấy chủ yếu ở vùng thị giác phía sau đầu.

Sóng Alpha xuất hiện khi thư giãn và nhắm mắt, suy giảm khi tỉnh táo hay bắt đầu thực hiện các hoạt động nhận thức.

Mu (µ) 8 - 12Hz

Có dải tần số trùng lặp với sóng Alpha, xuất hiện chủ yếu ở vùng vận động trên vỏ não. Sự suy giảm sóng Mu xuất hiện khi một người thực hiện, quan sát hoặc tưởng tượng vận động.

Beta (β) 12 - 30Hz

Sóng xuất hiện phổ biến khi con người đang trong trạng thái thức.

Sóng Beta liên quan đến các hoạt động nhận thức, sự tập trung và bị ảnh hưởng bởi các vận động của cơ thể.

Gamma (γ) > 30Hz Sóng có tần số cao, xuất hiện khi thực hiện chức năng liên kết giác quan, nhận thức cao cấp hoặc vận động nhất định.

Cũng như nhiều phương pháp khác, tín hiệu EEG được ứng dụng phổ biến trong y học để nghiên cứu, chẩn đoán các bệnh về chức năng của não bộ, như bệnh động kinh hoặc rối loạn giấc ngủ. Ngoài ra, tín hiệu EEG được ứng dụng vào trong các hệ thống BCI từ sớm. Tín hiệu EEG có thể được dùng độc lập hoặc kết hợp với các hệ thống BCI khác như theo dõi chuyển động mắt (Eye-Tracker), điện cơ đồ (Electromyography), . . . Một ứng dụng phổ biến sử dụng tín hiệu EEG là các hệ thống đánh vần. Các hệ thống đánh vần sử dụng tín hiệu EEG chủ yếu xoay quanh ba mô hình chính của tín hiệu EEG:

P300, SSVEP và tưởng tượng ảnh vận động (MI). Các hệ thống BCI sử dụng tín hiệu EEG được chia thành hai loại chính:

- Hệ thống BCI đồng bộ: Tín hiệu EEG được tạo ra khi người tham gia phản hồi với tác nhân bên ngoài trong các khoảng thời gian được xác định trước.

(21)

- Hệ thống BCI bất đồng bộ: Tín hiệu EEG được tạo ra khi người tham gia tự do thực hiện các suy nghĩ của mình một cách chủ động (không bị ảnh hưởng bởi tác nhân bên ngoài).

Trong các quá trình thu thập, tiền xử lý và phân loại tín hiệu EEG, tồn tại một số khó khăn nhất định ảnh hưởng đến kết quả cuối cùng của hệ thống. Các khó khăn chính liên quan đến phân loại tín hiệu EEG có thể kể đến:

- Tín hiệu EEG biến đổi liên tục theo thời gian (non-stationary) trong quá trình hoạt động/thay đổi trạng thái của não bộ, khiến cho đặc trưng của tín hiệu giữa các phiên thu của cùng một đối tượng(cross-session)hoặc giữa nhiều đối tượng(cross-subject)là không giống nhau. Ngoài ra, lượng dữ liệu được sử dụng để huấn luyện các mô hình bị hạn chế nên việc xây dựng một mô hình phân loại hoạt động hiệu quả trên toàn bộ phiên thu/đối tượng một cách trực tiếp là khó khăn.

- Tín hiệu EEG thu được chủ yếu từ các nơ-ron nằm gần vỏ não, khiến việc thu thập và phân tích các tín hiệu từ các nơ-ron nằm sâu trong não gặp nhiều khó khăn.

- Tín hiệu EEG bị ảnh hưởng rất nhiều bởi nhiễu (low signal-to-noise ratio). Các giá trị điện thế thu được là trung bình của một nhóm các nơ-ron (số lượng điện cực nhỏ hơn rất nhiều số nơ-ron) và các điện cực này không tiếp xúc trực tiếp với bề mặt não bộ (tiếp xúc qua xương, tóc, . . . ). Điều này dẫn đến tín hiệu EEG thu được bị ảnh hưởng bởi các loại nhiễu khác nhau như nhiễu sinh học như nháy mắt/chuyển động mắt, nhiễu do chuyển động của cơ thể hay các loại nhiễu từ thiết bị hoặc môi trường xảy ra trong quá trình thu dữ liệu.

3 Tưởng tượng ảnh vận động

Tưởng tượng ảnh vận động - Motor Imagery (MI) là hoạt động nhận thức tự nguyện, chủ động mà con người tưởng tượng quá trình thực hiện các vận động (thường là vận động các bộ phận của cơ thể). Một số nghiên cứu trước đây chỉ ra rằng, quá trình tưởng tượng hay thực hiện vận động trực tiếp chia sẻ chung một số cơ chế thần kinh, được quan sát trên vùng vận động của vỏ não.

Vỏ não vận động (motor cortex) nằm ở vùng trung tâm, bao gồm ba vùng chính của thùy trán và xử lý các tín hiệu về vận động (hình 2.5). Các kích thích ở các vị trí trên vỏ não vận động có liên hệ đến chuyển động từ đơn giản đến phức tạp của các bộ phận tương ứng trong cơ thể, ví dụ: tay trái, tay phải, chân, lưỡi, . . . [3].

(22)

Hình 2.5: Vị trí các vùng trên vỏ não vận động [3]

Các nghiên cứu trước đây tập trung vào đặc trưng về không gian và thời gian của nhịp sóng Mu (8 - 12Hz) và Beta (12 - 30Hz) trong quá trình tưởng tượng ảnh vận động các bộ phận cơ thể. Trong các nghiên cứu của Gert Pfurtscheller và cộng sự [4], [5], [6], [7], các đối tượng tham gia thí nghiệm thực hiện tưởng tượng ảnh vận động tay trái, tay phải hoặc chân, lưỡi theo hướng dẫn từ những kích thích thị giác. Các nghiên cứu chỉ ra rằng sự suy giảm năng lượng - Event-related desynchronization (ERD) của nhịp sóng Mu và sự gia tăng năng lượng - Event-related synchronization (ERS) của nhịp sóng Beta tồn tại trong một khoảng thời gian ngắn tại các vị trí trên vỏ não vận động chính (xung quanh ba điện cực C3, Cz và C4) (hình 2.6), được tìm thấy trên hầu hết các đối tượng tham gia thí nghiệm. Các đặc trưng này tương tự như quá trình chuẩn bị thực hiện vận động. Trong tưởng tượng ảnh vận động tay trái hoặc tay phải, ERD của nhịp sóng Mu được tìm thấy tại bán cầu não đối diện, xuất hiện trước thời điểm bắt đầu và phục hồi trong quá trình thực hiện tưởng tượng vận động. Bên cạnh đó, ERS của nhịp sóng Beta xuất hiện trên bán cầu não cùng bên, tồn tại đồng thời với ERD của nhịp sóng Mu.

Ngược lại với tưởng tượng ảnh vận động của tay trái hoặc tay phải, ERD của nhịp sóng Mu với vận động của chân được tìm thấy xung quanh điện cực Cz và có thể tạo ra ERS của nhịp sóng Mu tại vùng vận động tương ứng với tay (xung quanh hai điện cực C3 và C4) một cách đồng thời. Do đó, tại mỗi vùng trên vỏ não vận động của tay, chân có những nhịp sóng Mu hoạt động riêng biệt sẽ suy giảm khi những vùng tương ứng được kích hoạt.

(23)

Hình 2.6: ERD và ERS của nhịp sóng Mu (Alpha) và Beta tại hai điện cực C3 và C4 [5]

4 Các nghiên cứu liên quan về phân loại tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động

Trong các nghiên cứu về phân loại tín hiệu EEG, các mô hình phân loại thường được kết hợp với các phương pháp trích chọn đặc trưng. Tín hiệu EEG được lọc theo miền thời gian và không gian trước khi các đặc trưng được trích rút và sử dụng làm dữ liệu huấn luyện cho các mô hình phân lớp. Các đặc trưng của tín hiệu EEG có thể được biểu diễn theo miền tần số hoặc trực tiếp theo miền thời gian.

Lọc theo miền không gian của tín hiệu EEG là cách được sử dụng để cải thiện chất lượng và giảm ảnh hưởng của nhiễu với tín hiệu. Các phương pháp này tìm kiếm tổ hợp (thường là tuyến tính) các nguồn tín hiệu EEG từ tập hợp các kênh ban đầu. Lọc theo miền không gian có thể thực hiện độc lập hoặc dựa trên dữ liệu. Các phương pháp học không giám sát từ dữ liệu có thể kể đến phân tích thành phần độc lập - Independent Component Analysis (ICA), phân tích thành phần chính - Principle Component Analysis (PCA). Sử dụng các mẫu không gian chung - Common Spatial Patterns (CSP) và các biến thể là những phương pháp học có giám sát từ dữ liệu được sử dụng phổ biến trong các bài toán phân loại. K.K. Ang và cộng sự [8] sử dụng CSP với một bộ các dải tần số (Filter-bank CSP - FBCSP) đạt được giá trịKappatrung bình là 0.569 và 0.600 trên hai bộ dữ liệu về tác vụ hình dung ảnh vận động BCI competition IV - 2a và 2b.

Năng lượng trung bình của phổ tần số là đặc trưng trên miền tần số - Band Power (BP), biểu diễn mức năng lượng của tần số tương ứng trên các kênh của tín hiệu EEG trong một khoảng thời gian xác định. Phương pháp này thường được sử dụng để khai thác các dao động của tín hiệu EEG, cụ thể là sự thay đổi biên độ của các nhịp sóng. Các nghiên cứu [9], [10] đã so sánh các phương pháp khác nhau tính năng lượng của tần số trong bài toán phân loại tưởng tượng ảnh vận động.

A. Barachant và cộng sự [11], [12] đề xuất một phương pháp phân loại tín hiệu

(24)

EEG mới, sử dụng không gian Riemannian Manifold (RM) của các ma trận đối xứng xác định dương (ma trận hiệp phương sai của tín hiệu EEG là ma trận đối xứng xác định dương). Phương pháp này biến đổi trực tiếp các đoạn tín hiệu EEG sang một không gian mới, và xây dựng mô hình phân lớp trên không gian này. Phương pháp giả định rằng năng lượng và phân bố về không gian của các đoạn tín hiệu EEG thuộc cùng một trạng thái là tương tự nhau và có thể được mã hóa bằng ma trận hiệp phương sai của tín hiệu, được biểu diễn bằng các điểm trên không gian RM. Các mô hình phân loại có thể dựa trên độ dài cung ngắn nhất (khoảng cách) giữa các điểm trên không gian đến điểm trung bình hoặc sử dụng một phép chiếu lên cùng một không gian tiếp tuyến. Thử nghiệm trên bộ dữ liệu BCI competition IV - 2a, phương pháp đạt độ chính xác trung bình 0.632 và 0.702 với hai mô hình phân lớp sử dụng khoảng cách ngắn nhất giữa các đoạn tín hiệu và đặc trưng trên không gian tiếp tuyến.

Hình 2.7: Biểu diễn không gian Riemannian Manifold (RM) của ma trận đối xứng xác định dương (SPD) [12]

Hình 2.7 biểu diễn không gian RM của các ma trận đối xứng xác định dương (ma trận hiệp phương sai của các đoạn tín hiệu EEG). Trong đó,C1, C2 RN×N là các điểm biểu diễn của các đoạn tín hiệu EEG,G RN×N là điểm biểu diễn trung bình của các ma trậnCi.δ(C1, G), δ(C2, G)là độ dài cung ngắn nhất (khoảng cách) từ C1, C2 đếnG. ζ1, ζ2 là hình chiếu của C1, C2 trên không gian tiếp tuyếnTGM tại G. Không gianM và không gian tiếp tuyếnTGM đều có số chiều là N (N + 1)/2, với N là số kênh của tín hiệu EEG.

Khoảng cách giữa hai ma trậnC1C2được định nghĩa theo công thức

δ(C1, C2) =||Log(C1−1C2)||F = (

N

X

i=1

log2λi)12 (2.1) trong đó,λiN giá trị riêng (eigenvalues) của ma trậnC1−1C2.

(25)

R.T. Schirrmeister và cộng sự [13] đề xuất hai mô hình mạng Shallow/Deep Con- vNet, V.J. Lawhern và cộng sự [14] đề xuất mô hình mạng EEGNet - các mô hình mạng nơ-ron tích chập nhân tạo - Convolutional Neural Network (CNN), tổng quát với nhiều dạng thức khác nhau của tín hiệu EEG như P300, SSVEP hay MI. X. Wang và cộng sự [15] đã thử nghiệm và thu gọn kiến trúc dựa trên mạng EEGNet để sử dụng trên nhiều thiết bị có năng lực tính toán hạn chế (sử dụng chip ARM Cortex-M). Các mô hình này sử dụng trực tiếp tín hiệu EEG được biểu diễn theo miền thời gian và có thể học được các đặc trưng theo không gian của tần số một cách tự động dựa trên các phép toán tích chập. Những mô hình này được tối ưu để sử dụng số lượng tối thiểu các tham số, có khả năng huấn luyện với lượng ít dữ liệu trong cả hai điều kiện tín hiệu EEG được thu cùng một đối tượng (subject-specific) và từ nhiều đối tượng khác nhau (cross-subject). Qua thử nghiệm với bộ dữ liệu BCI competition IV - 2a [14], mô hình EEGNet đạt độ chính xác trung bình khoảng 0.7 với dữ liệu của cùng một đối tượng và 0.4 với dữ liệu từ nhiều đối tượng khác nhau, tốt hơn so với phương pháp FBCSP.

Trong các bài toán về phân loại tín hiệu EEG, phân bố của dữ liệu huấn luyện và dữ liệu đánh giá thường thuộc các miền dữ liệu khác nhau do tín hiệu được thu từ nhiều đối tượng hoặc các phiên thu khác nhau. Các phương pháp học chuyển tiếp (transfer learning) và căn chỉnh dữ liệu (data alignment) được áp dụng để loại bỏ đi những khác biệt giữa các miền dữ liệu (domain) của tín hiệu EEG thuộc cùng một tác vụ. Dựa trên các tính chất của không gian RM, P. Zanini và cộng sự [16], H. He và cộng sự [17], [18]

đề xuất các phương pháp căn chỉnh dữ liệu của các đoạn tín hiệu EEG, nhằm giải quyết những khác biệt giữa về tín hiệu các phiên thu và đối tượng khác nhau. [16] sử dụng trung bình các ma trận hiệp phương sai các đoạn tín hiệu EEG của trạng thái tham chiếu (không thực hiện tác vụ nào) để căn chỉnh dữ liệu trên không gian RM, trong khi [17], [18] sử dụng trung bình của toàn bộ các đoạn tín hiệu EEG để căn chỉnh dữ liệu trực tiếp trên không gian Euclidean. L. Xu và cộng sự [19] đã thử nghiệm khả năng tổng quát hóa của các mô hình CNN với nhiều bộ dữ liệu khác nhau về phân loại tưởng tượng ảnh vận động. Qua thực nghiệm, việc sử dụng các phương pháp căn chỉnh dữ liệu làm tăng độ chính xác của các mô hình CNN khi đánh giá trên dữ liệu từ nhiều đối tượng khác nhau (cross-subject) trên từng bộ dữ liệu. Tuy nhiên, không có sự cải thiện rõ ràng khi sử dụng đồng thời nhiều bộ dữ liệu. H. Dose và cộng sự [20] sử dụng các mô hình CNN kết hợp với học chuyển tiếp để phân biệt tín hiệu EEG với tác vụ tưởng tượng ảnh vận động trên bộ dữ liệu Physionet Motor Movement/Imagery [2]. Độ chính xác trung bình trên nhiều đối tượng (cross-subject) với hai, ba và bốn nhãn lần lượt là 0.8038, 0.6982 và 0.5859. Sau đó, họ tiếp tục huấn luyện mô hình tổng quát (đã được huấn luyện trước đó) với dữ liệu của từng đối tượng riêng biệt, độ chính xác trung bình tăng lên lần lượt là 0.8649, 0.7925 và 0.6851. X. Wei và cộng sự [21] đã tổng hợp một số phương pháp học chuyển tiếp sử dụng mô hình học sâu được áp dụng trong các tác vụ phân loại tín hiệu EEG (các giai đoạn của giấc ngủ và tưởng tượng ảnh vận động) tại cuộc thi BEETL

(26)

Competition1diễn ra trong hội nghị NeurIPS 2021.

Ngoài một số phương pháp được kể trên, F. Lotte và cộng sự [22] đã liệt kê và đánh giá nhiều phương pháp thường được sử dụng để phân loại tín hiệu EEG với nhiều loại tác vụ khác nhau. Nhìn chung, các phương pháp được đề xuất tập trung cải tiến độ chính xác của mô hình phân loại và sử dụng dữ liệu từ các phiên thu hay đối tượng khác nhau.

Tuy nhiên, việc xây dựng phương pháp phân loại hoạt động hiệu quả với tất cả các đối tượng còn gặp rất nhiều khó khăn do các đặc trưng của tín hiệu EEG là khác nhau giữa các phiên thu hay đối tượng. Các nghiên cứu này tập trung chủ yếu vào dữ liệu từ những đối tượng khỏe mạnh, thay cho những người bị tổn thương chức năng vận động như bệnh nhân ALS.

1https://beetl.ai/introduction

(27)

CHƯƠNG 3

Phân loại tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động sử dụng mô hình học sâu

Chương này trình bày quy trình phân loại tín hiệu điện não EEG và phương pháp phân loại tín hiệu điện não EEG được sử dụng trong luận văn, bao gồm: căn chỉnh tín hiệu điện não và mô hình học sâu - mạng nơ-ron tích chập được sử dụng để phân loại tín hiệu.

1 Quy trình phân loại tín hiệu điện não trong tác vụ tưởng tượng ảnh vận động sử dụng mô hình học sâu

Tín hiệu EEG bao gồm nhiều dải tần số (nhịp sóng) khác nhau, mỗi dải tần số này mang những đặc trưng riêng biệt, phụ thuộc vào bài toán đang thực hiện mà tín hiệu EEG sẽ được lọc theo dải tần số tương ứng. Với bài toán phân loại tín hiệu điện não cho tác vụ tưởng tượng ảnh vận động, các nghiên cứu tập trung vào hai nhịp sóng chính Mu (8 - 12Hz) và Beta (12 - 30Hz). Việc thay đổi (giảm) tần số lấy mẫu cho phép giảm lượng dữ liệu cần xử lý, các mô hình hoạt động hiệu quả, nhanh hơn mà vẫn giữ được các đặc trưng cần thiết của tín hiệu tại các dải tần số tương ứng.

Tín hiệu EEG là tín hiệu liên tục theo thời gian, để có thể phân biệt tín hiệu EEG, ta cần phân tách tín hiệu thành các đoạn có độ dài cố định (Epoching). Có hai hướng tiếp cận để phân tách các đoạn tín hiệu này:

- Sử dụng toàn bộ dữ liệu trong một đoạn tín hiệu EEG theo một khoảng thời gian cố định (trialwise decoding). Thông thường, các đoạn tín hiệu cần phân loại sẽ nằm trọn vẹn trong khoảng thời gian này (sau khi bắt đầu xảy ra sự kiện).

- Sử dụng các đoạn tín hiệu EEG liên tiếp có kích thước ngắn (có thể chồng

(28)

lấn giữa các đoạn tín hiệu EEG liên tiếp) hơn trong một đoạn tín hiệu EEG cho trước (cropped decoding). Hướng tiếp cận này tạo ra nhiều dữ liệu huấn luyện hơn giúp các mô hình phân loại nâng cao độ chính xác, mặc dù có thể các đoạn tín hiệu EEG được sử dụng để huấn luyện có độ tương quan lớn hơn.

Hình 3.1: Phân tách tín hiệu EEG [Nguồn: braindecode]

Như vậy, quy trình phân loại tín hiệu EEG trong luận văn bao gồm:

- Bước 1: Tiền xử lý tín hiệu: lọc tín hiệu theo tần số (bandpass filter), thay đổi (giảm) tần số lấy mẫu của tín hiệu (resampling), . . .

- Bước 2: Phân tách tín hiệu: phân chia tín hiệu EEG liên tục thành các đoạn tín hiệu có độ dài cố định theo thời gian.

- Bước 3: Căn chỉnh tín hiệu EEG: áp dụng phương pháp căn chỉnh dữ liệu EA, LA với các đoạn tín hiệu EEG đã được tiền xử lý và phân tách truóc đó.

- Bước 4: Xây dựng, huấn luyện mô hình học sâu phân lớp: xây dựng, huấn luyện và đánh giá các mô hình học sâu (CNN) phân loại tín hiệu EEG của tác vụ tưởng tượng ảnh vận động: EEGNet, EEG-ITNet, . . .

Hình 3.2: Quy trình phân loại tín hiệu điện não sử dụng mô hình học sâu (CNN)

(29)

2 Căn chỉnh dữ liệu tín hiệu điện não

Một trong những khó khăn chính khi phân loại tín hiệu EEG là hạn chế của dữ liệu huấn luyện và sự khác biệt của tín hiệu EEG giữa các phiên thu, các đối tượng với nhau.

Nhiều nghiên cứu đã đề xuất các phương pháp học chuyển tiếp, căn chỉnh dữ liệu để giải quyết hạn chế này. Ý tưởng chính của các phương pháp này là sử dụng dữ liệu từ những phiên thu / đối tượng khác (source subjects) nhằm nâng cao hiệu quả của các mô hình với dữ liệu từ các phiên thu / đối tượng mục tiêu (target subjects). H.He và cộng sự đã đề xuất hai phương pháp căn chỉnh dữ liệu của tín hiệu EEG là Euclidean Alignment [17]

và Label Alignment [18] dựa trên những đặc điểm của tín hiệu EEG trên không gian RM để biến đổi trực tiếp tín hiệu EEG trên không gian Euclidean. Do biến đổi dữ liệu trên không gian Euclidean, hai phương pháp này có thể kết hợp với các loại mô hình phân lớp thông dụng, bao gồm cả các mô hình học sâu như một bước tiền xử lý dữ liệu.

2.1 Căn chỉnh tín hiệu theo phiên thu, đối tượng

Euclidean Alignment (EA) là phương pháp căn chỉnh dữ liệu tín hiệu EEG thay đổi phân phối dữ liệu của các phiên thu, đối tượng khác nhau trở nên tương đồng, giúp các mô hình phân loại được huấn luyện trên nhiều dữ liệu khác nhau hoạt động hiệu quả với dữ liệu từ phiên thu, đối tượng mới. Do quy trình tính toán đơn giản và không sử dụng nhãn của tín hiệu EEG, phương pháp này trở nên hiệu quả trong các bài toán phân loại tín hiệu EEG với dữ liệu từ nhiều phiên thu hay đối tượng khác nhau.

Giả sử, mỗi đối tượng trong bộ dữ liệu có n đoạn tín hiệu EEG Xi RN×T, i [1...n], trong đó N là số kênh của tín hiệu EEG, T là số mẫu (độ dài) của một đoạn tín hiệu theo thời gian (vd.T =ts.f req = 256, với độ dài đoạn tín hiệu EEG là t= 2s và tần số lấy mẫu làs.f req = 128Hz).

Ci=XiXiT (3.1)

R = 1 n

n

X

i=1

Ci= 1 n

n

X

i=1

(XiXiT) (3.2)

Xi =R−12 Xi (3.3)

trong đó, Ci RN×N là ma trận hiệp phương sai của một đoạn tín hiệu EEG, R RN×N là ma trận hiệp phương sai trung bình vàXi RN×T là đoạn tín hiệu EEG mới củaXisau khi được căn chỉnh.Ci, Rlà các ma trận đối xứng xác định dương.

(30)

R = 1 n

n

X

i=1

Ci

= 1 n

n

X

i=1

(R−12 Xi)(R−12 Xi)T

=R−12 (1 n

n

X

i=1

(XiXiT))R−12

=R−12 RR−12

=I

δ(Ri, Rj) = 0

(3.4)

trong đó,R RN xN là ma trận hiệp phương sai trung bình sau khi căn chỉnh bằng EA.Ri, Rj tương ứng với hai đối tượngij bất kỳ,δ(Ri, Rj)là khoảng cách giữaRiRj trong không gian RM.

Với, Ci, Cj là ma trận hiệp phương sai của hai đoạn tín hiệu EEG bất kỳi, j thuộc cùng một đối tượng sau khi căn chỉnh bằng EA,R−12 là ma trận khả nghịch

δ(Ci, Cj) =δ((R−12 Xi)(R−12 Xi)T,(R−12 Xj)(R−12 Xj)T)

=δ(R−12 (XiXiT)(R−12 )T, R−12 (XjXjT)(R−12 )T)

=δ(R−12 Ci(R−12 )T, R−12 Cj(R−12 )T)

=δ(Ci, Cj)

(3.5)

Như vậy, sau khi áp dụng EA để căn chỉnh dữ liệu tín hiệu EEG, ma trận hiệp phương sai trung bình của các phiên thu, đối tượng khác nhau là giống nhau (đều bằng ma trận đơn vịI). Do khoảng cách giữa các ma trận hiệp phương sai (biểu diễn các đoạn tín hiệu EEG) trên không gian RM được thu nhỏ, phân phối dữ liệu giữa các phiên thu, đối tượng khác nhau trở nên giống nhau, từ đó giúp các mô hình phân loại hiệu quả hơn với dữ liệu mới. Bên cạnh đó, EA không làm thay đổi khoảng cách giữa hai đoạn tín hiệu EEG bất kỳ của cùng một đối tượng trên không gian RM (công thức 3.5).

2.2 Căn chỉnh tín hiệu theo nhãn

Label Alignment (LA) là phương pháp căn chỉnh dữ liệu tín hiệu EEG thay đổi phân phối dữ liệu của các phiên thu, đối tượng khác nhau trở nên tương đồng với phân phối dữ liệu của các phiên thu, đối tượng mục tiêu trong cùng theo từng nhãn. Do đó, phân phối dữ liệu của cả phiên thu, đối tượng cũng trở nên tương đồng. Khác với EA, LA sẽ cần một phần dữ liệu tín hiệu EEG từ phiên thu, đối tượng mục tiêu được gán nhãn.

(31)

Giả sử, với một nhãn c bất kỳ, hai đối tượng src, tgtnsrc,c, ntgt,c đoạn tín hiệu EEGXsrc,c,i, Xtgt,c,i RN×T, trong đóN là số kênh của tín hiệu EEG, T là số mẫu (độ dài) của một đoạn tín hiệu theo thời gian.

Xsrc,c,i =R

1 2

tgt,cR

−1

src,c2 Xsrc,c,i (3.6)

trong đó,Rsrc,c, Rtgt,c RN xN là ma trận hiệp phương sai trung bình của đối tượng src, tgtvới nhãncXsrc,c,i RN×T là đoạn tín hiệu EEG mới của Xsrc,c,i sau khi căn chỉnh.

Rsrc,c = 1 nsrc,c

nsrc,c

X

i=1

Csrc,c,i

= 1 nsrc,c

nsrc,c

X

i=1

(R

1 2

tgt,cR

−1

src,c2 Xsrc,c,i)(R

1 2

tgt,cR

−1

src,c2 Xsrc,c,i)T

=R

1 2

tgt,cR

−1

src,c2 ( 1 nsrc,c

nsrc,c

X

i=1

(Xsrc,c,i Xsrc,c,iT ))R

−1

src,c2 R

1 2

tgt,c

=R

1 2

tgt,c(R

−1

src,c2 Rsrc,cR

−1

src,c2 )R

1 2

tgt,c

=R

1 2

tgt,cIR

1 2

tgt,c

=Rtgt,c

δ(Rsrc,c, Rtgt,c) = 0

(3.7)

trong đó, Rsrc,c RN xN là ma trận hiệp phương sai trung bình của đối tượng src với nhãncsau khi căn chỉnh bằng LA.δ(Rsrc,c, Rtgt,c)là khoảng cách giữaRsrc,cRtgt,c trong không gian RM.

Như vậy, sau khi áp dụng LA để căn chỉnh dữ liệu tín hiệu EEG với từng nhãn, ma trận hiệp phương sai trung bình của một nhãncbất kỳ (không giới hạn giống nhau) giữa một phiên thu, đối tượng với một phiên thu, đối tượng mục tiêu là giống nhau (Rsrc,c = Rtgt,c), phân phối dữ liệu trở nên tương đồng. LA cho phép tăng lượng dữ liệu của phiên thu, đối tượng mục tiêu bằng cách sử dụng dữ liệu từ phiên thu, đối tượng khác hay các bộ dữ liệu khác. Tương tự như EA, LA không làm thay đổi khoảng cách giữa các đoạn tín hiệu EEG thuộc cùng về một nhãn của đối tượng. [18] đã thử nghiệm LA với sự khác biệt về nhãn của tín hiệu EEG giữa các đối tượng trên bộ dữ liệu BCI competition IV - 2a.

Hình 3.3 mô tả khái quát các bước thực hiện hai phương pháp căn chỉnh dữ liệu EA, LA. Các điểm trong hình vẽ biểu diễn ma trận hiệp phương sai của các đoạn tín hiệu EEG trên không gian RM.

(32)

Hình 3.3: Phương pháp căn chỉnh dữ liệu EA - LA với tín hiệu EEG [18]

3 Mô hình học sâu trong phân loại tín hiệu điện não

Trong những nghiên cứu gần đây về phân loại tín hiệu EEG, các mô hình học sâu được áp dụng ngày càng nhiều nhằm tạo ra các mô hình tổng quát với các tác vụ khác nhau và giảm bớt phụ thuộc vào kiến thức chuyên ngành. CNN là mạng nơ-ron nhân tạo được áp dụng phổ biến và có hiệu quả cao với tín hiệu điện não, bao gồm tác vụ phân loại tưởng tượng vận động.

3.1 EEGNet

V.J. Lawhern và cộng sự [14] đề xuất mạng EEGNet, một mô hình CNN nhỏ gọn để phân loại tín hiệu EEG tổng quát dùng trong các hệ thống BCI. EEGNet sử dụng các lớp tích chập tách biệt (Separable Convolution) và lớp tích chập tách biệt theo chiều sâu (Depthwise Convolution) dựa theo cách trích rút đặc trưng của tín hiệu EEG với các bộ lọc không gian và tần số một cách tối ưu.

(33)

Hình 3.4: Kiến trúc mạng EEGNet [14]

Kiến trúc của EEGNet (hình 3.4) bao gồm ba khối chính. Ở khối đầu tiên (Conv2D + DepthwiseConv2D), EEGNet sử dụng hai lớp tích chập (kích thước ma trận nhân là 1K, vd.K =s.f req/2) và tích chập tách biệt theo chiều sâu (kích thước ma trận nhân là N 1) liên tiếp để học các đặc trưng theo tần số và không gian (theo từng lớp đặc trưng về tần số). Hai bước tích chập này hoạt động tương tự như mô hình Filter-bank CSP trong [8]. Sau bước này, kích thước đoạn tín hiệu EEG thay đổi từ N ×T thành 1×T (tín hiệu một chiều theo thời gian). Ở khối thứ hai (SeparableConv2D), EEGNet sử dụng lớp tích chập tách biệt theo chiều sâu và theo điểm (Pointwise Convolution) để thu gọn số lượng tham số và học các liên kết giữa các lớp đặc trưng. Lớp tích chập tách biệt tổng hợp theo từng lớp đặc trưng độc lập và kết hợp chúng lại theo cách tối ưu. Ở khối thứ cuối cùng (Classification), EEGNet sử dụng một lớp tuyến tính và hàmSoftmax để tính xác suất của mỗi nhãn dữ liệu. Ngoài ra, EEGNet sử dụng một số lớp chuẩn hóa đặc trưng (Batch Normalization), hàm kích hoạtELU, lớp tổng hợp trung bình (Average Pooling), kỹ thuật chính quy hóa (Dropout) và ràng buộc về chuẩn tối đa ở lớp tích chập tách biệt theo chiều sâu khối đầu tiên (||wdepthwise||2<1).

3.2 EEG-ITNet

A. Salami và cộng sự [23] đề xuất mạng EEG-ITNet, một mô hình CNN nhỏ gọn sử dụng mạng tích chập đa nhánh (Inception) và mạng tích chập giãn nở một chiều (Dilated Causal Convolution). Phép toán tích chập giãn nở là nền tảng của các mô hình tích chập theo thời gian - Temporal Convolutional Network (TCN), mô hình được ứng dụng phổ biến trong các bài toán về xử lý dữ liệu theo thời gian. TCN đã được áp dụng trong các nghiên cứu trước đây về phân loại tín hiệu EEG và có được một số kết quả nhất định.

(34)

(a) Khối Inception

(b) Khối Temporal Convolution Network (TCN)

(c) Khối Dimension Reduction (DR) (d) Khối Classification

Hình 3.5: Kiến trúc mạng EEG-ITNet [23]

Kiến trúc của EEG-ITNet (hình 3.5) bao gồm bốn khối chính. Ở khối đầu tiên (Inception block), EEG-ITNet sử dụng ba nhánh tích chập song song, mỗi nhánh bao gồm một lớp tích chập theo chiều thời gian (kích thước ma trận nhân là 1 Fi), hoạt động như bộ lọc tần số và một lớp tích chập tách biệt theo chiều sâu (kích thước ma trận nhân làN 1), hoạt động như bộ lọc theo không gian, tương tự như mạng EEGNet.

Kích thuớc ma trận nhân thường được chọn theo tần số lấy mẫu của tín hiệu, vd.K1 = s.f req/8, K2=s.f req/4K3 =s.f req/2. Việc sử dụng ba nhánh có kích thước ma trận nhân khác nhau sẽ loại bỏ hạn chế khi kích thước này là cố định, giúp mô hình có thể học được đặc trưng trên nhiều dải tần số hơn. Kích thước ma trận nhân của các lớp tích chập càng lớn, mô hình sẽ học được đặc trưng ở dải tần số thấp hơn của tín hiệu và ngược

(35)

lại. Ở khối thứ hai (TC block), mạng TCN được sử dụng để tách các đặc trưng có tính phân biệt trên miền thời gian với tín hiệu sau khi được phân tách bởi Inception block.

TCN bao gồm các khối tích chập phần dư (Residual block), mỗi khối có các lớp tích chập giãn một chiều biệt theo chiều sâu (Depthwise Causal Convolution), trích rút các đặc trưng độc lập theo từng nguồn của tín hiệu. Kích thước vùng tiếp nhận (Receptive field) của các khối tích chập sẽ tăng dần (độ giãn sẽ tăng dần theo lũy thừa của2). Các đặc trưng trên nhiều dải tần số sẽ được kết hợp vói nhau bằng lớp

Gambar

Hình 1.1: Hệ thống nhập liệu sử dụng tín hiệu điện não (thực hiện / tưởng tượng ảnh vận động) và theo dõi ánh mắt [1]
Hình 2.1: Tổng quan hệ thống BCI [Nguồn: how2electronics]
Hình 2.2: Tín hiệu điện não EEG
Hình 2.4: Vị trí đặt các điện cực theo chuẩn Standard 10-10 [Nguồn: Wikipedia]
+7

Referensi

Dokumen terkait