Mở đầu
Chương 2. Học sâu thế giới mở cho văn bản
2.2. Học sâu thế giới mở phân lớp văn bản
Phân lớp mở sâu (DOC [13]) sử dụng mô hình học sâu [7]. Không giống như phân lớp truyền thống, DOC xây dựng một bộ phân loại nhiều lớp với một tầng sigmoids 1-v- phần-còn-lại cuối cùng thay vì softmax để giảm rủi ro không gian mở. Nó làm giảm rủi ro
22
không gian mở hơn nữa bằng cách thắt chặt ranh giới quyết định của các hàm sigmoid với kỹ thuật khớp Gaussian.
2.2.1 CNN và các lớp chuyển tiếp của DOC
Hệ thống DOC được đề xuất (được nêu trong Hình 3) là một biến thể của kiến trúc CNN để phân loại văn bản [7]. Tầng đầu biểu diễn dữ liệu vào thành các véc tơ. Tầng thứ
hai thực hiện tích chập trên các vectơ đó sử dụng các bộ lọc có kích thước khác nhau (xem phần 3.4). Tiếp theo, tầng pooling cực đại theo thời gian (max-over-time) chọn phần tử lớn nhất của mỗi bộ lọc đặc trưng từ kết quả của tầng tích chập để tạo thành một véc tơ đặc trưng h có k chiều. Vector h sau đó được giảm thành vector m chiều d = d1: m (m tương ứng với số lớp đã biết) thông qua 2 tầng kết nối đầy đủ và một tầng kích hoạt ReLU trung gian:
d= W’(ReLU(Wh+b)) + b’ (2.2)
Trong đó W ∈ Rr×k, b ∈ Rr, W′ ∈ Rm×r, và b′ ∈ Rm là các trọng số có thể huấn luyện được; r là kích thước đầu ra của lớp được kết nối đầy đủ đầu tiên. Đầu ra của DOC là một tầng 1-với-phần-còn-lại được áp dụng cho d1: m, cho phép loại bỏ.
Hình 2.1: Kiến trúc mạng tổng quan của mô hình DOC [13]
23
Các mô hình học sâu khác hiện có như RNN và LSTM cũng có thể được sử dụng thay cho CNN. Tương tự như RNN, CNN cũng hoạt động trên dữ liệu tuần tự được nhúng (sử dụng tích chập 1D trên văn bản thay vì tích chập 2D trên ảnh).
2.2.2 Tầng 1- với-phần còn lại
Phân loại đa lớp truyền thống sử dụng softmax làm tầng đầu ra cuối cùng; nó không có khả năng bác bỏ lớp chưa xuất hiện vì xác suất dự đoán cho mỗi lớp đã được chuẩn hóa cho tất cả các lớp huấn luyện / nhìn thấy. Thay vào đó, một tầng 1-với-phần-còn-lại được sử dụng, chứa các N hàm sigmoid cho N lớp. Với hàm sigmoid thứ i tương ứng với lớp li, DOC lấy tất cả các ví dụ với y = li là ví dụ tích cực và tất cả phần còn lại là tiêu cực ví dụ y6 = l làm ví dụ tích cực, các yi còn lại là tiêu cực. Mô hình được học với hàm mục tiêu làm nhỏ nhất log của hàm mất mát của các hàm sigmoid trên dữ liệu huấn luyện D.
2.2.2 Giảm rủi ro không gian mở
Hàm Sigmoid thường sử dụng ngưỡng mặc định ti = 0.5 để phân loại cho từng lớp i.
Nhưng ngưỡng này không xem xét rủi ro không gian mở tiềm năng từ các lớp chưa xuất hiện (bị bác bỏ). Chúng ta có thể cải thiện ranh giới bằng cách tang giá trị ti. Để có được các ti tốt hơn cho mỗi lớp thứ i đã xuất hiện khi học, phương pháp phát hiện ngoại lai trong thống kê được sử dụng:
1. Giả sử xác suất dự đoán p(y =li| xj, yj = li) của tất cả dữ liệu học của lớp i thuộc về
một nửa (<=1) của phân phối chuẩn (Gaussian) với trung bình là = 1; ví dụ: ba điểm cho 3 dữ liệu dương trong hình dưới đây được chiếu lên trục y. Một nửa còn lại (>1) sẽ được tạo ra bằng cách thêm điểm đối xứng qua (1, 0) cho mỗi điểm (xác suất) tương ứng với dữ liệu dương, đó là điểm 1 + (1 - p (y = li| xj, yj = li) (không phải là một xác suất).
24
Hình 2.2: Rủi ro không gian mở của hàm sigmoid [13]
2. Ước tính độ lệch chuẩn σi bằng cả điểm hiện có và các điểm giả được tạo ra.
3. Trong thống kê, nếu một giá trị/điểm dữ liệu nằm ngoài khoảng xung quanh kỳ vọng một số nhất định (α =3) lần độ lệch chuẩn sẽ được coi là một điểm ngoại lai.
Do đó, ngưỡng xác suất được thiệt lập theo công thức ti = max (0.5, 1 – ασi), trong đó α = 3.
Kết luận Chương 2
Dựa trên mục tiêu được đề ra trong Chương 1, Chương 2 trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần đây, đó là: (i) mô hình phân lớp thế giới mở dựa trên phương pháp học không gian tương tự dựa trên trung tâm do Fei và Liu đề
xuất năm 2015 và (ii) mô hình phân lớp mở dựa trên kỹ thuật học sâu (DOC) sử dụng mô hình học sâu do Shu và cộng sự đề xuất năm 2017. Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro không gian mở” có khả năng giải quyết vấn đề phát hiện ra các dữ liệu mới chưa xuất hiện lúc huấn luyện mô hình. Chúng đã được các tác giả thực nghiệm và cho kết quả tốt cho bài toán phân loại văn bản mở. Tuy nhiên vẫn chưa có nghiên cứu nào về hiệu quả ứng dụng của chúng cho bài toán chuẩn hóa thực thể tên, là bài toán con quan trọng có sự xuất hiện của nhiều tên mới (đặc biệt trong lĩnh vực y sinh), thiết yếu trong việc trích xuất tri thức được viết (ở dạng phi cấu trúc) trong văn bản. Chương 3 tiếp theo sẽ giới thiệu một mô hình ứng dụng DOC vào bài toán chuẩn hoá quan trọng này.
25