Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng
3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách
3.2.1.1. Biểu diễn dữ liệu theo đồ thị khoảng cách
Biểu diễn dữ liệu bằng đồ thị khoảng cách là cách biểu diễn có thể giữ được các thông tin giàu ý nghĩa về trật tự và khoảng cách giữa các từ trong văn bản.
Đồng thời, cách biểu diễn có cấu trúc theo đồ thị khoảng cách khá hiệu quả cho bài toán xử lý văn bản. Đồ thị khoảng cách có thể được xác định theo các bậc khác nhau tùy thuộc vào mức thông tin khoảng cách muốn lưu giữ. Đặc biệt là, đồ thị khoảng cách bậc k sẽ lưu giữ thông tin về các cặp từ có khoảng cách tối đa là trong văn bản. Đồ thị khoảng cách được định nghĩa như sau:
Một đồ thị khoảng cách bậc k của một văn bản được lấy ra từ tập dữ liệu được định nghĩa ( ) ( ( ) ( )) trong đó, ( ) là tập các đỉnh được xác định trong tập dữ liệu và ( ) là tâp các cạnh trong văn bản. Tập ( ) ( ) được xác định như sau:
( ): là tập các đỉnh, trong đó mỗi đỉnh là một từ trong tập các từ được xây dựng từ toàn bộ tập dữ liệu . Số lượng từ trong tập dữ liệu có thể lớn và trật tự từ trong tập từ này là không đổi khi biểu diễn trên tập văn bản khác trong .
90
( ): là tập các cạnh từ đỉnh i nối đỉnh j nếu từ i đứng trước từ j nhiều nhất k vị trí. Ví dụ, k = 1 được hiểu là thứ tự tuần tự các từ. Tần suất của các cạnh là số lần từ i đứng trước từ j nhiều nhất k vị trí trong văn bản.
Tập ( ) luôn chứa một cạnh từ mỗi nút đến chính nó. Tần số của mỗi cạnh là số lần một từ đứng trước từ khác trong văn bản với khoảng cách nhiều nhất k vị trí. Vì mỗi từ được coi là đứng trước nó với khoảng cách k=0, tần số của mỗi cạnh ít nhất bằng tần số của từ tương ứng trong văn bản.
Hầu hết các tập dữ liệu chứa nhiều từ xuất hiện với tần xuất lớn như giới từ, mạo từ và liên từ - hay còn gọi là từ dừng. Do đó, trước khi biểu diễn đồ thị khoảng cách, cần loại bỏ các từ dừng, giảm số lượng cạnh trong biểu diễn đồ thị khoảng cách.
Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách
Biểu diễn bậc 0 tương ứng với tần suất xuất hiện của từ nên biểu diễn này khá giống với biểu diễn theo không gian vectơ. Biểu diễn của các bậc khác nhau thể hiện được lượng thông tin thu được về khoảng cách cho một câu văn bản được thể hiện ở Hình 3.7. Hình thể hiện đồ thị khoảng cách bậc 0, 1 và 2 đối với tập đỉnh là
91
tập từ. Đồ thị khoảng cách này được xây dựng dựa vào tập từ trong văn bản sau khi loại bỏ từ dừng. Đồ thị khoảng cách bậc 0 chỉ bao gồm tần suất. Tần suất của từ trong trong văn bản là số lần một từ xuất hiện với khoảng cách 0. Số cạnh trong biểu diễn sẽ tăng đối với đồ thị khoảng cách với số bậc cao hơn. Tần suất của từ tự lặp trong đồ thị khoảng cách bậc 2 cao hơn trong đồ thị khoảng cách bậc 1 và bậc 0.
Sự lặp lại này không thay đổi tần suất bậc 1 và bậc 0 đồ thị khoảng cách nhưng ảnh hưởng tới đồ thị khoảng cách bậc 2. Đồ thị khoảng cách có bậc cao hơn có thể chứa nhiều thông tin hơn nhưng đồ thị bậc quá cao như bậc 5 hoặc bậc 10 thì có thể không còn đúng do mẫu dữ liệu mà hai từ cách nhau với khoảng cách lơn (5-10) từ thường không có nhiều ý nghĩa đối với mô hình. Đồ thị khoảng cách bậc 0 không chứa nhiều thông tin hữu ích.
Một đặc điểm quan trọng của đồ thị khoảng cách là nó tương đối thưa và chứa một lượng nhỏ các cạnh đối với đồ thị bậc nhỏ. Nhưng qua các thực nghiệm, C. Aggarwal và P. Zhao [10] đã cho thấy, đồ thị khoảng cách bậc nhỏ mang lại hiệu quả xử lý trong hầu hết các ứng dụng khai phá như phân lớp, phân cụm,... Một số tính chất của đồ thị khoảng cách như sau:
- Cho ( ) là số từ trong văn bản (tính cả trường hợp lặp) và ( ) là số từ phân biệt trong (không tính trường hợp lặp). Khi đó, đồ thị khoảng cách bậc k chứa ít nhất ( ) ( ) ( ) cạnh và nhiều nhất là ( ) ( ) cạnh.
- Các đồ thị khoảng cách bậc 2 hoặc bậc thấp hơn trong các văn bản chỉ chứa các từ đơn lẻ là mặt phẳng (hai chiều).
- Cho và là hai văn bản trong tập dữ liệu , là một tập con của . Khi đó, đồ thị khoảng cách ( ) là đồ thị con của đồ thị khoảng cách ( ) - Cho và là hai văn bản trong tập dữ liệu và chúng có tập từ chung
liền kề kí hiệu là . Khi đó, đồ thị khoảng cách ( ) và ( ) có chúng đồ thị con ( )
- Cho là một đồ thị hai chiều chứa m đỉnh và là một văn bản trong tập dữ liệu . Gọi E là tập giao cạnh của tập các cạnh trong đồ thị ( ) với
92
các cạnh trong . Gọi q là tổng tần suất các cạnh trong . Khi đó, q chính là số lần từ khóa trong các đỉnh tương ứng với xuất hiện trong một khoảng cách với k của một đỉnh khác trong văn bản.
3.2.1.2. Mô hình đồ thị khoảng cách và mô hình n-gram
Có thể thấy mô hình đồ thị khoảng cách có một số điểm tương đồng với biểu diễn đặc trưng n-grams [14]. Trong đó, đặc trưng n-grams là chuỗi n phần tử liên tiếp nhau của một dãy các phần tử cho trước trong văn bản; nhiệm vụ là tính xác suất một chuỗi trong văn bản. ( )
Khi đó, theo luật dãy của xác suất:
( ) ( ) ( ) ( ) ( ) ∏ ( )
(3.7)
Áp dụng luật dãy vào các từ, ta có:
( ) ( ) ( ) ( ) ( ) ∏ ( )
(3.8) Luật dãy thể hiện mối liên kết giữa việc tính xác suất của một chuỗi và xác suất có điều kiện của một từ cho trước các từ đứng trước nó. Công thức (3.8) gợi ý rằng, có thể ước lượng xác suất của một chuỗi các từ bằng tích các xác suất có điều kiện.
Khởi xướng ban đầu của mô hình n-grams là mô hình bigram, trong đó, thay vì tính xác suất của một từ khi biết tất cả các từ đứng trước nó ( ) thì chỉ quan tâm đến các từ đứng trước nó bằng cách sử dụng xác suất có điều kiện của từ đứng trước nó ( ). Giả thiết coi xác suất của một từ chỉ phụ thuộc vào từ đứng trước nó gọi là giả thiết Markov.
Từ đó, công thức tổng quát cho xấp xỉ n-gram với xác suất có điều kiện của từ tiếp theo trong chuỗi là:
( ) ( ) (3.9) Trong đó N là kích thước chuỗi xem xét. Đặc trưng n-gram sử dụng phổ biến là n-gram có kích thước 1 (unigram), n-gram có kích thước 2 (bigram) và n-gram có kích thước 3 (trigram),…
93
Qua phân tích về mô hình n-gram cho thấy, mô hình biểu diễn đồ thị khoảng cách cũng bao trùm các đặc trưng n-grams phổ biến này. Điểm khác biệt hơn là mô hình biểu diễn đồ thị khoảng cách tích hợp các thông tin từ bậc thấp đến bậc cao và mang tính tổng quát hơn.
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị