• Tidak ada hasil yang ditemukan

Chương 3

GIẢI PHÁP GIẢM THIỂU TỐI ĐA THIỆT HẠI DO THÔNG TIN SAI LỆCH GÂY RA TRÊN MẠNG XÃ HỘI

TRỰC TUYẾN

Chương này tập trung vào việc xây dựng bài toán Cực tiểu hóa thiệt hại do thông tin sai lệch gây ra - MDM, chứng minh bài toán thuộc lớp bài toán NP-khó, đồng thời đề xuất hai thuật toán tham lam nhằm giải quyết bài toán.

trong MXH phát triển theo từng bước thời gian rời rạc t = 0,1,2, ... Mỗi đỉnh uV có thể ở một trong hai trạng thái kích hoạt (active) hoặc không kích hoạt (inactive) với thông tin sai lệch. Tại mỗi bước t, đỉnh u ở trạng thái kích hoạt nếuulà đỉnh nguồn phát thông tin sai lệchS (đỉnh khởi tạo quá trình lan truyền thông tin sai lệch) hoặc u nhận được thông tin sai lệch từ các đỉnh hàng xóm ở trạng thái kích hoạt và chấp nhận thông tin này để tiếp tục chia sẻ, lan truyền những thông tin đó đến những đỉnh khác trong các bước tiếp theo, ngược lại, u ở trạng thái không kích hoạt.

Trong luận văn, tác giả quan tâm tới vấn đề ngăn chặn thông tin sai lệch lan truyền trongd bước thời gian (deadlined), vì nếu không ngăn chặn sớm số người dùng bị kích hoạt sẽ tăng lên rất nhanh do tốc độ lan truyền nhanh chóng của thông tin sai lệch. Mặt khác, trong nhiều trường hợp đặt ra vấn đề phải ngăn chặn sự lan truyền của thông tin sai lệch trước một khoảng thời gian xác định.

Ví dụ, trước kỳ các sự kiện chính trị trọng đại của một quốc gia, các tổ chức, cá nhân thù địch thường xuyên đăng tải những quan điểm sai trái, thù địch trên mạng xã hội với mục đích phá hoại sự thành công các sự kiện đó. Do vậy, cần phải ngăn chặn sớm những thông tin đó lan truyền trên mạng góp phần đảm bảo sự thành công của các sự kiện chính trị quan trọng. Vì những lý do nêu trên, tác giả đặt ràng buộc cho bài toán của mình là ngăn chặn thông tin sai lệch lan truyền trong khoảng thời gian giới hạn là d bước lan truyền, dZ+.

Toàn bộ các hoạt động của người dùng trên MXH trực tuyến như đăng bài, bình luận, chia sẻ vv.. đều được thu thập (Capture) và phân tích, từ đó thông tin sai lệch có thể được phát hiện một cách tự động. Các kỹ thuật này được đề cập trong các công trình nghiên cứu của Qazvinian, 2011, [9] và Kwon, 2013, [10].

Sau khi thông tin sai lệch được phát hiện, các bộ lọc nội dung sẽ giúp ngăn chặn hay vô hiệu hóa việc người dùng lan truyền những thông tin đó đến bạn bè của họ. Tác giả đề cập đến các kỹ thuật này như là việc tạo miễn dịch (Immunize) hay đặt giám sát (Monitor) cho các đỉnh trong đồ thị MXH (về sau, tác giả sử dụng thuật ngữ tạo miễn dịch để chỉ chung phương pháp này). Trong ngữ cảnh khác, kỹ thuậttạo miễn dịch còn có thể hiểu là việc thuyết phục một người dùng nào đó trên MXH không chấp nhận và lan truyền những thông tin sai lệch đến những người dùng khác. Như vậy, việc tạo miễn dịch cho một đỉnh tương đương với việc loại bỏ đỉnh này và những cạnh kề với nó khỏi đồ thị ban đầu.

Do đặc tính của mỗi người dùng là khác nhau trong một MXH, nên chi phí

bỏ ra để tạo miễn dịch đối với những người dùng đó cũng khác nhau. Với tính quy mô lớn của các MXH trực tuyến, sẽ là quá đắt để tạo miễn dịch cho toàn bộ người dùng trên mạng. Giải pháp thiệt thực hơn đó là chọn ra một số người dùng để tạo miễn dịch sao cho có thể hạn chế tối đa số đỉnh bị kích hoạt bởi thông tin sai lệch. Như vậy, cần tìm một chiến lược tối ưu nhằm chọn ra những đỉnh để tạo miễn dịch với thông tin sai lệch.

Mô hình hóa bài toán

Mỗi mạng xã hội được biểu diễn bởi một đồ thị có hướng G= (V, E), trong đó V là tập đỉnh và E V ×V là tập cạnh, |V|=n,|E|=m. Mỗi đỉnh trong tập V tương ứng với một người dùng trong mạng xã hội, mỗi cạnh có hướng e= (u, v) trong tập E biểu diễn mối quan hệ giữa người dùng u và người dùng v tương ứng.

Trong bài toán này, tác giả giả thuyết đã xác định được nguồn phát thông tin sai lệch ban đầu là tập các đỉnh S V, S ={s1, s2, ..., sp} và ta không can thiệp trực tiếp được vào tập nguồn S nhưng có thể tạo miễn dịch (hay bố trí các máy giám sát) ở các đỉnh khác để hạn chế sự lan truyền thông tin. Phương pháp đặt giám sát cũng đã được Zhang [1] đề xuất sử dụng để ngăn chặn thông tin sai lệch truyền từ nguồn cho trước tới một đỉnh cần bảo vệ.

Mỗi đỉnh uV có một chi phíc(u)0để tạo miễn dịch với thông tin sai lệch, đồng thời đỉnh ukhi bị thông tin sai lệch kích hoạt, tức là người dùng tương ứng tin vào thông tin này sẽ gây ra thiệt hại được lượng hóa bởi đại lượng r(u)0. Vì khó ước lượng thiệt hại cho mỗi đỉnh nên trong bài toán này ta xem thiệt hại của mỗi đỉnh kích hoạt gây ra như nhau. Không mất tính tổng quát ta giả thiết r(u) = 1 với mọi đỉnh u là đỉnh kích hoạt. Như vậy, với trường hợp r(u) = 1, tổng thiệt hại do thông tin sai lệch gây ra chính bằng tổng số đỉnh ở trạng thái kích hoạt sau khi quá trình lan truyền thông tin kết thúc. Tuy nhiên, về sau ta vẫn dùng thuật ngữ thiệt hại để chỉ chung hai đại lượng này.

Như trình bày trong Chương 2, Chen [60, 61] đã chỉ ra mô hình LT là tương đương với mô hình đồ thị mẫu. Bây giờ, ta sẽ sử dụng mô hình đồ thị mẫu để phân tích bài toán đặt ra.

Gọi G là tập hợp tất cả các đồ thị mẫu sinh ra từ đồ thị G= (V, E), P r(GL)

là xác suất lựa chọn (xác suất sinh) đồ thị mẫu GL = (V, EGL) từ tập G, ta có:

P r(GL) = Y

v∈V

p(v) (3.1)

Trong đó

p(v) =

w(u, v) nếu ∃u: (u, v)EGL 1P

u∈Nin(v)w(u, v) ngược lại

Ký hiệu σ(S) là kỳ vọng số đỉnh kích hoạt gây ra bởi nguồn thông tin sai lệch S khi kết thúc quá trình lan truyền và R(GL, S) là tập hợp các đỉnh có thể đi đến từ tập S trong đồ thị GL, khi đó σ(S) được xác định bởi công thức sau:

σ(S) = X

GL∈G

P r(GL)|R(GL, S)| (3.2) Ký hiệu D(S) là kỳ vọng thiệt hại tích hợp từ các đỉnh kích hoạt trong quá trình lan truyền gây bởi tập nguồn thông tin sai lệch S, như vậy D(S) tỉ lệ với σ(S). Do mỗi đỉnh uV khi bị kích hoạt gây ra thiệt hạir(u) = 1, cho nên D(S) trùng với kỳ vọng số đỉnh kích hoạt σ(S), tức là:

D(S) =σ(S) = X

GL∈G

P r(GL)|R(GL, S)| (3.3) Ký hiệu Rd(GL, S) là tập hợp các đỉnh có thể đi đến từS trong đồ thị GL sau d bước lan truyền hay d bước thời gian. Gọi dGL(S, v) là khoảng cách ngắn nhất trong số tất cả các đường đi từ tập S đến đỉnh v trong đồ thị GL (nếu không tồn tại đường đi từ S đến v thì dGL(S, v) = , nếu v S thì dGL(S, v) = 0). Đại lượng dGL(S, v) cũng được gọi là khoảng cách từ tập S đến đỉnh v trong đồ thị GL. Khi đó ta có:

Rd(GL, S) = {v V |dGL(S, v)d} (3.4) Khi đó từ Công thức 3.3 ta xác định được thiệt hại DdS do nguồn thông tin sai lệch S gây ra sau d bước lan truyền như sau:

DdS = X

GL∈G

P r(GL)|Rd(GL, S)| (3.5) Ta sẽ xét bài toán tìm tập đỉnh I để tạo miễn dịch sao cho chi phí tạo miễn dịch không vượt quá ngân sáchB cho trước và có thiệt hại saud bước lan truyền thông tin sai lệch nhỏ nhất.

Gọi G(I)là đồ thị con của G sau khi loại bỏ tập đỉnhI và tập các cạnh kề với I. Khi đó, thiệt hại gây bởi nguồn thông tin sai lệch S trên đồ thị G sau khi tạo

miễn dịch cho tập đỉnh I chính bằng thiệt hại gây bởi nguồn thông tin sai lệch S trên đồ thị G(I).

Ta dùng ký hiệu G(I) là tập hợp tất cả các đồ thị mẫu sinh ra từ đồ thị G(I)DSd(I)là hàm thiệt hại gây bởi nguồnS saudbước lan truyền khi đã tạo miễn dịch cho tập đỉnh I. Khi đó từ Công thức 3.5 ta có:

DdS(I) = X

GL∈G(I)

P r(GL)|Rd(GL, S)| (3.6) Với quá trình lan truyền thông tin sai lệch theo mô hình LT, bài toán Cực tiểu hóa thiệt hai do thông tin sai lệch gây ra (Minimize Damage of Misinformation- MDM) trên MXH trực tuyến được phát biểu như sau:

Định nghĩa 3.1 (Bài toán Cực tiểu hóa thiệt hại-MDM) Cho đồ thị G= (V, E) biểu diễn một MXH cùng với mô hình lan truyền LT. S V là tập nguồn thông tin sai lệch. Mỗi đỉnh u V có một chi phí c(u) 0 để tạo miễn dịch với thông tin sai lệch và thiệt hại r(u) = 1 khi bị thông tin sai lệch kích hoạt. Với nguồn ngân sách giới hạn B > 0 và số bước lan truyền thông tin d Z+ cho trước, mục tiêu của bài toán là tìm tập đỉnh cần tạo miễn dịch I V\S với tổng chi phí không vượt quá B, Pu∈Ic(u)B, nhằm cực tiểu hóa hàm DdS(I).

Bài toán MDMđược viết gọn như sau: Tìm tập I V\S làm cực tiểu hóa hàm DSd(I) với điều kiện Pu∈Ic(u)B.

Điểm khác nhau giữa nghiên cứu của tác giả với nghiên cứu của H. Zhang, 2016, [1] đó là:

- H. Zhang xét bài toán trong trường hợp mỗi đỉnh uV có chi phíđặt giám sát như nhau. Trong bài toán MDM, tác giả mở rộng hơn với chi phíc(u)0 khác nhau cho mỗi đỉnh.

- H. Zhang nghiên cứu bài toán ngăn chặn thông tin sai lệch đến với 1 đỉnh hoặc một nhóm đỉnh cần bảo vệ. Trong bài toán MDM xét với tất cả các đỉnh trong toàn mạng cần bảo vệ, đồng thời có yếu tố ràng buộc về thời gian d.

- H. Zhang nghiên cứu bài toán trên mô hình lan truyền thông tin IC, còn trong bài toán MDM, tác giả xét trên mô hình lan truyền thông tin LT.