• Tidak ada hasil yang ditemukan

Một số hướng nghiên cứu liên quan đến bài toán hạn chế lan

cho ta một cách nhìn thay thế mô hình IC và mô hình LT, giúp hiểu rõ hơn hai mô hình này. Mô hình đồ thị mẫu được định nghĩa như sau:

- Đồ thị mẫu dưới mô hình LT: Với đồ thị G = (V, E) cho trước, mỗi cạnh (u, v)E được gán một trọng số ảnh hưởngw(u, v) [0, 1]. Sinh ngẫu nhiên một đồ thị mẫu GL bằng cách, với mỗi đỉnh v V chọn nhiều nhất một cạnh kề đi đến nó với xác suất chọn cạnh (u, v) Ew(u, v) và xác suất không có cạnh nào được lựa chọn là 1P

u∈Nin(v)w(u, v). Những cạnh được chọn được gọi là cạnh sống (live-arc) và tất cả những cạnh khác được gọi là cạnh bị chặn (blocked-arc). Như vậy, GL là đồ thị gồm tập đỉnh V và tập cạnh là những cạnh sống.

- Đồ thị mẫu dưới mô hình IC: Với đồ thị G = (V, E) cho trước, mỗi cạnh (u, v)E được gán một xác suất ảnh hưởng p(u, v) [0, 1]. Sinh ngẫu nhiên một đồ thị mẫu GL bằng cách, mỗi cạnh (u, v) E được chọn là cạnh sống với xác suất p(u, v). Như vậy, GL là đồ thị gồm tập đỉnh V và tập cạnh là những cạnh sống.

Ta có thể sử dụng mô hình đồ thị mẫu để tính toán giá trị hàm σ(S0). Gọi G là tập hợp tất cả các đồ thị mẫu sinh ra từ đồ thị G= (V, E), P r(GL) là xác suất lựa chọn đồ thị GL từ tập GR(GL, S0) là tập hợp các đỉnh đi đến được từ tập S0 trong đồ thị GL. Hàm lan truyền ảnh hưởng σ(S0) được tính bởi công thức sau:

σ(S0) = X

GL∈G

P r(GL)|R(GL, S0)| (2.3) Trong đó ký hiệu |X| chỉ số phần tử của tập X.

2.3 Một số hướng nghiên cứu liên quan đến bài toán hạn chế

Định nghĩa 2.1 (Tối ưu hóa ảnh hưởng) Cho đồ thị G = (V, E) biểu diễn một MXH, trong đó tập V biểu diễn các cá nhân trong MXH, tập E biểu diễn mối quan hệ giữa các cá nhân. Với ngân sách k cho trước, tìm tập hạt giống S0 V với |S0| =k, sao cho hàm lan truyền ảnh hưởng của tập S0, σ(S0), dưới mô hình lan truyền thông tin ngẫu nhiên cho trước, đạt giá trị cực đại. Tức là, cần tính S V sao cho1:

S= argmax

S0⊆V,|S0|=k

σ(S0) (2.4)

Trong Định nghĩa 2.1, thuật ngữ lan truyền ảnh hưởng ở đây có thể hiểu là sự lây lan cảm xúc, quan điểm, hành vi từ người này sang người khác, từ nhóm người này sang nhóm người khác trước một vấn đề, một sự kiện hay một hiện tượng nào đó. Hàm lan truyền ảnh hưởng trả về kết quả là số người bị ảnh hưởng trong một MXH.

Một ví dụ điển hình của bài toán tối ưu hóa lan truyền ảnh hưởng là vấn đề tiếp thị sản phẩm. Chẳng hạn, một công ty muốn giới thiệu cho cộng đồng một sản phẩm do công ty tạo ra đó là một ứng dụng trực tuyến. Tuy nhiên, công ty đó lại có ngân sách hạn chế (ngân sách ở đây được hiểu là chi phí bỏ ra), vì vậy chỉ có thể lựa chọn một số lượng nhỏ người sử dụng ban đầu để trải nghiệm sản phẩm đó (bằng cách tặng quà hoặc các khoản thanh toán). Công ty muốn rằng những người sử dụng ban đầu sẽ thích ứng dụng đó và bắt đầu ảnh hưởng đến bạn bè của họ để cùng sử dụng nó, và bạn bè của họ cũng sẽ như vậy. Bài toán đặt ra là với nguồn ngân sách cho trước, xác định được ai là người sẽ trải nghiệm ứng dụng để giúp lan truyền đến nhiều người dùng nhất cùng sử dụng sản phẩm.

Trong bài báo đã công bố [47], Kempe và các cộng sự tập trung nghiên cứu vấn đề tối ưu hóa ảnh hưởng trên hai mô hình lan truyền thông tin: Mô hình IC và mô hình LT. Trong bài toán tối ưu hóa ảnh hưởng, có hai nhiệm vụ tính toán cần thực hiện: Đầu tiên, là việc xác định tập hạt giống nhằm cực đại hóa giá trị hàm lan truyền ảnh hưởng như trong Định nghĩa 2.1. Thứ hai, là việc tính giá trị hàm lan truyền ảnh hưởng σ(S0), với S0 là tập hạt giống. Cả hai nhiệm vụ tính toán này đều đã được chứng minh là hai vấn đề #P-khó dưới cả hai mô hình IC và LT [60, 61]. Dựa trên tính chất của hàm mục tiêu σ(S0) (tính đơn điệu và tính submodular), Kempe đã đề xuất thuật toán tham lam cho lời giải có tỉ lệ tối ưu (11/e)63%. Tuy nhiên, thuật toán này đòi hỏi phải tính lại hàm lan

1Hàm argmax trả về các tập hạt giống tối ưu,Slà một tập trong số đó.

truyền ảnh hưởng σ(S0) nhiều lần, mà việc tính σ(S0) lại là vấn đề #P-khó. Để giải quyết vấn đề này, Wei Chen, 2014, [60] đã sử dụng phương pháp mô phỏng Monte Carlo quá trình lan truyền thông tin, từ đó ước lượng giá trị hàm lan truyền ảnh hưởngσ(S0). Với mỗi tập hạt giốngS0, ta có thể mô phỏng quá trình lan truyền thông tin ngẫu nhiên R lần. Mỗi lần ta tính số đỉnh ở trạng thái kích hoạt khi quá trình lan truyền thông tin kết thúc, sau đó tính tổng trung bình trên R lần mô phỏng. Khi số lần mô phỏng R càng lớn thì ước lượng hàm σ(S0) có độ chính xác càng cao.

Một nhược điểm của thuật toán tham lam (sử dụng phương pháp mô phỏng Monte Carlo) đó là không hiệu quả về mặt thời gian thực thi đối với những đồ thị có số đỉnh lớn. Để giải quyết vấn đề này, một loạt những nghiên cứu đã được tiến hành nhằm tìm ra thuật toán hiệu quả cho vấn đề tối ưu hóa ảnh hưởng, chẳng hạn như thuật toán CELF được đề xuất bởi Leskovec, 2007, [63], CELF++

được đề xuất bởi Goyal, 2011, [64], tiếp sau đó là SPM, SP1M, SIMPATH, BCT, SSA/D-SSA.

Bên cạnh vấn đề lan truyền thông tin, lan truyền ảnh hưởng cũng có nhiều nghiên cứu tập trung giải quyết bài toán hạn chế thông tin sai lệch lan truyền trên các MXH trực tuyến.

Một số nghiên cứu tập trung vào việc nhận dạng thông tin sai lệch và tin đồn (Rumor) dựa trên đặc trưng ngôn ngữ, cấu trúc, thời gian như nghiên cứu của Qazvinian, 2011, [6] và Kwwon, 2013, [7].

Một số khác, nghiên cứu vấn đề xác định tập đỉnh là nguồn phát thông tin sai lệch ban đầu. Chẳng hạn, Dung T. Nguyen và các cộng sự, 2012, [65] đã nghiên cứu bài toán xác định k nguồn phát tán thông tin sai lệch khả nghi nhất từ tập người dùng bị kích hoạt bởi thông tin sai lệch cho trước và chứng minh bài toán thuộc lớp NP-khó xét trên mô hình lan truyền IC, đồng thời tác giả đã đề xuất hai thuật toán dựa trên cách tiếp cận xếp hạng (Ranking) và cách tiếp cận xấp xỉ đạt tỉ lệ tối ưu (11/e).

Bên cạnh đó, một số tác giả đề xuất giải pháp hạn chế sự lan truyền thông tin sai lệch trên mạng xã hội bằng cách chọn ra một số đỉnh ban đầu để tiêm thông tin tốt, từ đó lan truyền những thông tin này trên cùng mạng nhằm thuyết phục những người dùng khác tin theo, trong đó sử dụng các mô hình lan truyền thông tin khác nhau [2–4].

Trong [2], Budak và các cộng sự, 2011, đã đưa ra mô hình tầng độc lập đa chiến dịch (Multi-Campaign Independent Cascade Model), gồm chiến dịch phổ biến thông tin sai lệch và chiến dịch phổ biến thông tin tốt cùng cạnh tranh với nhau. Budak giả sử rằng nếu cả thông tin sai lệch và thông tin tốt cùng kích hoạt một đỉnh thì đỉnh đó sẽ được ưu tiên kích hoạt bởi thông tin tốt. Bài toán đặt ra là với ngân sách giới hạn k cho trước, cần tìm tập đỉnh kích thước k để tiêm thông tintốt, từ đó lan truyền thông tin này trên MXH nhằm cực tiểu hóa số đỉnh bị kích hoạt bởi thông tin sai lệch. Budak đã chứng minh bài toán thuộc lớp NP-khó và đề xuất thuật toán tham lam đạt tỉ lệ tối ưu 11/e dựa trên thuộc tính submodular của hàm mục tiêu.

Trong [3], H. Zhang và các cộng sự, 2015, đã nghiên cứu bài toán hạn chế sự lan truyền thông tin sai lệch dưới mô hình kích hoạt cạnh tranh (Competitive Activation Model). Trong đó, mỗi đỉnh v V có thể phơi bày cả thông tin tốt và thông tin sai lệch, đồng thời v có hai ngưỡng kích hoạt thông tin tốt A và thông tinsai lệch B tương ứng làθvAθBv. GọiI0AI0B tương ứng là tập đỉnh kích hoạt thông tin tốt và thông tin sai lệch ban đầu. Tại thời điểm t, đỉnh v bị kích hoạt bởi thông tin tốt nếu Pu∈IA

t−1wAuv θAv hoặc bị kích hoạt bởi thông tin sai lệch nếuPu∈IB

t−1wuvB θvB. Nếu cả hai ngưỡng đều thỏa mãn,v được coi là bị kích hoạt bởi thông tin tốt nếu PvA PvB và ngược lại, trong đó Pvi = (P

u∈Nain(v)wuvi )/θvi, với i∈ {A, B}. Sau khi đỉnh v bị kích hoạt, nó sẽ giữ nguyên trạng thái cho đến khi quá trình lan truyền thông tin kết thúc. Bài toán đặt ra là với tập các đỉnh phát thông tinsai lệch I0B ban đầu và sốkA cho trước, hãy xác định tập các đỉnh nguồn phát thông tin tốt I0A, với |I0A|= kA sao cho cực tiểu hóa số đỉnh bị kích hoạt bởi thông tin sai lệch và cực đại hóa số đỉnh bị kích hoạt bởi thông tin tốt.

H. Zhang đã chứng minh đây là bài toán thuộc lớp NP-đầy đủ đồng thời đề xuất thuật toán hiệu quả dựa trên việc xác định những đỉnh quan trọng đóng vai trò là đỉnh nguồn phát thông tin tốt.

Trong [4], N. P. Nguyen và các cộng sự, 2013, đã nghiên cứu bài toán hạn chế thông tin sai lệch dưới hai mô hình IC và mô hình LT, đồng thời đề xuất thuật toán xác định một tập nhỏ nhất các đỉnh có ảnh hưởng lớn nhất, từ đó lan truyền những thông tin tốt nhằm hạn chế ảnh hưởng của thông tin sai lệch. Điểm khác biệt trong nghiên cứu của N. P. Nguyen so với nghiên cứu của Budak [3] đó là:

Budak đã giới hạn kích thước của tập các đỉnh được lựa chọn để phổ biến thông tin tốt bởi ngân sách k cho trước, đồng thời Budak đã giả sử thông tin tốt có sự

ưu tiên kích hoạt hơn so với thông tin sai lệch khi cùng với tới một đỉnh. Ngoài ra, trong nghiên cứu của N. P. Nguyen còn mở rộng hơn đó là xét cả hai trường hợp, tập các đỉnh phát thông tin sai lệch ban đầu có thể biết trước hoặc chưa biết trước.

Liên quan gần nhất đến vấn đề nghiên cứu trong luận văn của tác giả đó là công trình nghiên cứu của H. Zhang và các cộng sự, 2016, [1]. Trong nghiên cứu của mình, H. Zhang đề xuất hai bài toán:

- Bài toán phát hiện thông tin sai lệch (Misinformation Detection): Giả sử không biết trước nguồn phát thông tin sai lệch (xác suất các đỉnh trở thành nguồn phát thông tin sai lệch là như nhau), yêu cầu xác định k vị trí đặt giám sát (Monitor) trên MXH sao cho cực đại hóa xác suất phát hiện thông tin sai lệch. H. Zhang đã chứng minh bài toán này tương đương với bài toán cực đại hóa ảnh hưởng theo Định nghĩa 2.1 trong đồ thị đảo ngược (đảo chiều mỗi cạnh).

- Bài toán đặt giám sát (τ-Monitor Placement): Giả sử biết trước nguồn phát thông tin sai lệch là tập các đỉnh S, r là đỉnh ta cần bảo vệ. Yêu cầu, tìm ra tập đỉnh có kích thước nhỏ nhất để đặt giám sát (sử dụng bộ lọc nội dung nhằm phát hiện thông tin sai lệch ở người dùng (đỉnh) được cài đặt và ngăn chặn sự chia sẻ, lan truyền thông tin sai lệch từ đỉnh này đến những đỉnh láng giềng. Việc đặt giám sát ở một đỉnh tương đương với việc loại bỏ đỉnh này và các cạnh kề với nó khỏi đồ thị ban đầu) sao cho xác suất thông tin sai lệch kích hoạt thành công đỉnh r nhỏ hơn ngưỡng τ cho trước (0 τ 1).

H. Zhang đã chứng minh bài toán này thuộc lớp #P-khó trên mô hình IC và đề xuất thuật toán tham lam dựa trên định nghĩa cutset2. Sau đó mở rộng bài toán này cho một nhóm đỉnh cần bảo vệ.

Chương 3

GIẢI PHÁP GIẢM THIỂU TỐI ĐA THIỆT HẠI DO THÔNG TIN SAI LỆCH GÂY RA TRÊN MẠNG XÃ HỘI

TRỰC TUYẾN

Chương này tập trung vào việc xây dựng bài toán Cực tiểu hóa thiệt hại do thông tin sai lệch gây ra - MDM, chứng minh bài toán thuộc lớp bài toán NP-khó, đồng thời đề xuất hai thuật toán tham lam nhằm giải quyết bài toán.