• Tidak ada hasil yang ditemukan

Phương pháp Hồi quy Logistic (Logistic regression)

Dalam dokumen ĐẠI HỌC QUỐC GIA HÀ NỘI (Halaman 30-34)

CHƯƠNG 2: CÁC KỸ THUẬT HỌC MÁY TRONG BÀI TOÁN PHÂN TÍCH

2.4. Phương pháp Hồi quy Logistic (Logistic regression)

Một thuật toán rất nổi tiếng trong thống kê được sử dụng để dự đoán một số giá trị (Y) cho một tập hợp các tính năng (X).

Thuật toán Hồi quy Logistic thuộc học máy có giám sát để phân loại dữ liệu. Mô hình hồi quy Logistic áp dụng cho biến phụ thuộc là biến định tính hoặc định lượng chỉ có hai giá trị (có hoặc không) hay nhị phân là 0 hoặc 1. Điều này phù hợp với bài toán phân loại bình luận người dùng cụ thể là phân tích quan điểm. Đầu ra của bài toán đó là xác định bình luận đó là tích cực hay tiêu cực.

2.4.2. Mô hình Logistic

Đầu tiên, ta sẽ xem xét mô hình logistic như sau: Hãy xem xét một mô hình có hai yếu tố dự đoán, x1 và x2, và một biến phản hồi nhị phân Y, mà chúng tôi biểu thị p = P (Y = 1). Giả định mối quan hệ tuyến tính giữa các biến dự đoán và tỷ lệ cược log của sự kiện Y = 1. Mối quan hệ tuyến tính này có thể được viết dưới dạng toán học sau (trong đó ℓ là tỷ lệ cược log, b là cơ số của logarit và là các thông số của mô hình):

0 1 1 2 2

logb 1

p x x

p

  

   

 (2.7) Có thể sử dụng lũy thừa để phục hồi tỉ lệ cược ta có:

0 1 1 2 2

1

x x

p b

p

 

  (2.8)

Bằng thao tác đại số (chia cả tử và mẫu số cho b 01 1x2 2x ) ta thu được xác suất Y = 1 là:

0 1 1 2 2

0 1 1 2 2 ( 0 1 1 2 2) 0 1 1 2 2

1 ( )

1 1

x x

x x x x b

p b S x x

b b

 

   

  

    

  (2.9)

Trong đó Sb là hàm sigmoid với cơ sở b. Công thức trên cho thấy rằng sau khi i được sửa, chúng ta có thể dễ dàng tính toán tỷ lệ cược Y = 1 cho một quan sát nhất định, hoặc xác suất Y = 1 cho một quan sát nhất định. Trường hợp sử dụng chính của mô hình logistic là đưa ra một quan sát (x1,x2) và ước tính xác suất p mà Y = 1. Trong hầu hết các ứng dụng, cơ số b của lôgarit thường được coi là e. Tuy nhiên, trong một số trường hợp, việc truyền đạt kết quả có thể dễ dàng hơn bằng cách làm việc trong cơ sở 2 hoặc cơ sở 10.

Chúng tôi xem xét một ví dụ với b = 10 và các hệ số 0  3,1 1,2 2 Cụ thể, mô hình là:

10 1 2

log 3 2

1

p x x

p    

(2.10)

Trong đó, p là xác suất của sự kiện khi Y=1.

Có thể hiểu như sau:

 0  3 là chặn y. Đó là tỷ lệ cược của sự kiện Y = 1, khi các yếu tố dự đoán x1 x2 0. Bằng cách tính lũy thừa, chúng ta có thể thấy rằng khi x1 x2 0 tỷ lệ cược của trường hợp Y = 1 là 1/ (1000 1) 1/ 1001. Tương tự, xác suất của sự kiện Y = 1 khi

1 2 0

x  x có thể được tính là 1/ (1000 1) 1/ 1001

11có nghĩa là tăng x1 lên 1 sẽ làm tăng tỷ lệ lên 1. Vì vậy, nếu x1 tăng 1, tỷ lệ cược rằng Y = 1 tăng theo hệ số của 101. Lưu ý rằng xác suất của Y = 1 cũng đã tăng lên, nhưng nó không tăng nhiều vì tỷ lệ

cược đã tăng lên.

 2 2có nghĩa là tăng x2 lên 1 sẽ làm tăng tỷ lệ lên 2. Vì vậy, nếu x2 tăng 1, tỷ lệ cược rằng Y = 1 sẽ tăng theo hệ số của 102. Lưu ý rằng ảnh hưởng của x2 lên tỷ lệ cược đăng nhập lớn gấp đôi ảnh hưởng của x1, nhưng ảnh hưởng đến tỷ lệ cược lớn hơn 10 lần. Nhưng ảnh hưởng đến xác suất của Y = 1 không lớn hơn 10 lần, nó chỉ ảnh hưởng đến tỷ lệ cược lớn hơn 10 lần.

Để ước tính các tham số từ dữ liệu, người ta phải thực hiện hồi quy logistic.

2.4.3. Hàm Logistic và các tỉ lệ 2.4.3.1. Định nghĩa hàm logistic

Một hàm Logistic chuẩn là một hàm Sigmoid, nhận bất kỳ đầu vào thực t và xuất ra giá trị từ 0 đến 1. Đối với logit, điều này có nghĩa là với bất kỳ tỉ lệ logit đầu vào sẽ có đầu ra là xác suất. Hàm Logistic chuẩn được định nghĩa như sau:

( ) 1

1 1

t

t t

t e

e e

 

  (2.11) Minh họa, trường hợp t liên tục trong khoảng từ -6 đến 6 ta có hình .

Hình 2. 4: Đồ thị của hàm Logistic khi t thuộc (-6,6) Giả sử t là một hàm tuyến tính một biến x khi đó ta có:

0 1

t   x (2.12) Và khi đó, ta có thể có hàm logistic tổng quát dạng p: (0,1)là:

0 1

( )

( ) ( ) 1

1 x

p x t

e

(2.13)

Như trong mô hình Logistic, xác suất p(x) được hiểu là phụ thuộc vào giá trị đầu ra của Y =1 thay vì Y=0. Rõ ràng, các biến có độ phản hồi Yi là không giống nhau với các điểm dữ liệu Xi. Vì vậy ta có ma trận X và các tham số chia sẻ .

Đặt 0 1

x W xT

khi đó ta sẽ có công thức tính xác suất cho hàm logistic tổng quát có dạng như sau:

( 1| : ) 1

1

W xT

p y x w

e

 

(2.14)

2.4.3.2. Các tính chất hàm Logistic:

 Miền xác định: Các số thực

 Miền giá trị: (0,1)

 Hàm liên tục

 Hàm tăng trên miền xác định

 Hàm đối xứng qua điểm (0, ½), không phải hàm chẵn cũng không phải hàm lẻ

 Bị giới hạn trên và dưới

 Không có cực trị địa phương

 Tiệm cận ngang: y = 0 và y = 1

 Không có tiệm cận đứng

 Mượt (smooth) nên có đạo hàm mọi nơi, có thể được lợi trong việc tối ưu hàm Sigmoid. Tính chất của logistic regression

2.4.3.3. Hồi quy Logistic được sử dụng nhiều trong bài toán phân lớp Hồi quy Logistic là bài toán hồi quy nhưng lại được sử dụng nhiều cho các bài toán phân lớp. Việc xác định một điểm dữ liệu thuộc các lớp khác nhau sau khi đã xây dựng được mô hình sẽ tùy thuộc vào xác suất của điểm dữ liệu đó là:

) 1| ; ; 0 | ;

( ) (

P yx w P yx w (2.15) Nếu lớp nào có xác suất lớn hơn thì điểm dữ liệu sẽ được kết luận thuộc lớp đó. Do tổng của hai xác suất trong công thức trên là 1, vậy ta chỉ cần xác định xác suất P y(  1| ;x w);có lớn hơn 0,5 hay không.

Ưu điểm của phương pháp Hồi quy Logistic: Học dự đoán thay vì phân

lớp ra sác xuất của lớp sẽ hợp lý hơn. Hồi quy Logistic dùng hàm phân lớp phi tuyến tính nên thường thuộc các mô hình cho kết quả tốt hơn

2.4.3.4. Đường ranh giới của Hồi quy Logistic là một siêu phẳng

Như phần a, rõ ràng khi điểm dữ liệu có đầu ra xác suất là lớn hơn 0.5 thì thuộc lớp 1 vậy ta có:

1| ; 0.5 1 0.5 1 0

1

( ) T T

w x T

P y x w w x e w x

e

 

(2.16)

Như vậy, tập hợp các điểm dữ liệu thuộc lớp 1 tạo thành một nửa không gian w xT 0và tập hợp các điểm dữ liệu còn lại thuộc nửa không gian ngược lại.

Vậy, ranh giới của hai nửa không gian là siêu phẳng w xT 0. Điều này dẫn đến phân lớp của logistic regression được coi là một bộ phân lớp tuyến tính

2.4.3.5. Hồi quy Logistic không yêu cầu giả thiết có thể phân tách tuyến tính

Hồi quy Logistic lợi thế hơn so với PLA là giả thiết của dữ liệu đầu vào theo hai lớp không cần yêu cầu phân tách tuyến tính. Tuy vậy, ranh giới tìm được vẫn ở có dạng tuyến tính. Vì vậy, mô hình này chỉ phù hợp với dạng mô hình dữ liệu chỉ có một số điểm dữ liệu phá vỡ tính phân tách tuyến tính của hai lớp hay nói cách khác nó gần với phân tách tuyến tính.

2.4.3.6. Ngưỡng quyết định có thể thay đổi

Việc xây dựng ngưỡng phụ thuộc vào P y( 1| ;x w);vì vậy ta hoàn toàn có thể lựa chọn thay đổi ngưỡng phù hợp với mục đích của bài toán. Ví dụ, nhiều trường hợp, việc đánh giá hàm lượng dinh dưỡng trong thực phẩm cho trẻ là quan trọng. Vậy để tránh chỉ tiêu này có sự nhầm lẫn giữa đánh giá đúng sai thì xác suất lựa chọn ngưỡng hoàn toàn có thể thay đổi từ 0.5 thành 0.6 hoặc ngược lại đánh thành 0.4 tùy vào yêu cầu của bài toán đánh giá.

Dalam dokumen ĐẠI HỌC QUỐC GIA HÀ NỘI (Halaman 30-34)

Dokumen terkait