• Tidak ada hasil yang ditemukan

Các mô hình học máy

Dalam dokumen ĐẠI HỌC QUỐC GIA HÀ NỘI (Halaman 33-37)

Chương 2: Khai thác & sử dụng công cụ Tableau BI

2.4. Các mô hình học máy

Tableau cung cấp các mô hình đặc thù sau phục vụ cho việc xây dựng được hệ ra quyết định. Dưới đây là 02 mô hình sẽ được sử dụng trong luận văn để xây dựng hệ hỗ trợ ra quyết định nguồn lực nhân sự cho doanh nghiệp bán lẻ

2.4.1. Mô hình phân cụm dữ liệu: Cluster

Tableau sử dụng thuật toán k-mean để phân cụm. Đối với một số cụm k cho trước, thuật toán phân chia dữ liệu thành các cụm k. Mỗi cụm có một trung tâm (centroid) là giá trị trung bình của tất cả các điểm trong cụm đó. K-có nghĩa là định vị các trung tâm thông qua một quy trình lặp để giảm thiểu khoảng cách giữa các điểm riêng lẻ trong một cụm và trung tâm cụm. Trong Tableau, người dùng có thể chỉ định số cụm mong muốn hoặc yêu cầu Tableau kiểm tra các giá trị khác nhau của k và đề xuất số cụm tối ưu.

K-mean yêu cầu một đặc điểm kỹ thuật ban đầu của các trung tâm cụm. Bắt đầu với một cụm, phương thức chọn một biến có giá trị trung bình được sử dụng làm ngưỡng để chia dữ liệu thành hai. Các trọng tâm của hai phần này sau đó được sử dụng để khởi tạo phương tiện k để tối ưu hóa thành viên của hai cụm. Tiếp theo, một trong hai cụm được chọn để phân tách và một biến trong cụm đó được chọn có giá trị trung bình được sử dụng làm ngưỡng để chia cụm đó thành hai. K-mean sau đó được sử dụng để phân vùng dữ liệu thành ba cụm, được khởi tạo với các tâm của hai phần của cụm phân tách và tâm của cụm còn lại. Quá trình này được lặp lại cho đến khi đạt được số lượng cụm.

Tableau sử dụng thuật toán của Lloyd với khoảng cách Euclide bình phương để tính toán phân cụm k-mean cho mỗi k. Kết hợp với quy trình phân tách để xác định các tâm ban đầu cho mỗi k> 1, việc phân cụm kết quả là xác định, với kết quả chỉ phụ thuộc vào số lượng cụm.

Thuật toán bắt đầu bằng cách chọn các trung tâm cụm ban đầu, sau đó, nó phân vùng các nhãn hiệu bằng cách gán từng cái cho trung tâm gần nhất của nó. Sau đó, nó tinh chỉnh kết quả bằng cách tính toán các trung tâm mới cho mỗi phân vùng bằng cách lấy trung bình tất cả các điểm được gán cho cùng một cụm. Tiếp theo, nó xem xét việc gán nhãn hiệu cho các cụm và gán lại bất kỳ nhãn hiệu nào gần với một trung tâm khác hơn trước đây.

Các cụm được xác định lại và các dấu được gán lại lặp đi lặp lại cho đến khi không có thêm thay đổi nào xảy ra.

Tiêu chí được sử dụng để xác định số lượng cụm tối ưu

Tableau sử dụng tiêu chí Calinski-Harabasz để đánh giá chất lượng cụm. Tiêu chí Calinski-Harabasz được định nghĩa là:

𝑆𝑆𝐵

𝑆𝑆𝑤𝑥(𝑁 − 𝑘) (𝑘 − 1)

Trong đó 𝑆𝑆𝐵 là phương sai tổng thể giữa các cụm, 𝑆𝑆𝑤 là tổng phương sai trong cụm, k số lượng cụm và N số lượng quan sát.

Giá trị của tỷ lệ này càng lớn, các cụm càng gắn kết (phương sai trong cụm thấp) và các cụm riêng biệt (tách biệt giữa các cụm) càng cao.

Nếu người dùng không chỉ định số lượng cụm, Tableau chọn số cụm tương ứng với mức tối đa cục bộ đầu tiên của chỉ số Calinski-Harabasz. Theo mặc định, k-mean sẽ được chạy tối đa 25 cụm nếu không đạt được mức tối đa cục bộ đầu tiên của chỉ số cho giá trị k nhỏ hơn. người dùng có thể đặt giá trị tối đa là 50 cụm.

Ví dụ: Phân loại các khách hàng mua hàng dựa trên tiêu chí avg(price) – Giá trung bình, Số lượng cụm là 3

người dùng có thể xem thông số về kết quả phân cụm như sau:

2.4.2. Mô hình đường xu hướng

Đường xu hướng được sử dụng để dự đoán sự tiếp tục của một xu hướng nhất định của một biến. Nó cũng giúp xác định mối tương quan giữa hai biến bằng cách quan sát xu

hướng trong cả hai biến đó cùng một lúc. Có nhiều mô hình toán học để thiết lập các đường xu hướng. Tableau cung cấp bốn tùy chọn

o Hàm tuyến tính

Với kiểu mô hình tuyến tính, công thức là:

Y = b0 + b1 * X

Trong đó b1là độ dốc và b0 là chặn của dòng.

Ví dụ: Xu hướng sản lượng bán hàng theo thời gian tại 1 doanh nghiệp theo hàm tuyến tính

o Hàm logarit

Với kiểu mô hình logarit, công thức là:

Y = b0 + b1 * ln(X)

o Hàm mũ

Với kiểu mô hình hàm mũ, công thức là:

Y = exp(b0)* exp(b1 * X)

Với một mô hình hàm mũ, biến được biến đổi bằng nhật ký tự nhiên trước khi ước tính mô hình để các dấu được vẽ trong chế độ xem của người dùng được tìm thấy bằng cách cắm vào các giá trị giải thích khác nhau để tìm giá trị của ln(Y).

ln(Y) = b0 + b1 * X

Các giá trị này sau đó được lũy thừa để vẽ đường xu hướng. Những gì người dùng thấy là mô hình hàm mũ theo mẫu sau:

Y = b2*exp(b1 * X)

Ở đây b2 là giá trị của exp(b0). Do logarit không được xác định cho các số nhỏ hơn 0, bất kỳ dấu nào có biến là âm được lọc trước khi ước lượng mô hình.

o Hàm đa thức

2.5. Các phép tính & biểu đồ cơ bản

Dalam dokumen ĐẠI HỌC QUỐC GIA HÀ NỘI (Halaman 33-37)

Dokumen terkait