• Tidak ada hasil yang ditemukan

CHƯƠNG 2. KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO

2.1 Bài toán cho điểm tín dụng

Các ngân hàng thương mại thường sử dụng hệ thống cho điểm tín dụng (xếp hạng khách hàng) để đánh giá xem một khách hàng có khả năng trả nợ hay không.

Đánh giá rủi ro tín dụng dựa trên việc xác định khả năng trả lãi và gốc khi đến hạn.

Mức độ rủi ro tín dụng phụ thuộc vào từng khách hàng, doanh nghiệp, trong đó mức độ rủi ro thường được đánh giá bằng các thang điểm dựa vào thông tin tài chính, phi tài chính đã có. Dựa trên nhóm khách hàng, mô hình cho điểm tín dụng thường được chia thành hai loại. Với nhóm khách hàng là doanh nghiệp, thì áp dụng mô hình xếp hạng tín dụng (credit rate). Mô hình này thường đánh giá mức độ tín dụng bằng các thang điểm như AAA, AA, BBB,…CC của Moody hay Standard & Poor. Với nhóm

khách hàng là cá nhân và hộ gia đình thì áp dụng mô hình cho điểm tín dụng (credit scoring); mô hình này thường đơn giản hơn bởi nó chỉ cần dựa vào các thông tin của khách hàng trong quá khứ và hiện tại để đưa ra quyết định có cho vay không. Hai mô hình này, hỗ trợ cán bộ tín dụng nhanh chóng ra quyết định đồng thời giám sát và đánh giá mức tín dụng của khách hàng. Chúng còn cho phép dự đoán, dự báo những khoản vay có chất lượng không tốt (nợ xấu).

Cho điểm tín dụng là phương pháp đo lường rủi ro gắn với một khách hàng bằng cách phân tích dữ liệu của họ để dự báo khả năng trả nợ [4]. Các mô hình cho điểm tín dụng được xây dựng dựa trên việc sử dụng dữ liệu đã có của khách hàng.

Chúng có khả năng thể hiện được mối quan hệ giữa các thông tin đã có để dự đoán khả năng tín dụng trong tương lai. Mối quan hệ này có thể được mô tả bởi hàm f như sau:

𝑓(𝑥1, 𝑥2, . . , 𝑥𝑛) = 𝑦 (2.1) Trong đó, 𝑥1, 𝑥2, . . , 𝑥𝑛 là các đặc trưng thông tin đầu vào của mỗi khách hàng.

y là mức độ tín dụng của khách hàng, với hai mức tín dụng là tốt hoặc xấu. Nhiệm vụ của mô hình cho điểm tín dụng là dự đoán giá trị mức độ tín dụng y từ tập thông tin đầu vào thông qua hàm f.

Lý do lựa chọn đặc trưng cho bài toán cho điểm tín dụng

Trong những năm gần đây các tổ chức tín dụng cũng như các ngân hàng bán lẻ rơi vào tình trạng nguy hiểm do đã không quan tâm sát đáng tới quản trị rủi ro tài chính. Trong các loại của rủi ro tài chính thì rủi ro tín dụng là hết sức quan trọng.

Việc quyết định cấp tín dụng là một chủ đề nóng và đã được nghiên cứu rộng rãi trong lĩnh vực tài chính-ngân hàng. Tập hợp các mô hình, phương pháp hỗ trợ cho việc cấp tín dụng được gọi là cho điểm tín dụng (Credit scoring).

Việc đánh giá mức độ tín nhiệm của khách hàng theo cách truyền thống gây tốn kém về cả thời gian và nguồn lực. Ngoài ra, các phương pháp này thường dựa vào ý chủ quan của các nhân viên tín dụng ngân hàng. Đó là lý do tại sao việc xây dựng và áp dụng các mô hình tính toán có sự hỗ trợ của máy tính được đưa vào lĩnh vực

cho điểm tín dụng. Các mô hình này có thể loại bỏ các nhân tố chủ quan trong quá trình cho điểm, đồng thời khuyến nghị cho ngân hàng có cho vay hay không hoặc khả năng liên quan tới việc hoàn trả tiền vay trong trường hợp đã thực hiện giao dịch vay tiền.

Chiến lược chung trong việc cho điểm tín dụng là sử dụng lịch sử tín dụng của khách hàng trước đây để tính toán rủi ro của những người nộp đơn vay mới [88]. Các thông tin lịch sử được thu thập để xây dựng mô hình cho điểm tín dụng. Mô hình này có thể được sử dụng để xác định mối liên quan giữa đặc điểm của người nộp đơn và độ tốt xấu. Nói chung, dữ liệu tài chính được sử dụng cho việc cho điểm tín dụng là khá lớn. Dữ liệu này có đặc điểm chứa nhiều nhiễu, nhiều giá trị bị thiếu (trong quá trình thu thập) gây ra bởi các đặc trưng dư thừa hoặc không liên quan và phân bố hết sức phức tạp [78]. Số lượng các đặc trưng và số mẫu được gọi là kích thước của dữ liệu. Dữ liệu của bài toán cho điểm tín dụng có số đặc trưng không thực sự nhiều nhưng nó có số lượng mẫu tương đối lớn (khoảng vài nghìn tới vài chục nghìn). Trong thực tế, mỗi ngày số lượng các đặc trưng không tăng đáng kể nhưng số mẫu tăng lên khá nhiều. Điều này đòi hỏi phải tính toán nhiều hơn, độ chính xác và tính dễ hiểu của mô hình giảm xuống [61]. Giải pháp để giải quyết vấn đề này là lựa chọn đặc trưng trên bộ dữ liệu ban đầu.

Về phương diện phân tích dữ liệu, việc phát hiện ra các mối liên hệ giữa các thuộc tính với kết quả đầu ra là vấn đề quan trọng trong việc khảo sát và cho điểm tín dụng. Tất cả các thông tin của khách hàng vay vốn đều có ý nghĩa và quan trọng. Tuy nhiên, mức độ quan trọng của các thuộc tính là không giống nhau. Mục tiêu của luận án là dựa vào kỹ thuật lựa chọn đặc trưng nhằm tìm mức độ quan trọng của các thuộc tính từ đó giúp cho việc phân lớp dữ liệu tín dụng một cách hiệu quả. Trong quá trình thu thập dữ liệu của khách hàng đến vay vốn, có nhiều thông tin bị thiếu. Những giá trị thiếu này của các thuộc tính ảnh hưởng tới quá trình phân tích dữ liệu tín dụng.

Trong các thuộc tính thu thập được có những thuộc tính quan trọng như thu nhập, nghề nghiệp, học vấn. Nếu các giá trị bị thiếu này nằm trong các thuộc tính quan

trọng hơn chẳng hạn như tuổi, nơi cư trú, tình trạng hôn nhân. Những thuộc tính với mức độ quan trọng thấp được loại bỏ sẽ làm giảm chiều dữ liệu và làm cho việc phân tích được hiệu quả và nhanh hơn.