--

20(1)2025

Ứng dụng học máy và học sâu trong nghiên cứu tài chính: Một nghiên cứu về dự báo khả năng hoàn trả khoản vay của khách hàng


Tác giả - Nơi làm việc:
Nguyễn Phát Đạt - Trường Đại Học Kinh tế - Luật, Thành phố Hồ Chí Minh Đại học Quốc Gia Thành Phố Hồ Chí Minh, Thành phố Hồ Chí Minh , Việt Nam
Hồ Mai Minh Nhật - Trường Đại Học Kinh tế - Luật, Thành phố Hồ Chí Minh Đại học Quốc Gia Thành Phố Hồ Chí Minh, Thành phố Hồ Chí Minh , Việt Nam
Trương Công Vinh - Trường Đại Học Kinh tế - Luật, Thành phố Hồ Chí Minh Đại học Quốc Gia Thành Phố Hồ Chí Minh, Thành phố Hồ Chí Minh , Việt Nam
Lê Quang Chấn Phong - Trường Đại Học Kinh tế - Luật, Thành phố Hồ Chí Minh Đại học Quốc Gia Thành Phố Hồ Chí Minh, Thành phố Hồ Chí Minh , Việt Nam
Lê Hoành Sử - Trường Đại Học Kinh tế - Luật, Thành phố Hồ Chí Minh Đại học Quốc Gia Thành Phố Hồ Chí Minh, Thành phố Hồ Chí Minh , Việt Nam
Tác giả liên hệ, Email: Lê Hoành Sử - sulh@uel.edu.vn
Ngày nộp: 04-11-2024
Ngày duyệt đăng:
Ngày xuất bản: 17-12-2024

Tóm tắt
Trong bối cảnh cho vay ngang hàng (P2P lending) ngày càng phát triển, việc đánh giá khả năng trả nợ của khách hàng trở nên cần thiết, không chỉ giúp nhà đầu tư cá nhân hạn chế rủi ro mà còn phát hiện các cơ hội đầu tư tiềm năng. Nghiên cứu này đề xuất việc áp dụng học máy và học sâu để phân tích hành vi, thông tin nhân khẩu và lịch sử tín dụng của người vay, qua đó dự báo khả năng hoàn trả khoản vay. Các thuật toán được áp dụng trong bài nghiên cứu bao gồm: Logistic Regression (LR), K-Nearest Neighbor (KNN), Extreme Gradient Boosting (XGB), Light Gradient Boosting Machine (LGBM) và học sâu: Long Short Term Memory (LSTM), Artificial Neural Network (ANN). Kết quả sau khi xử lý và tối ưu hóa cho thấy các mô hình Ensemble Learning như XGB, LGBM đem lại kết quả vượt trội so với các mô hình máy học truyền thống với độ chính xác mô hình đạt hơn 85%. Các đặc trưng như tỷ lệ lãi suất (int_rate), xếp hạng tín dụng (subgrade) và số tiền vay (loan_amnt) có ý nghĩa đặc biệt quan trọng trong việc dự đoán này. Với kết quả dự đoán, chúng tôi kỳ vọng rằng nghiên cứu sẽ cung cấp một công cụ hỗ trợ đắc lực cho nhà đầu tư cá nhân trong việc đánh giá và lựa chọn hồ sơ vay, từ đó góp phần vào việc thúc đẩy một thị trường cho vay ngang hàng minh bạch và hiệu quả hơn.

Chỉ số JEL
G20; G23

Từ khóa
dự báo khả năng hoàn trả khoản vay; đánh giá rủi ro; học máy; học sâu; vay ngang hàng

Toàn văn:
PDF

Trích dẫn:

Nguyen, D. P., Ho, N. M. M., Truong, V. C., Le, P. Q. C., Le, S. H. (2025). Ứng dụng học máy và học sâu trong nghiên cứu tài chính: Một nghiên cứu về dự báo khả năng hoàn trả khoản vay của khách hàng [Applying in machine learning and deep learning in finance industry: A case study on repayment prediction]. Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh – Kinh tế và Quản trị Kinh doanh, 20(1), 35-53. doi:10.46223/HCMCOUJS.econ.vi.20.1.3828.2024


Tài liệu tham khảo

Abdolrasol, M. G., Hussain, S. M., Ustun, T. S., Sarker, M. R., Hannan, M. A., Mohamed, R., Ali, J. A., Mekhilef S., & Milad, A. (2021). Artificial neural networks based optimization techniques: A review. Electronics, 10(21), Article 2689.


Aksan, F., Li, Y., Suresh, V., & Janik, P. (2023). CNN-LSTM vs. LSTM-CNN to predict power flow direction: A case study of the high-voltage subnet of Northeast Germany. Sensors, 23(2), Article 901.


Al Daoud, E. (2019). Comparison between XGBoost, LightGBM and CatBoost using a home credit dataset. International Journal of Computer and Information Engineering, 13(1), 6-10.


Amjad, M., Ahmad, I., Ahmad, M., Wróblewski, P., Kamiński, P., & Amjad, U. (2022). Prediction of pile bearing capacity using XGBoost algorithm: Modeling and performance evaluation. Applied Sciences, 12(4), Article 2126.


Bachmann, A., Becker, A., Buerckner, D., Hilker, M., Kock, F., Lehmann, M., Tiburtius, P., & Funk, B. (2011). Online peer-to-peer lending-a literature review. Journal of Internet Banking and Commerce, 16(2), Article 1.


Costa e Silva, E., Lopes, I. C., Correia, A., & Faria, S. (2020). A logistic regression model for consumer default risk. Journal of Applied Statistics, 47(13/15), 2879-2894.


Chang, Y. C., Chang, K. H., & Wu, G. J. (2018). Application of eXtreme gradient boosting trees in the construction of credit risk assessment models for financial institutions. Applied Soft Computing, 73(6), 914-920.


Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 785-794). ACM.


Chính phủ Việt Nam. (2010). Law No. 47/2010/QH12 by the National Assembly: Law on credit institutions. https://vanban.chinhphu.vn/default.aspx?pageid=27160&docid=96074


Daoud, M., & Mayo, M. (2019). A survey of neural network-based cancer prediction models from microarray data. Artificial Intelligence in Medicine, 97, 204-214.


Desyani, T., Saifudin, A., & Yulianti, Y. (2020). Feature selection based on naive bayes for caesarean section prediction. IOP Conference Series: Materials Science and Engineering, 879(1), Article 012091.


George, N. (2021). All lending club loan data. https://www.kaggle.com/datasets/ wordsforthewise/lending-club/data


Graves, A. (2012). Long short-term memory. In A. Graves (Ed.), Supervised sequence labelling with recurrent neural networks (pp. 37-45). Springer.


Halagundegowda, G. R., Abhishek, S., Mohan, K. T., & Naveena, K. (2023). Evaluation of classification ability of Support Vector Machine (SVM) in binary classification problems. Training, 8(5), 7-13.


Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780.


Ko, P. C., Lin, P. C., Do, H. T., & Huang, Y. F. (2022). P2P lending default prediction based on AI and statistical models. Entropy, 24(6), Article 801.


Kramer, O. (2013). Dimensionality reduction with unsupervised nearest neighbors. In J. Kacprzy & K. C. Jain (Eds.), Intelligent systems reference library (Vol. 51, pp. 13-23). Springer.


Laaksonen, J., & Oja, E. (1996). Classification with learning k-nearest neighbors. Proceedings of International Conference on Neural Networks (ICNN’96), 3, 1480-1483. IEEE.


Li, Z., Li, S., Li, Z., Hu, Y., & Gao, H. (2021). Application of XGBoost in P2P default prediction. Journal of Physics: Conference Series, 1871(1), Article 012115.


Liang, W., Luo, S., Zhao, G., & Wu, H. (2020). Predicting hard rock pillar stability using GBDT, XGBoost, and LightGBM algorithms. Mathematics, 8(5), Article 765.


Mucherino, A., Papajorgji, P. J., & Pardalos, P. M. (2009). K-nearest neighbor classification. In A. P. Mucherino (Ed.), Data mining in agriculture (pp. 83-106). Springer.


Peterson, K., Söderström, C., Kiani‐Anaraki, M., & Levy, G. (1999). Evaluation of the ability of thermal and electrical tests to register pulp vitality. Dental Traumatology, 15(3), 127-131.


Phan, A. D., & Nguyen, N. H. (2013). Combining option approach with logistic regression analysis to measure default risk of listed companies on Vietnamese stock market. Journal of Economic Development, 217(2013), 92-109.


Singh, M. (2023). Financial crisis in review. https://www.investopedia.com/articles/economics/ 09/financial-crisis-review.asp


Taha, A. A., & Malebary, S. J. (2020). An intelligent approach to credit card fraud detection using an optimized light gradient boosting machine. IEEE Access, 8(1), 25579-25587.


Van der Schouw, Y. T., Verbeek, A. L., & Ruijs, J. H. (1992). ROC curves for the initial assessment of new diagnostic tests. Family Practice, 9(4), 506-511.


Walczak, S. (2019). Artificial neural networks. In D. Mehdi Khosrow-Pour (Ed.), Advanced methodologies and technologies in artificial intelligence, computer simulation, and human-computer interaction (pp. 40-53). IGI Global.


Wirth, R., & Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining (Vol 1, pp. 29-39). The Practical Application Company.


Xia, Y., Liu, C., Li, Y., & Liu, N. (2017). A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring. Expert Systems with Applications, 78, 225-241.


Zhang, D., & Gong, Y. (2020). The comparison of LightGBM and XGBoost coupling factor analysis and prediagnosis of acute liver failure. IEEE Access, 8, 220990-221003.


Zhao, S., & Zou, J. (2021). Predicting loan defaults using logistic regression. Journal of Student Research, 10(1), 1-14.



Creative Commons License
© The Author(s) 2025. This is an open access publication under CC BY NC licence.