| Title: | Ứng dụng các mô hình ngôn ngữ tự nhiên trong phân loại nội dung giao dịch ngân hàng |
Author(s): | Phan Minh Chiến |
Advisor(s): | Dr. Chung Nhân Phú |
Keywords: | Phân loại văn bản; Transformer; PhoBERT; Dữ liệu giao dịch ngân hàng; Xử lý ngôn ngữ tự nhiên tiếng Việt; Text Classification; Transformer; PhoBERT; Bank Transaction Data; Vietnamese Natural Language Processing |
Abstract: | Trong kỷ nguyên ngân hàng số, dữ liệu mô tả giao dịch (transaction descriptions) đóng vai trò then chốt trong việc thấu hiểu hành vi khách hàng và quản trị rủi ro. Tuy nhiên, việc khai thác nguồn dữ liệu này gặp thách thức lớn do đặc thù văn bản tiếng Việt ngắn, phi cấu trúc, thiếu dấu thanh, chứa nhiều nhiễu và từ viết tắt. Các phương pháp học máy truyền thống thường bộc lộ hạn chế trong việc nắm bắt ngữ cảnh phức tạp, xử lý dữ liệu quy mô lớn và giải quyết vấn đề mất cân bằng lớp nghiêm trọng. Đề án này đề xuất phương pháp hiệu quả dựa trên kiến trúc Transformer để giải quyết bài toán phân loại tự động nội dung giao dịch ngân hàng vào 11 nhóm mục đích khác nhau. Nghiên cứu so sánh ba mô hình: Decision Tree (baseline), Multilayer Perceptron (MLP) và PhoBERT – mô hình ngôn ngữ tiền huấn luyện tối ưu cho tiếng Việt – trên tập dữ liệu thực tế quy mô lớn gồm gần 1 triệu giao dịch được gán nhãn thủ công từ một ngân hàng tại Việt Nam. Về mặt phương pháp luận, đề án xây dựng quy trình tiền xử lý chuyên biệt sử dụng kỹ thuật phân đoạn từ (Word Segmentation) với RDRSegmenter, tokenization BPE và từ điển viết tắt chuyên ngành ngân hàng. Để giải quyết vấn đề mất cân bằng dữ liệu nghiêm trọng, nghiên cứu áp dụng ba chiến lược kết hợp: Class Weighting, SMOTE và Focal Loss. Mô hình PhoBERT được tinh chỉnh (fine-tuning) với kỹ thuật học phân tầng, sử dụng optimizer AdamW và learning rate schedule với warmup, đánh giá chính qua chỉ số Macro F1-Score – phù hợp với dữ liệu mất cân bằng. Kết quả thực nghiệm cho thấy mô hình PhoBERT đạt hiệu suất vượt trội với Macro F1-Score cao nhất trên tập test, vượt xa các phương pháp baseline như Decision Tree và MLP. Phân tích confusion matrix và per-class metrics chỉ ra khả năng phân loại chính xác ngay cả trên các lớp thiểu số có số lượng mẫu rất ít. Nghiên cứu không chỉ đóng góp một giải pháp kỹ thuật có độ tin cậy cao cho bài toán phân loại giao dịch tiếng Việt mà còn mở ra tiềm năng ứng dụng thực tiễn trong các hệ thống Quản lý tài chính cá nhân (PFM), Chấm điểm tín dụng hành vi (Behavioral Credit Scoring) và Phát hiện gian lận tự động tại các ngân hàng Việt Nam. |
Issue Date: | 2025 |
Publisher: | Đại học Kinh tế Thành phố Hồ Chí Minh |
URI: | https://digital.lib.ueh.edu.vn/handle/UEH/77915 |
| Appears in Collections: | MASTER'S PROJECTS
|