Ứng dụng các mô hình ngôn ngữ tự nhiên trong phân loại nội dung giao dịch ngân hàng

Phan Minh Chiến

Please use this identifier to cite or link to this item: https://digital.lib.ueh.edu.vn/handle/UEH/77915

Title:	Ứng dụng các mô hình ngôn ngữ tự nhiên trong phân loại nội dung giao dịch ngân hàng
Author(s):	Phan Minh Chiến
Advisor(s):	Dr. Chung Nhân Phú
Keywords:	Phân loại văn bản; Transformer; PhoBERT; Dữ liệu giao dịch ngân hàng; Xử lý ngôn ngữ tự nhiên tiếng Việt; Text Classification; Transformer; PhoBERT; Bank Transaction Data; Vietnamese Natural Language Processing
Abstract:	Trong kỷ nguyên ngân hàng số, dữ liệu mô tả giao dịch (transaction descriptions) đóng vai trò then chốt trong việc thấu hiểu hành vi khách hàng và quản trị rủi ro. Tuy nhiên, việc khai thác nguồn dữ liệu này gặp thách thức lớn do đặc thù văn bản tiếng Việt ngắn, phi cấu trúc, thiếu dấu thanh, chứa nhiều nhiễu và từ viết tắt. Các phương pháp học máy truyền thống thường bộc lộ hạn chế trong việc nắm bắt ngữ cảnh phức tạp, xử lý dữ liệu quy mô lớn và giải quyết vấn đề mất cân bằng lớp nghiêm trọng. Đề án này đề xuất phương pháp hiệu quả dựa trên kiến trúc Transformer để giải quyết bài toán phân loại tự động nội dung giao dịch ngân hàng vào 11 nhóm mục đích khác nhau. Nghiên cứu so sánh ba mô hình: Decision Tree (baseline), Multilayer Perceptron (MLP) và PhoBERT – mô hình ngôn ngữ tiền huấn luyện tối ưu cho tiếng Việt – trên tập dữ liệu thực tế quy mô lớn gồm gần 1 triệu giao dịch được gán nhãn thủ công từ một ngân hàng tại Việt Nam. Về mặt phương pháp luận, đề án xây dựng quy trình tiền xử lý chuyên biệt sử dụng kỹ thuật phân đoạn từ (Word Segmentation) với RDRSegmenter, tokenization BPE và từ điển viết tắt chuyên ngành ngân hàng. Để giải quyết vấn đề mất cân bằng dữ liệu nghiêm trọng, nghiên cứu áp dụng ba chiến lược kết hợp: Class Weighting, SMOTE và Focal Loss. Mô hình PhoBERT được tinh chỉnh (fine-tuning) với kỹ thuật học phân tầng, sử dụng optimizer AdamW và learning rate schedule với warmup, đánh giá chính qua chỉ số Macro F1-Score – phù hợp với dữ liệu mất cân bằng. Kết quả thực nghiệm cho thấy mô hình PhoBERT đạt hiệu suất vượt trội với Macro F1-Score cao nhất trên tập test, vượt xa các phương pháp baseline như Decision Tree và MLP. Phân tích confusion matrix và per-class metrics chỉ ra khả năng phân loại chính xác ngay cả trên các lớp thiểu số có số lượng mẫu rất ít. Nghiên cứu không chỉ đóng góp một giải pháp kỹ thuật có độ tin cậy cao cho bài toán phân loại giao dịch tiếng Việt mà còn mở ra tiềm năng ứng dụng thực tiễn trong các hệ thống Quản lý tài chính cá nhân (PFM), Chấm điểm tín dụng hành vi (Behavioral Credit Scoring) và Phát hiện gian lận tự động tại các ngân hàng Việt Nam.
Issue Date:	2025
Publisher:	Đại học Kinh tế Thành phố Hồ Chí Minh
URI:	https://digital.lib.ueh.edu.vn/handle/UEH/77915
Appears in Collections:	MASTER'S PROJECTS

Files in This Item:

File

Phan Minh Chiến.pdf

Description

Size

2.96 MB

Format

Adobe PDF

Show full item record

Google Scholar^TM

Check

Files in This Item:

Google ScholarTM

Google Scholar^TM