Ứng dụng các mô hình ngôn ngữ tự nhiên trong phân loại nội dung giao dịch ngân hàng

Phan Minh Chiến

Please use this identifier to cite or link to this item: https://digital.lib.ueh.edu.vn/handle/UEH/77915

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Dr. Chung Nhân Phú	en_US
dc.contributor.author	Phan Minh Chiến	en_US
dc.date.accessioned	2026-05-04T07:41:51Z	-
dc.date.available	2026-05-04T07:41:51Z	-
dc.date.issued	2025	-
dc.identifier.uri	https://digital.lib.ueh.edu.vn/handle/UEH/77915	-
dc.description.abstract	Trong kỷ nguyên ngân hàng số, dữ liệu mô tả giao dịch (transaction descriptions) đóng vai trò then chốt trong việc thấu hiểu hành vi khách hàng và quản trị rủi ro. Tuy nhiên, việc khai thác nguồn dữ liệu này gặp thách thức lớn do đặc thù văn bản tiếng Việt ngắn, phi cấu trúc, thiếu dấu thanh, chứa nhiều nhiễu và từ viết tắt. Các phương pháp học máy truyền thống thường bộc lộ hạn chế trong việc nắm bắt ngữ cảnh phức tạp, xử lý dữ liệu quy mô lớn và giải quyết vấn đề mất cân bằng lớp nghiêm trọng. Đề án này đề xuất phương pháp hiệu quả dựa trên kiến trúc Transformer để giải quyết bài toán phân loại tự động nội dung giao dịch ngân hàng vào 11 nhóm mục đích khác nhau. Nghiên cứu so sánh ba mô hình: Decision Tree (baseline), Multilayer Perceptron (MLP) và PhoBERT – mô hình ngôn ngữ tiền huấn luyện tối ưu cho tiếng Việt – trên tập dữ liệu thực tế quy mô lớn gồm gần 1 triệu giao dịch được gán nhãn thủ công từ một ngân hàng tại Việt Nam. Về mặt phương pháp luận, đề án xây dựng quy trình tiền xử lý chuyên biệt sử dụng kỹ thuật phân đoạn từ (Word Segmentation) với RDRSegmenter, tokenization BPE và từ điển viết tắt chuyên ngành ngân hàng. Để giải quyết vấn đề mất cân bằng dữ liệu nghiêm trọng, nghiên cứu áp dụng ba chiến lược kết hợp: Class Weighting, SMOTE và Focal Loss. Mô hình PhoBERT được tinh chỉnh (fine-tuning) với kỹ thuật học phân tầng, sử dụng optimizer AdamW và learning rate schedule với warmup, đánh giá chính qua chỉ số Macro F1-Score – phù hợp với dữ liệu mất cân bằng. Kết quả thực nghiệm cho thấy mô hình PhoBERT đạt hiệu suất vượt trội với Macro F1-Score cao nhất trên tập test, vượt xa các phương pháp baseline như Decision Tree và MLP. Phân tích confusion matrix và per-class metrics chỉ ra khả năng phân loại chính xác ngay cả trên các lớp thiểu số có số lượng mẫu rất ít. Nghiên cứu không chỉ đóng góp một giải pháp kỹ thuật có độ tin cậy cao cho bài toán phân loại giao dịch tiếng Việt mà còn mở ra tiềm năng ứng dụng thực tiễn trong các hệ thống Quản lý tài chính cá nhân (PFM), Chấm điểm tín dụng hành vi (Behavioral Credit Scoring) và Phát hiện gian lận tự động tại các ngân hàng Việt Nam.	en_US
dc.format.medium	99 tr.	en_US
dc.language.iso	Vietnamese	en_US
dc.publisher	Đại học Kinh tế Thành phố Hồ Chí Minh	en_US
dc.subject	Phân loại văn bản	en_US
dc.subject	Transformer	en_US
dc.subject	PhoBERT	en_US
dc.subject	Dữ liệu giao dịch ngân hàng	en_US
dc.subject	Xử lý ngôn ngữ tự nhiên tiếng Việt	en_US
dc.subject	Text Classification	en_US
dc.subject	Transformer	en_US
dc.subject	PhoBERT	en_US
dc.subject	Bank Transaction Data	en_US
dc.subject	Vietnamese Natural Language Processing	en_US
dc.title	Ứng dụng các mô hình ngôn ngữ tự nhiên trong phân loại nội dung giao dịch ngân hàng	en_US
dc.type	Master's Project	en_US
ueh.speciality	Mathematical Economics (by Coursework) = Toán kinh tế (hướng ứng dụng)	en_US
item.grantfulltext	reserved	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
item.cerifentitytype	Publications	-
item.languageiso639-1	Vietnamese	-
item.fulltext	Full texts	-
item.openairetype	Master's Project	-
Appears in Collections:	MASTER'S PROJECTS

Files in This Item:

File

Phan Minh Chiến.pdf

Description

Size

2.96 MB

Format

Adobe PDF

Show simple item record

Google Scholar^TM

Check

Files in This Item:

Google ScholarTM

Google Scholar^TM