Advanced
Please use this identifier to cite or link to this item: https://digital.lib.ueh.edu.vn/handle/UEH/77915
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorDr. Chung Nhân Phúen_US
dc.contributor.authorPhan Minh Chiếnen_US
dc.date.accessioned2026-05-04T07:41:51Z-
dc.date.available2026-05-04T07:41:51Z-
dc.date.issued2025-
dc.identifier.urihttps://digital.lib.ueh.edu.vn/handle/UEH/77915-
dc.description.abstractTrong kỷ nguyên ngân hàng số, dữ liệu mô tả giao dịch (transaction descriptions) đóng vai trò then chốt trong việc thấu hiểu hành vi khách hàng và quản trị rủi ro. Tuy nhiên, việc khai thác nguồn dữ liệu này gặp thách thức lớn do đặc thù văn bản tiếng Việt ngắn, phi cấu trúc, thiếu dấu thanh, chứa nhiều nhiễu và từ viết tắt. Các phương pháp học máy truyền thống thường bộc lộ hạn chế trong việc nắm bắt ngữ cảnh phức tạp, xử lý dữ liệu quy mô lớn và giải quyết vấn đề mất cân bằng lớp nghiêm trọng. Đề án này đề xuất phương pháp hiệu quả dựa trên kiến trúc Transformer để giải quyết bài toán phân loại tự động nội dung giao dịch ngân hàng vào 11 nhóm mục đích khác nhau. Nghiên cứu so sánh ba mô hình: Decision Tree (baseline), Multilayer Perceptron (MLP) và PhoBERT – mô hình ngôn ngữ tiền huấn luyện tối ưu cho tiếng Việt – trên tập dữ liệu thực tế quy mô lớn gồm gần 1 triệu giao dịch được gán nhãn thủ công từ một ngân hàng tại Việt Nam. Về mặt phương pháp luận, đề án xây dựng quy trình tiền xử lý chuyên biệt sử dụng kỹ thuật phân đoạn từ (Word Segmentation) với RDRSegmenter, tokenization BPE và từ điển viết tắt chuyên ngành ngân hàng. Để giải quyết vấn đề mất cân bằng dữ liệu nghiêm trọng, nghiên cứu áp dụng ba chiến lược kết hợp: Class Weighting, SMOTE và Focal Loss. Mô hình PhoBERT được tinh chỉnh (fine-tuning) với kỹ thuật học phân tầng, sử dụng optimizer AdamW và learning rate schedule với warmup, đánh giá chính qua chỉ số Macro F1-Score – phù hợp với dữ liệu mất cân bằng. Kết quả thực nghiệm cho thấy mô hình PhoBERT đạt hiệu suất vượt trội với Macro F1-Score cao nhất trên tập test, vượt xa các phương pháp baseline như Decision Tree và MLP. Phân tích confusion matrix và per-class metrics chỉ ra khả năng phân loại chính xác ngay cả trên các lớp thiểu số có số lượng mẫu rất ít. Nghiên cứu không chỉ đóng góp một giải pháp kỹ thuật có độ tin cậy cao cho bài toán phân loại giao dịch tiếng Việt mà còn mở ra tiềm năng ứng dụng thực tiễn trong các hệ thống Quản lý tài chính cá nhân (PFM), Chấm điểm tín dụng hành vi (Behavioral Credit Scoring) và Phát hiện gian lận tự động tại các ngân hàng Việt Nam.en_US
dc.format.medium99 tr.en_US
dc.language.isoVietnameseen_US
dc.publisherĐại học Kinh tế Thành phố Hồ Chí Minhen_US
dc.subjectPhân loại văn bảnen_US
dc.subjectTransformeren_US
dc.subjectPhoBERTen_US
dc.subjectDữ liệu giao dịch ngân hàngen_US
dc.subjectXử lý ngôn ngữ tự nhiên tiếng Việten_US
dc.subjectText Classificationen_US
dc.subjectTransformeren_US
dc.subjectPhoBERTen_US
dc.subjectBank Transaction Dataen_US
dc.subjectVietnamese Natural Language Processingen_US
dc.titleỨng dụng các mô hình ngôn ngữ tự nhiên trong phân loại nội dung giao dịch ngân hàngen_US
dc.typeMaster's Projecten_US
ueh.specialityMathematical Economics (by Coursework) = Toán kinh tế (hướng ứng dụng)en_US
item.openairetypeMaster's Project-
item.fulltextFull texts-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.languageiso639-1Vietnamese-
item.grantfulltextreserved-
item.cerifentitytypePublications-
Appears in Collections:MASTER'S PROJECTS
Files in This Item:

File

Size

Format

Show simple item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.