Thông tin luận án TS của NCS Nguyễn Ngọc Khương
Tên đề tài luận án:Nghiên cứu các mô hình sinh chuỗi từ chuỗi sử dụng học sâu và ứng dụng trong xử lý ngôn ngữ tự nhiên.
1. Họ và tên nghiên cứu sinh: Nguyễn Ngọc Khương 2. Giới tính: Nam
3. Ngày sinh: 22/10/1984 4. Nơi sinh: Hải Phòng
5. Quyết định công nhận nghiên cứu sinh số: 1006/QĐ-CTSV ngày 07/12/2015 của Hiệu trưởng Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
6. Các thay đổi trong quá trình đào tạo:
– Điều chỉnh cán bộ Hướng dẫn cho nghiên cứu sinh Nguyễn Ngọc Khương theo Quyết định số 467/QĐ-ĐT ngày 18 tháng 05 năm 2017 của Hiệu trưởng Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội.
– Thay đổi tên đề tài luận án tiến sĩ cho nghiên cứu sinh Nguyễn Ngọc Khương theo Quyết định số1023/QĐ-ĐT ngày 24 tháng 10 năm 2017 của Hiệu trưởng Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội.
7. Tên đề tài luận án:Nghiên cứu các mô hình sinh chuỗi từ chuỗi sử dụng học sâu và ứng dụng trong xử lý ngôn ngữ tự nhiên.
8. Chuyên ngành:Khoa học Máy tính 9. Mã số:9480101.01
10. Cán bộ hướng dẫn khoa học: PGS.TS. Nguyễn Việt Hà, cơ quan công tác: Trường ĐH Công nghệ, ĐH Quốc gia Hà Nội.
PGS.TS. Lê Anh Cường, cơ quan công tác: Trường Đại học Tôn Đức Thắng.
Thông tin luận án TS của NCS Nguyễn Ngọc Khương (tiếng Anh)
11. Tóm tắt các kết quả mới của luận án:
Trong luận án này, chúng tôi tập trung vào nghiêncứu phát triển các mô hình học sâu Seq2seq trong xử lý ngôn ngữ tự nhiên, cụ thể là cho bài toán diễn đạt lại văn bản và bài toán tóm tắt văn bản. Mô hình Seq2seq ởdạng tổng quát bao gồm hai cấu phần là bộ mã hoá (Encoder) để mã hoá thông tin chuỗi đầu vào và bộ giải mã(Decoder) để sinh ra văn bản đầu ra. Luận án tập trung vào phát triển các kiến trúc mô hình học máy hiện có để cải tiến giai đoạn mã hoá văn bản đầu vào làm sau có thể biểu diễn được các loại ngữ nghĩa quan hệ phân cấp của văn bản đầu vào. Vấn đề thứ hai luận án tập trung vào là cải tiến bộ giải mã đểsinh ra văn bản đầu ra phù hợp với mục tiêu của từng bài toán riêng, phù hợp với nội dung và các ràng buộc đặt ra. Như vậy, Luận án tập trung vào vấn đề cải tiếncác môhình học máy Seq2seqđể mã hoá tốt thông tin văn bản đầu vào và kết hợp với sinh văn bản đầu ra thoả mãn yêu cầu về nội dung và các ràng buộc khác. Giải quyết các vấn đề này, luận án đã đạt được các kết quả chính như sau:
– Luận án đã đề xuất phương pháp biểu diễn phân cấp văn bản trong mô hình sinh chuỗi từ chuỗi cho bài toán sinh tóm tắt tóm lược (abstractive summarization). Nghiên cứu tập trung vào việc kết hợp các lớp biểu diễn ẩn với cấp độ biểu diễn phân cấp các thành phần cấu trúc trong văn bản từ thấp đến cao nhằm cải thiện khả năng hiểu và mô hình hóa các mối quan hệ giữa các thành phần cấu trúc trong văn bản đầu vào, đặc biệt là trong các ngữ cảnh khác nhau của các ứng dụng xử lý ngôn ngữ tự nhiên.Mô hình đề xuất cùng với các kết quả thực nghiệm đã được công bố trong kỷ yếu hội thảo quốc tế KSE,2021.
– Luận án đã đề xuất những cải tiến cơ chế chú ý (attention mechanism) trong mô hình sinh chuỗi từ chuỗi. Đề xuất thứ nhất là cơ chế chú ý phạt thông qua việc cải thiện mô hình tính điểm chú ý bằng điểm phạt để phân hóa rõ hơn vai trò của các từ trong văn bản đầu vào cho bài toán diễn đạt lại văn bản. Mô hình đề xuất cùng với các kết quả thực nghiệm đã được công bố trong kỷ yếu hội thảo quốc tế IUKM, 2018. Đề xuất thứ hai là cơ chế chú ý phân cấp trên cơ sở cấu trúc phân cấp của văn bản đầu vào trong mô hình sinh chuỗi từ chuỗi cho bài toán diễn đạt lại văn bản. Cơ chế chú ý mức câu dựa trên dạng biểu diễn và cơ chế chú ý mức từ làm cho các lớp biểu diễn được đầy đủ hơn các mối quan hệ của các thành phần cấu trúc trong văn bản. Mô hình đề xuất cùng với các kết quả thực nghiệm đã được công bố trong kỷ yếu hội thảo quốc tế MIWAI, 2018. Đề xuất thứ ba là mô hình kết hợp cơ chế chú ý cục bộ và cơ chế chú ý toàn cục dựa trên việc định nghĩa và khai thác thông tin các cổng chú ý nhằm giảm độ phức tạp tính toán đồng thời cải thiện khả năng hiểu văn bản đầu vào và sinh văn bản đầu ra một cách linh hoạt, chính xác. Mô hình đề xuất cùng với các kết quả thực nghiệm trên bài toán tóm tắt văn bản theo hướng tóm lược đã được công bố trong kỷ yếu hội thảo quốc tế APIT, 2023.
– Luận án đã đề xuất mô hình Seq2Seq dạng End-to-End cho bài toán sinh tóm tắt tóm lược có ràng buộc độ dài. Tại pha mã hoá, thông tin độ dài được mã hoá dưới dạng véc-tơ, khi đó biểu diễn của từ là sự kết hợp dạng nhúng của từ, nhúng của vị trí từ và nhúng của thông tin độ dài mong muốn. Tại pha giải mã, độ dài mong muốn được sử dụng để bổ sung thông tin cho các từ tại đầu ra tương tự như các từ trong đầu vào và tính toán một head chú ý trong kiến trúc Transformer nhằm kiểm soát độ dài của chuỗi đầu ra một cách hiệu quả. Mô hình đề xuất cùng với các kết quả thực nghiệm đã được đăng trong tạp chí IASC,2023.
12. Những hướng nghiên cứu tiếp theo:
Hiện tại các nghiên cứu về xử lý ngôn ngữ tự nhiên đã có sự thay đổi rất lớn với sự ra đời của các mô hình ngôn ngữ lớn (LLMs: Large Language Models). Các nghiên cứu tiếp theo của chúng tôi sẽ định hướng phát triển các kỹ thuật đề xuất trong luận án trong ngữ cảnh của sự phát triển LLMs. Chúng tôi sẽ tiếp tục nghiên cứu cải tiến các kết quả trong luận án theo hướng phát triển các phương pháp biểu diễn với tiếp cận phân cấp cấu trúc văn bản kết hợp với học RLHF (Reinforcement Learning with Human Feedback) trong ngữ cảnh hạn chế về tài nguyên (resources) và mở rộng mô hình đề xuất về ràng buộc sinh văn bản với ràng buộc độ dài cho các ràng buộc khác như ràng buộc về hình thái, ràng buộc về từ vựng, ràng buộc về nội dung.
13. Các công trình đã công bố có liên quan đến luận án:
– [1] Khuong Nguyen-Ngoc, Anh-Cuong Le and Viet-Ha Nguyen. “A HierarchicalConditional Attention-based Neural Networks for Paraphrase Generation”, the12th Multi-disciplinary International Conference on Artificial Intelligence (MIWAI), 2018, pp 161 – 174, DOI:10.1007978-3-030-03014-8_14.
– [2] Khuong Nguyen-Ngoc, Anh-Cuong Le and Viet-Ha Nguyen. “An Attention-basedLong-Short-Term-Memory Model for Paraphrase Generation”, the 6th International Symposium on Integrated Uncertainty in Knowledge Modelling and Decision Making(IUKM), 2018, pp.166-178, DOI:10.1007978-3-319-75429-1_14.
– [3] Khuong Nguyen-Ngoc, Anh-Cuong Le and Viet-Ha Nguyen. “A HierarchicalEncoder-Decoder Long Short-Term Memory Model for Abstractive Summarization”, 13th International Conference on Knowledge and Systems Engineering(KSE 2021), pp 281-286.
– [4] Ngoc-Khuong Nguyen, Anh-Cuong Le and Viet-Ha Nguyen. “A Local Attention-based Neural Networks for Abstractive Text Summarization”, 5th Asia PacificInformation Technology Conference (APIT), 2023, pp 152-159.
– [5] Ngoc-Khuong Nguyen, Viet-Ha Nguyen, Dac-Nhuong Le and Anh-Cuong Le. “AMethod of Integrating Length Constraints into Encoder-Decoder Transformerfor Abstractive Text Summarization”, Jounal of Intelligent Automation & SoftComputing(JASC), 2023, doi:10.32604/iasc.2023.037083.