Thông tin LATS của NCS Trần Hồng Việt
Tên đề tài luận án: Cải tiến chất lượng dịch máy thống kê Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc.
1. Họ và tên nghiên cứu sinh: Trần Hồng Việt 2. Giới tính: Nam
3. Ngày sinh: 16/11/1979 4. Nơi sinh: Hà Nội
5. Quyết định công nhận nghiên cứu sinh số 533/QĐ-ĐT ngày 06 tháng 08 năm 2013 của Hiệu trưởng Trường Đại học Công nghệ – Đại học Quốc Gia Hà Nội.
6. Các thay đổi trong quá trình đào tạo: không
7. Tên đề tài luận án: Cải tiến chất lượng dịch máy thống kê Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc
8. Chuyên ngành: Khoa học Máy tính 9. Mã số: 9.48.01.01.01
10. Cán bộ hướng dẫn khoa học: TS. Nguyễn Văn Vinh
PGS.TS. Nguyễn Lê Minh
11. Tóm tắt các kết quả mới của luận án:
i) Đề xuất các luật đảo trật tự từ thủ công từ việc lựa chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc. Từ đó áp dụng phương pháp sắp xếp lại trật tự từ để nâng cao chất lượng bản dịch của hệ thống dịch máy Anh-Việt.
ii) Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử dụng các bộ phân lớp trong kỹ thuật học máy để giải quyết bài toán sắp xếp lại trật tự từ như việc đoán nhận thứ tự đúng của câu đầu vào ở ngôn ngữ nguồn tương ứng với thứ tự trong ngôn ngữ đích.
iii) Khai thác quan hệ các cặp từ trên cây cú pháp phụ thuộc và ưu điểm của việc biểu diễn word embedding, chúng tôi đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán sắp xếp lại câu nguồn theo thứ tự từ câu đích trước khi đưa vào hệ dịch để nâng cao chất lượng bản dịch.
iv) Đề xuất phân tích ảnh hưởng của các lỗi phân tích cú pháp đến chất lượng dịch qua việc áp dụng các luật sắp xếp lại trật tự từ phía câu nguồn. Các phân tích này mang lại lợi ích cho việc cải tiến các phương pháp sắp xếp lại dựa trên cú pháp và phát triển việc phân tích cú pháp, đặc biệt với ngôn ngữ tiếng Việt.
Kết quả nghiên cứu của NCS cùng nhóm tác giả đã được đăng tải trong tạp chí Computer Science and Communication Engineering của Đại học Quốc gia, các kỷ yếu của hội thảo chuyên ngành về Xử lý ngôn ngữ tự nhiên trong nước và quốc tế (CICLing, IWSLT, PACLIC) liên quan đến nội dung nghiên cứu dịch máy theo hướng nghiên cứu đề tài.
12. Khả năng ứng dụng trong thực tiễn: Những kết quả của luận án có đóng góp nhất định cho lĩnh vực khoa học chuyên ngành về dịch máy thống kê cho cặp ngôn ngữ Anh-Việt, ứng dụng cây phân tích cú pháp phụ thuộc vào xử lý ngôn ngữ tự nhiên, cho bài toán đảo trật tự từ trong dịch máy. Từ đó các nhà khoa học nghiên cứu có những phương pháp mới để giải quyết vấn đề trong xử lý ngôn ngữ tự nhiên chính xác, hiệu quả hơn.
13. Những hướng nghiên cứu tiếp theo:
i) Nghiên cứu để tích hợp các điểm mạnh của dịch máy thống kê dựa trên cụm từ với dịch máy dựa trên mạng nơ-ron.
ii) Mở rộng nghiên cứu cho các cặp ngôn ngữ và chiều dịch như: Anh-Việt, Anh-Nhật, Anh-Trung, Anh- Hàn, Việt-Anh, Việt-Hàn, Việt-Nhật, Việt-Trung… trên tập ngữ liệu song ngữ lớn, có chất lượng hơn được rút trích tự động từ các nguồn tài nguyên trên mạng.
iii) Nghiên cứu các phương pháp mới để cải thiện, nâng cao chất lượng hệ thống dịch cho các ngôn ngữ có nguồn tài nguyên hạn chế (low-resource).
iv) Phát triển công cụ dịch máy thông minh được tích hợp trong các hệ thống phần cứng, trong các ứng dụng chuyên biệt cần hệ thống hỗ trợ dịch vụ.
14. Các công trình đã công bố có liên quan đến luận án:
– Luan-Nghia Pham, Viet-Hong Tran , Vinh-Van Nguyen, “Vietnamese Text Accent Restoration with Statistical Machine Translation ”, Proceeding of 27th Pacific Asia Conference on Language, Information and Computation. Available: http://aclweb.org/anthology/Y13-1044
– Viet-Hong Tran, Anh-Tuan Pham, Vinh-Van Nguyen, Hoai-Xuan Nguyen, Huy-Quang Nguyen, “ Parameter Learning for Statistical Machine Translation using CMA-ES”, Proceedings of the Sixth International Conference KSE 2014, Series: Advances in Intelligent Systems and Computing, Vol. 326
– Viet Tran Hong, Vinh Van Nguyen and Minh Le Nguyen, “Improving English-Vietnamese Statistical Machine Translation Using Pre-processing Dependency Syntactic”, Proceedings of the Pacific Association for Computational Linguistics 2015, p115-p121. Available: http://pacling.stei.itb.ac.id/?page_id=784
– Viet Tran Hong, Huyen Vu Thuong, Vinh Nguyen Van and Trung Le Tien, “The English-Vietnamese Machine Translation System for IWSLT 2015”, Proceeding of the 12th International Workshop on Spoken Language Translation, 2015, p80-p84. Available: http://workshop2015.iwslt.org
– Viet Tran Hong, Huyen Vu Thuong, Vinh Nguyen Van and Minh Nguyen Le “A Classifier-based Preordering Approach for English-Vietnamese Statistical Machine Translation”, Proceedings of the 17th International Conference on Intelligent Text Processing and Computational Linguistics, 2016. Available: http://site.cicling.org/2016/accepted.html
– Viet Tran Hong,Huyen Vu Thuong, Thu Pham Hoai, Vinh Nguyen Van and Nguyen Le Minh “A Reordering Model For Vietnamese-English Statistical Machine Translation Using Dependency Information”, Proceedings of International Conference on Computing & Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2016.
– Viet-Hong Tran,Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen, “Dependency-based Pre-ordering For English-Vietnamese Statistical Machine Translation”, In VNU Journal of Science: Computer Science and Communication Engineering, pages 175-179, 2017.
– Viet Hong Tran, Quan-Van Nguyen and Vinh Van Nguyen, “A Neural Network Classifier Based on Dependency Tree for English-Vietnamese Statistical Machine Translation”, Proceedings of the 19th International Conference on Intelligent Text Processing and Computational Linguistics, 2018