Thông tin luận án tiến sĩ của NCS Lương Thái Lê

     Tên đề tài luận án: Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt

    1. Họ và tên nghiên cứu sinh: Lương Thái Lê                            2. Giới tính: Nữ

    3. Ngày sinh:21/02/1980                                                            4. Nơi sinh: Hà Nội

    5. Quyết định công nhận nghiên cứu sinh số: 642/QĐ – CTSV, ngày 15 tháng 9 năm 2014 của Giám đốc Đại học Quốc gia Hà nội

    6. Các thay đổi trong quá trình đào tạo:

    7. Tên đề tài luận án: Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt.

    8. Chuyên ngành: Hệ thống Thông tin                                                                            9. Mã số: 9480104.01

    10. Cán bộ hướng dẫn khoa học:

       – Hướng dẫn chính: PGS.TS Phan Xuân Hiếu

       – Hướng dẫn phụ: PGS.TS Trần Văn Long

   11. Tóm tắt các kết quả mới của luận án:

      Thứ nhất, luận án đề xuất một định nghĩa về ý định rõ hướng miền quan tâm phù hợp cho văn bản truyền thông xã hội trực tuyến, đồng thời đề xuất tiến trình ba pha gồm ba bài toán nhằm phân tích và xác định thông tin ý định [LTLe1].

      Thứ hai, luận án đề xuất  mô hình hóa bài toán một (phát hiện ý định) và bài toán hai (xác định miền quan tâm của ý định) lần lượt thành bài toán phân lớp nhị phân và phân lớp đa lớp. Kết quả thực nghiệm cho thấy, hai phương pháp phân lớp đơn giản nhưng hiệu quả, ME và SVMs, phù hợp với hai bài toán trên. Đặc biệt, việc sử dụng đặc trưng từ điển rất hiệu quả với hai bài toán này. Các nội dung và kết quả nghiên cứu này được trình bày trong các công trình [LTLe1], [LTLe2]. Ngoài ra luận án cũng thử nghiệm phương pháp học sâu CNN với 2 bài toán này, các kết quả nghiên cứu đã được trình bày trong công trình [LTLe6].

      Thứ ba, luận án đề xuất mô hình hóa bài toán ba (trích chọn thông tin của ý định) dưới dạng trích chọn thông tin trên dữ liệu chuỗi. Các mô hình học máy thống kê cho dữ liệu chuỗi như CRFs, mô hình học sâu Bi-LSTM-CRFs được đề xuất để giải quyết bài toán này. Luận án cũng đề xuất tập nhãn đặc trưng tương ứng những nội dung ý định cần trích xuất trên từng miền dữ liệu. Các nội dung và kết quả này được trình bày trong công trình [LTLe3]. Hơn nữa, luận án đề xuất một phương pháp hiệu quả để  nâng cao độ chính xác của bài toán trích chọn thông tin ý định dựa trên mô hình học kết hợp (ensemble learning) các mô hình học sâu. Nội dung và kết quả nghiên cứu này được trình bày trong công trình [LTLe4].

      Thứ tư, luận án đề xuất tiếp cận việc phân tích và xác định ý định đa miền quan tâm dựa trên ý tưởng xây dựng tập nhãn chung cho các miền dữ liệu. Luận án đã tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu quả của hai cách tiếp cận phụ thuộc miền và không phụ thuộc miền cũng như thảo luận về ưu nhược điểm của mỗi cách tiếp cận. Nội dung và kết quả này được trình bày trong công trình [LTLe5].

      Bên cạnh đó, luận án cũng cung cấp một khảo sát tổng quan về hướng nghiên cứu phân tích và xác định ý định từ văn bản. Có thể nói các đóng góp của luận án có ý nghĩa trong việc bổ sung và hoàn thiện các kết quả nghiên cứu về phân tích ý định trên thế giới và đặc biệt là cho tiếng Việt. Các kết quả của luận án đã công bố trong các công trình khoa học được đăng tải trên các tạp chí, hội nghị chuyên ngành trong nước và quốc tế có phản biện.

    12. Khả năng ứng dụng trong thực tiễn:

      – Giúp các doanh nghiệp ở nhiều lĩnh vực kinh doanh khác nhau như ngân hàng, thương mại điện tử, chuỗi cửa hàng bán lẻ và đặc biệt là quảng cáo trực tuyến hiểu và nắm bắt được ý định của các khách hàng tiềm năng.

      – Hỗ trợ các hệ thống cần phải xử lý ngôn ngữ tự nhiên như Chatbot, Tư vấn, Tìm kiếm…

   13. Những hướng nghiên cứu tiếp theo:

   (i) Khai thác và sử dụng thêm nhiều loại đặc trưng hiệu quả hơn để nâng cao chất lượng đối với các mô hình giải quyết bài toán phân lớp ở pha thứ nhất và pha thứ hai; (ii) xử lý trường hợp bài đăng mang ý định nhập nhằng; (iii) xử lý vấn đề một bài đăng mang nhiều ý định rõ cùng một lúc; (iv) nghiên cứu để giải quyết triệt để hơn vấn đề thích nghi miền trong phân tích ý định , cụ thể như nghiên cứu về vấn đề học chuyển đổi giữa các miền quan tâm; (v) tiếp tục thu thập thêm dữ liệu để nâng cao chất lượng của các mô hình học sâu.

   14. Các công trình đã công bố có liên quan đến luận án:

      [1.] [LTLe1] Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, Thi-Minh-Ngoc Truong, Thi-Thu Phi and Xuan-Hieu Phan; Learning to Filter User Explicit Intents in Online Vietnamese Social Media Texts. The Eighth Asian Conference on Intelligent Information and Database Systems (ACIIDS), pp.13-24, Springer, 2016. [SCOPUS, DBLP] 

      [2.] [LTLe2] Thai-Le Luong, Quoc-Tuan Truong, Hai-Trieu Dang and Xuan-Hieu Phan; Domain Identification for Intention Posts on Online Social Media. In Proceedings of the Seventh Symposium on Information and Communication Technology (SoICT), pp. 52-57, ACM, 2016. [SCOPUS, DBLP]

     [3.] [LTLe3] Thai-Le Luong, Minh-Son Cao, Duc-Thang Le and Xuan-Hieu Phan; Intent Extraction from Social Media Texts Using Sequential Segmentation and Deep Learning Models. In Proceedings of the 9th International Conference on Knowledge and Systems Engineering (KSE), pp. 215-220, Springer LNCS, \textbf{IEEE}, 2017. [SCOPUS, DBLP]

     [4.]  [LTLe4] Thai-Le Luong, Nhu-Thuat Tran and Xuan-Hieu Phan; Improving Intent Extraction Using Ensemble Neural Network. In Proceedings of the 19th International Symposium on Communications  and Information Technologies (ISCIT), pp. 58-63, IEEE, 2019. [SCOPUS,DBLP]

     [5.]  [LTLe5] Thai-Le Luong, Nhu-Thuat Tran, Tien-Son Dang, Quoc-Long Tran and Xuan-Hieu Phan; Domain-independent Intent Extraction from Online Texts. Computacion y Systemas, Vol. 24, No. 1, pp.331-347, 2020. [SCOPUS,DBLP]

     [6.]  [LTLe6] Luong Thai Le; Intent domain identification using deep learning model. The 2020 International Conference on Applications of Artificial Intelligence in Transportation, pp. 246-254, 2020.

Bài viết liên quan