Thông tin luận án tiến sĩ của NCS Nguyễn Thị Chăm
Tên đề tài luận án: Phát triển kỹ thuật chắt lọc tri thức trong học suốt đời đối với miền dữ liệu văn bản
1. Họ và tên nghiên cứu sinh: Nguyễn Thị Chăm 2. Giới tính: Nữ
3. Ngày sinh: 29/06/1982 4. Nơi sinh: Hà Nội
5. Quyết định công nhận NCS: số 654/QĐ-CTSV ngày 05 tháng 9 năm 2016 của Hiệu trưởng Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
6. Các thay đổi trong quá trình đào tạo:
7. Tên đề tài luận án: Phát triển kỹ thuật chắt lọc tri thức trong học suốt đời đối với miền dữ liệu văn bản
8. Chuyên ngành: Hệ thống thông tin 9. Mã số: 9480104.01
10. Cán bộ hướng dẫn khoa học:
Hướng dẫn chính: PGS.TS. Hà Quang Thụy
Cơ quan công tác: Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội
Thông tin luận án tiến sĩ của NCS Nguyễn Thị Chăm (tiếng Anh)
11. Tóm tắt các kết quả mới của luận án:
Luận án đã đạt được một số kết quả chính như sau:
Đầu tiên, luận án đề xuất thuật toán mô hình chủ đề suốt đời miền gần CD-AMC dựa trên nền mô hình chủ đề suốt đời AMC với giải pháp chắt lọc tri thức phải-đi-cùng và tri thức không-thể-đi-cùng chỉ từ các miền quá khứ gần thay vì từ tất cả các miền quá khứ. Đề xuất một khung chung áp dụng mô hình chủ đề suốt đời miền gần vào các tác vụ phân tích văn bản. Đồng thời, hai cách thức xác định miền gần với miền dữ liệu hiện tại: dựa trên mức từ vị – mức từ tốp đầu – mức chủ đề và dựa trên bộ phân lớp văn bản quá khứ. Triển khai áp dụng mô hình chủ đề suốt đời miền gần vào tác vụ phân lớp đa nhãn tiếng Việt và tác vụ phân lớp quan điểm tiếng Anh.
Luận án tiến hành kiểm định thống kê một mẫu theo phân phối-t trên 20 quan sát về kỳ vọng quần thể giả thuyết khi chưa biết độ lệch chuẩn quần thể cho thấy mô hình CD-AMC đề xuất thực sự có hiệu năng cao hơn so với AMC khoảng 0.27%.
Tiếp đó, luận án đề xuất mô hình chủ đề suốt đời miền gần hướng đích TCD-AMC kết hợp của mô hình chủ đề suốt đời miền gần CD-AMC với mô hình chủ đề hướng đích TTM vừa tận dụng được tri thức quá khứ có ích/có chất lượng từ các miền gần, vừa tập trung hơn đối với từng khía cạnh được chỉ định/chỉ dẫn thông qua các từ khóa đích. Triển khai áp dụng mô hình chủ đề suốt đời miền gần hướng đích TCD-AMC vào tác vụ phân lớp đa nhãn văn bản tiếng Việt dựa trên học sâu. Kết quả thực nghiệm trên sáu phương án cài đặt khác nhau cho thấy hiệu quả của khung đề xuất TCD-AMC so với mô hình AMC và các mô hình chủ đề liên quan khác trên cùng một tập dữ liệu.
Cuối cùng, luận án đề xuất mô hình học máy suốt đời BiLSTM-KD-NER chắt lọc tri thức mô hình học sâu (tham số mô hình Bi-LSTM quá khứ và mô hình phân lớp nhận dạng thực thể có tên quá khứ) cho tác vụ nhận dạng thực thể y sinh tiếng Việt và tiến hành thực nghiệm (bao gồm xây dựng tập dữ liệu thực nghiệm) đánh giá mô hình BiLSTM-KD-NER. Các kết quả thực nghiệm mô hình trên các kịch bản khác nhau cho thấy tính hiệu quả của mô hình đề xuất đã tận dụng tri thức được chắt lọc từ các miền gần để xây dựng một mạng nơ ron sâu suốt đời nhằm giải quyết hạn chế quên nghiêm trọng.
Công bố bốn bài báo khoa học được đăng trên các ấn phẩm Scopus và DBLP.
12. Khả năng ứng dụng trong thực tiễn.
13. Những hướng nghiên cứu tiếp theo:
Trong thời gian tới, nghiên cứu sinh tập trung vào các nghiên cứu để giải quyết một số hạn chế còn tồn tại của luận án. Trong đó, tập trung tiến hành một số nghiên cứu sau đây:
- Cải biên mô hình BiLSTM-KD-NER để thực nghiệm mô hình trên 20 tập dữ liệu đánh giá 20 sản phẩm từ Amazon.com. Thêm nữa, phương án kết hợp mô hình BiLSTM-KD-NER và mô hình CĐSĐ DC-AMC trên 20 tập dữ liệu này cũng được xem xét;
- Khai thác công cụ của Y. Papanikolaou và cộng sự ước tính tham số lấy mẫu Gibbs cải tiến mô hình LDA để xây dựng mô hình chủ đề AN+1 cho tập dữ liệu miền hiện tại DN+1 có ít dữ liệu. Phân tích sâu mô hình chủ đề nơ ron suốt đời LNTM để cải thiện độ đo miền gần, đồng thời, xem xét việc cài đặt DocNADE trong việc cải thiện các chủ đề trong mô hình chủ đề cho tác vụ hiện tại;
- Cải tiến khai phá tri thức phải-đi-cùng có ba từ trở lên hoặc phải-đi-cùng cho các chủ đề miền hẹp;
- Tiến hành nghiên cứu về các phương pháp trong HMSĐ để giải quyết vấn đề quên nghiêm trọng từ học mạng nơ ron.
14. Các công trình đã công bố có liên quan đến luận án:
[1] Quang-Thuy Ha, Thi-Ngan Pham, Van-Quang Nguyen, Thi-Cham Nguyen, Thi-Hong Vuong, Minh-Tuoi Tran, Tri-Thanh Nguyen. A New Lifelong Topic Modeling Method and Its Application to Vietnamese Text Multi-label Classification. ACIIDS 2018, pp. 200-210 (Scopus, DBLP).
[2] Thi-Cham Nguyen, Thi-Ngan Pham, Minh-Chau Nguyen, Tri-Thanh Nguyen, Quang-Thuy Ha. A Lifelong Sentiment Classification Framework Based on a Close Domain Lifelong Topic Modeling Method. ACIIDS 2020, pp. 575-585 (Scopus, DBLP).
[3] Thi-Cham Nguyen, Thi-Ngan Pham, Hoang-Quynh Le, Tri-Thanh Nguyen, Hong-Nhung Bui, Quang-Thuy Ha. A Targeted Topic Model based Multi-Label Deep Learning Classification Framework for Aspect-based Opinion Mining. IEEExplore KSE 2020, pp. 165-170 (Scopus, DBLP).
[4] Thi-Cham Nguyen, Hoang-Quynh Le, Duy-Cat Can, Quang-Thuy Ha. Models Distillation with Lifelong Deep Learning for Vietnamese Biomedical Named Entity Recognition. KSE 2021, pp. 1-6 (Scopus, DBLP).