Nhận diện thực thể y sinh bằng phương pháp CRF-BiLSTM
Sau 8 tháng nghiên cứu, đề tài “Nhận diện thực thể y sinh bằng phương pháp CRF-BiLSTM cùng nhiều biểu diễn thông tin ngôn ngữ” của sinh viên Vũ Tiến Sinh K60CA do TS. Đặng Thanh Hải và ThS. Lê Hoàng Quỳnh (Khoa Công nghệ thông tin) hướng dẫn đã đạt giải Nhất hội nghị sinh viên nghiên cứu khoa học cấp Trường và được chọn tham gia giải thưởng sinh viên nghiên cứu khoa học cấp Bộ Giáo dục và Đào tạo.
Phương pháp nhận diện thực thể y sinh
Bắt đầu từ năm thứ hai đại học, sinh viên Vũ Tiến Sinh đã tích cực tham gia nhóm nghiên cứu khoa học do TS. Đặng Thanh Hải hướng dẫn. Bằng niềm đam mê trong lĩnh vực y sinh, từ tháng 6/2017 đến tháng 1/2018, Vũ Tiến Sinh đã hoàn thành cơ bản nghiên cứu trong đề tài “Nhận diện thực thể y sinh bằng phương pháp CRF-BiLSTM cùng nhiều biểu diễn thông tin ngôn ngữ”. Sinh chia sẻ, em tham gia nhóm nghiên cứu của TS. Đặng Thanh Hải ngay từ năm thứ hai đại học, nhóm tập trung vào các bài toán về xử lí văn bản trong y sinh đặc biệt là các phương pháp sử dụng học sâu (deep learning). Đề tài này xuất phát từ bài toán thực tế trong y sinh. Số lượng bài báo, nghiên cứu về y sinh được xuất bản vô cùng lớn đến hàng triệu bài mỗi năm. Việc nghiên cứu phân tích từng văn bản là rất mất công sức và đòi hỏi nhiều kiến thức chuyên môn của những người có kinh nghiệm trong lĩnh vực. Đặc biệt bài toán nhận diện thực thể y sinh có vai trò quan trọng trong việc tìm ra mối quan hệ giữa những thực thể ấy, ví dụ thuốc A có thể gây ra tác dụng phụ B, gene C có thể liên quan đến bệnh D…. Bởi vậy trích chọn và phân loại ra các thực thể trong văn bản y sinh một cách hoàn toàn tự động là vô cùng cần thiết, tiết kiệm thời gian công sức của con người.
Tiến Sinh cho biết, đề tài đã được viết thành bài báo đăng ở tạp chí Bioinformatics và tạo một công cụ thuận tiện cho người dùng sử dụng. Người dùng có thể lưu văn bản thành file theo định dạng của công cụ và sử dụng mô hình được huấn luyện sẵn để xử lí văn bản và trả về kết quả nhận dạng. So với các sản phẩm khác công cụ có tốc độ xử lí nhanh, có thể nhận diện hàng nghìn văn bản trong vài phút với độ chính xác cao.
Mặc dù trong quá trình thực hiện nghiên cứu khoa học, Tiến Sinh phải đi thực tập ở công ty về học máy và trí tuệ nhân tạo, nhưng việc nghiên cứu ở trường và làm việc trên công ty đã bổ trợ về kiến thức, kinh nghiệm thực tế cho Sinh rất nhiều. Để cân bằng công việc Sinh cố gắng tận dụng mọi khoảng thời gian, liệt kê những việc ưu tiên hàng đầu và tập trung giải quyết để chuyển sang việc khác. Sinh còn tranh thủ thời gian nghỉ giữa các tiết học để đọc các bài báo, ghi chú lại vấn đề chưa hiểu để về nhà có thể phân tích kĩ hơn. Còn trên lớp Sinh cố gắng nghe giảng, đọc giáo trình cẩn thận và làm bài tập để tiết kiệm thời gian ôn tập.
Tiến Sinh rất yêu thích việc nghiên cứu khoa học, “bởi nghiên cứu giúp em tìm hiểu được nhiều kiến thức mới thường không được dạy ở trường cũng như tăng sự tìm tòi sáng tạo. Đồng thời cũng trải nghiệm không ít thất bại khi bỏ nhiều công sức xây dựng mô hình mà không đạt được hiệu quả như mong đợi. Từ đó, em luôn cố gắng thúc đẩy bản thân, đọc nhiều hơn, lập trình nhiều hơn, suy nghĩ và phân tích cẩn thận hơn những vấn đề khó khăn. Một ý tưởng cải tiến nhỏ nhưng hiệu quả cũng là một điều khích lệ rất lớn đối với em”, Tiến Sinh chia sẻ về đam mê nghiên cứu khoa học.
Công trình của sinh viên Vũ Tiến Sinh (K60CA) do TS. Đặng Thanh Hải và ThS. Lê Hoàng Quỳnh hướng dẫn được đề cử tham dự “Công trình sinh viên nghiên cứu khoa học cấp Bộ Giáo dục và Đào tạo năm học 2017-2018″
Trưởng thành với nghiên cứu khoa học
Việc nghiên cứu khoa học đã khó khăn nhưng việc thực hiện đề tài một mình lại càng khó khăn hơn. Sinh cho biết, một mô hình chạy được cần nhiều các phần xử lí khác nhau, mỗi phần xử lí lại bao gồm nhiều công đoạn. Có nhiều tham số cho mô hình cần phải thử nghiệm lựa chọn nhiều lần mới tìm ra được bộ tham số tốt nhất. Đặc biệt là việc cải tiến dần những nhược điểm của mô hình qua các thử nghiệm, thêm bớt thuộc tính mất nhiều thời gian chạy để so sánh. Thực hiện đề tài một mình cũng đồng nghĩa với việc phải tìm hiểu, đọc rất nhiều các hướng đi khác nhau, tham khảo nhiều nguồn tài liệu để đào sâu nghiên cứu lựa chọn cách tiếp cận tốt nhất. Nhờ thế mà bản thân em thu được nhiều kiến thức hơn so với việc chia ra tìm hiểu những phần khác nhau trong nhóm nhiều người. Việc lập trình xây dựng các module cũng được xuyên suốt ít bị lỗi do mình chủ động nắm được các thành phần, chủ động ghép nối cho hợp lí. Mặc dù, làm việc nhóm có thể giúp cho các công việc được san sẻ cho các thành viên trong nhóm nhưng đôi khi việc ghép lại không được khớp nhau gây lỗi.
Trong quá trình thực hiện đề tài, Tiến Sinh được sự hỗ trợ và hướng dẫn nhiệt tình từ phía TS. Đặng Thanh Hải, ThS. Lê Hoàng Quỳnh cùng các anh/chị trong phòng thí nghiệm. Sinh luôn nhận được các tài liệu tham khảo cần thiết hoặc bàn luận với thầy hướng dẫn về những vấn đề liên quan đến đề tài để tìm ra vấn đề, phương hướng mới
Trên thực tế, có rất nhiều nghiên cứu về bài toán này, mỗi nghiên cứu đều có điểm nổi bật, giải quyết khá tốt bài toán nhận diện. Đề tài của Sinh tập trung giải quyết nhược điểm nhận diện những cụm từ viết tắt mà hầu như các nghiên cứu khác chưa giải quyết triệt để.
Hiện nay, Sinh đang tiếp tục nghiên cứu, phát triển đề tài hơn nữa, để có thể xử lí đồng thời nhiều bài toán hơn, vừa nhận diện và tìm ra quan hệ giữa các thực thể ấy.
Tuyết Nga (UET-News)