Nghiên cứu ứng dụng mạng tích chập nơ-ron trong trích xuất thông tin từ dữ liệu y văn
Mặc dù là sinh viên năm ba luôn bận rộn với kế hoạch thực tập, học tập nhưng với niềm đam mê nghiên cứu khoa học, sinh viên Nguyễn Đức Thắng (khoa Công nghệ thông tin, Trường Đại học Công nghệ) vẫn miệt mài thực hiện đề tài “Nâng cao chất lượng liên kết thực thể sinh học bằng cách xếp hạng lại dựa trên mạng nơ-ron tích chập” do TS. Đặng Thanh Hải hướng dẫn, đạt giải Ba sinh viên nghiên cứu khoa học cấp Đại học Quốc gia Hà Nội (ĐHQGHN).
Đam mê thuật toán ứng dụng thực tiễn trong lĩnh vực y sinh học
Khi còn là một cậu học sinh THPT, Nguyễn Đức Thắng đã đạt giải nhất môn Tin học cấp quốc gia, từ đó Đức Thắng đã có niềm đam mê tìm hiểu, khám phá và nghiên cứu các thuật toán. “Cho đến khi vào học tại Trường Đại học Công nghệ (ĐHQGHN), thuật toán không chỉ là niềm đam mê của bản thân mà em còn mong muốn áp dụng những thuật toán đó vào cuộc sống. Ngay từ lúc đó, em đã quyết định tham gia vào phòng thí nghiệm mục tiêu Tin sinh y học do TS. Đặng Thanh Hải phụ trách. Bởi vì, em nhận thấy việc kết hợp Tin học vào lĩnh vực Y Sinh là xu hướng mới và thú vị nên em muốn tìm hiểu thêm về lĩnh vực này” – sinh viên Nguyễn Đức Thắng chia sẻ. Và Nguyễn Đức Thắng dưới sự hướng dẫn của TS. Đặng Thanh Hải đã triển khai nghiên cứu đề tài “Enhancing biomedical entity linking with re-ranking based on convolution neural networks” (“Nâng cao chất lượng liên kếtt hực thể sinh học bằng cách xếp hạng lại dựa trên mạng nơ-ron tích chập”).
Sinh viên Nguyễn Đức Thắng trình bày nghiên cứu tại hội nghị sinh viên nghiên cứu khoa học cấp trường
Với đề tài này, Nguyễn Đức Thắng đã giải quyết được một trong những bài toán thực tế, quan trọng trong việc trích xuất thông tin từ dữ liệu y văn. Đức Thắng cho biết, hiện nay trong lĩnh vực khai phá dữ liệu y văn, có nhiều nhóm nghiên cứu trên thế quan tâm đến bài toán liên kết tên thực thể trong dữ liệu y văn, ví dụ như mô hình DNORM vào năm 2013; TaggerOne vào năm 2016 của Leaman và các cộng sự từ Trung tâm Công nghệ Tin Sinh học Hoa Kỳ; mô hình NormCo của Wright và các cộng sự vào năm 2019 từ Trung tâm Nghiên cứu trí tuệ nhân tạo của IBM và Đại học California San Diego… Dựa trên việc nghiên cứu những mô hình này, đề tài khoa học của em đã đề xuất phương pháp truy xuất nhanh thông tin liên quan đến bệnh và thuốc từ nguồn dữ liệu y văn khổng lồ (PubMed là một ví dụ, hiện có gần 28 triệu bài báo khoa học, cứ 1 phút có 2 bài báo mới được thêm vào). Từ đó sẽ góp phần giảm thiểu chi phí và thời gian cho các nhà nghiên cứu liên quan.
Sau một năm tìm hiểu và nghiên cứu về đề tài, TS. Đặng Thanh Hải nhận thấy những nghiên cứu của sinh viên Nguyễn Đức Thắng đã cho kết quả khả quan, nên đã quyết định để Thắng tham gia sinh viên nghiên cứu khoa học cấp Trường. TS. Đặng Thanh Hải chia sẻ, đề tài có khả năng ứng dụng ngay trong hệ thống trích xuất thông tin từ dữ liệu y văn bằng tiếng Anh và đối với hệ thống tiếng Việt trong tương lai. Dựa trên những ý nghĩa khoa học và tính thực tiễn của đề tài, Đức Thắng đã hoàn thiện bản thảo bài báo để gửi đăng tạp chí quốc tế uy tín.
Tính chính xác cao hơn so với một số mô hình trên thế giới
Đề tài tập trung vào giai đoạn “liên kết thực thể sinh học” trong bài toán trích xuất thông tin từ dữ liệu y văn. “Liên kết thực thể sinh học” là việc chuẩn hóa thực thể y sinh trong văn bản tới bộ định danh chuẩn của chúng được định sẵn trong cơ sở tri thức. Theo đó, đề tài Đức Thắng nghiên cứu sẽ góp phần nâng cao độ chính xác của kết quả trong bước này. Hiện nay, trên thế giới cũng có nhiều nhóm đang nghiên cứu cùng với chủ đề của em. Tuy nhiên đề tài của Đức Thắng đang có độ chính xác cao hơn so với một số mô hình sử dụng trên thế giới trong cùng một điều kiện so sánh.
TS. Đặng Thanh Hải (ngoài cùng, bên phải ảnh) đánh giá cao ý nghĩa khoa học và kết quả nghiên cứu của sinh viên Nguyễn Đức Thắng (Ảnh: NVCC)
Nhớ đến những kinh nghiệm nghiên cứu khoa học ban đầu, Đức Thắng cảm thấy may mắn khi có sự đồng hành của TS. Đặng Thanh Hải cùng các thầy/cô và anh/chị tại phòng thí nghiệm. Đức Thắng cho biết, khi bắt đầu nghiên cứu đề tài, em chưa có nhiều kinh nghiệm trong việc nghiên cứu khoa học. Với sự giúp đỡ tận tình từ TS. Đặng Thanh Hải, em dần hình thành được tư duy nghiên cứu cũng như biết nhiều hơn về các phương pháp luận nghiên cứu khoa học. Thầy cũng định hướng cho em các mô hình, phương pháp cùng chủ đề có độ chính xác cao trên thế giới, dựa trên những nền tảng đó em đã tích lũy kiến thức và phát triển thành các mô hình, phương pháp của đề tài.
Trong thời gian tới, Đức Thắng sẽ tiếp tục nghiên cứu để có thể cho ra một kết quả về độ chính xác tốt hơn nữa. “Và trong tương lai em sẽ tiếp tục nghiên cứu về pha khác như pha Nhận diện tên thực thể (Name-entity regconition), Trích xuất quan hệ (Relationship extraction) trong bài toán trích xuất thông tin y sinh từ các văn bản sinh học, để nâng cao hiệu quả trong lĩnh vực này” – Đức Thắng chia sẻ.
Tuyết Nga (UET-News)