Thông tin luận án Tiến sĩ của NCS Lê Kim Thư
Tên đề tài luận án: Phát triển mô hình thay thế axit amin cho dữ liệu hệ gen
1. Họ và tên nghiên cứu sinh: Lê Kim Thư 2. Giới tính: Nữ
3. Ngày sinh: 17/10/1985 4. Nơi sinh: Hà Nội
5. Quyết định công nhận nghiên cứu sinh số 841/QĐ-CTSV ngày 4/9/2018 của Hiệu trưởng Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
6. Các thay đổi trong quá trình đào tạo:
- Gia hạn thời gian học tập theo quyết định số 804/QĐ-ĐT và 921/QĐ-ĐT của Hiệu trưởng Trường Đại học Công nghệ.
- Thay đổi tên đề tài luận án tiến sĩ theo đề xuất của Seminar khoa học đánh giá tổng quan luận án tiến sĩ tại đơn vị chuyên môn.
Tên đề tài cũ: Tối ưu mô hình thay thế acid amin cho dữ liệu hệ gen
Tên đề tài mơi: Phát triển mô hình thay thế axit amin cho dữ liệu hệ gen
7. Tên đề tài luận án: Phát triển mô hình thay thế axit amin cho dữ liệu hệ gen
8. Chuyên ngành: Khoa học máy tính 9. Mã số: 9480101.01
10. Cán bộ hướng dẫn khoa học: PGS.TS. Lê Sỹ Vinh
Thông tin luận án Tiến sĩ của NCS Lê Kim Thư (tiếng Anh)
11. Tóm tắt các kết quả mới của luận án
Luận án đã đề xuất một số cải tiến để nâng cao tính đúng đắn khi lựa chọn mô hình thay thế (nucleotit/axit amin) cho dữ liệu cỡ hệ gen.Cụ thể:
- Luận án đã đề xuất mô hình thay thế FLAVI dành riêng cho các virút trong chi Flavivirus -một chi chứa nhiều virút gây dịch bệnh nghiêm trọng trong khu vực. Thực nghiệm cho thấy mô hình FLAVI giúp xây dựng cây cực đại khả năng tốt hơn đáng kể so với các mô hình hiện có.
- Luận án đề xuất hai thuật toán mPartition và gPartition để phân hoạch sắp hàng kích thước lớn và rất lớn. Hai thuật toán được đề xuất đều sử dụng kết hợp tốc độ tiến hóa và mô hình tiến hóa tại từng vị trí trong quá trình phân hoạch tập vị trí. Điều này giúp tạo lược đồ phân vùng tốt hơn so với thuật toán phân hoạch sắp hàng chỉ sử dụng tốc độ tiến hóa.
(1). Thuật toán mPartition có thể sử dụng cho cả hai loại dữ liệu nucleotit và axit amin; cây cực đại khả năng xây dựng bởi lược đồ kết quả của mPartition có điểm AIC/BIC tốt hơn so với các phương pháp khác trong hầu hết các trường hợp được kiểm tra.
(2). Thuật toán gPartition sử dụng cho nucleotit với kích thước lớn. Thuật toán có thể phân hoạch các sắp lên đến hàng triệu vị trí trong thời gian chấp nhận được – dưới 24 giờ, trong khi thuật toán mPartition không thể thực hiện xong trong vòng 72 giờ. Sử dụng lược đồ phân vùng tạo bởi gPartition cho cây cực đại khả năng tốt hơn so với không chia và so với khi dử dụng lược đồ của các phương pháp phân hoạch chỉ dùng tốc độ tiến hóa.
- Ngoài ra, luận án đề xuất phương pháp ước lượng nhanh tốc độ tiến hóa fastTIGER. Phương pháp ước lượng tốc độ mới có độ phức tạp tuyến tính với độ dài của sắp hàng, phù hợp để tính tốc độ tiến hóa cho dữ liệu hệ gen hơn so với thuật toán ước lượng tốc độ TIGER (có độ phức tạp bình phương độ dài sắp hàng).
12. Khả năng ứng dụng trong thực tiễn
Mô hình biến đổi axit amin có các ứng dụng trong thực tiễn như: giúp tìm kiếm chuỗi protein trong cơ sở dữ liệu, xây dựng cây phân loài. Trong quá trình xây dựng cây phân loài, việc kết hợp sử dụng mô hình lược đồ phân vùng (tạo bởi các thuật toán phân hoạch sắp hàng) và sử dụng mô hình biến đổi nucleotit/axit amin cho mỗi phân vùng nâng cao tính chính xác của cây phân loài xây dựng được.
Ngoài ứng dụng trong các thuật toán phân hoạch sắp hàng, phương pháp ước lượng nhanh tốc độ tiến hóa fastTIGER cũng có những ứng dụng riêng như kiểm tra và chuẩn hóa dữ liệu.
13. Những hướng nghiên cứu tiếp theo
Đưa ra các tiếp cận khác để phân hoạch sắp hàng.
Mở rộng các trường hợp của dữ liệu đầu vào.
14. Các công trình đã công bố có liên quan đến luận án
- Le Kim Thu, Cuong Dang Cao, and Vinh Le Sy. 2018. “Building a specific amino acid substitution model for dengue viruses.” 2018 10th International Conference on Knowledge and Systems Engineering (KSE) 242-246.
- Le Kim Thu, and Vinh Le Sy. 2020. “A protein alignment partitioning method for protein phylogenetic inference.” 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) 1-5.
- Le Kim Thu, Vinh Le Sy, Dong Do Duc, Thang Bui Ngoc, and Phuong Thao Nguyen Thi. 2020. “iK-means: an improvement of the iterative k-means partitioning algorithm.” 2020 12th International Conference on Knowledge and Systems Engineering (KSE) 300-305.
- Le Kim Thu, and Vinh Le Sy. 2020. “FLAVI: An Amino Acid Substitution Model for Flaviviruses.” Journal of molecular evolution 88 (5): 445-452.
- Le Kim Thu, and Vinh Le Sy. 2020. “mPartition: A Model-based method for partitioning alignments.” Journal of Molecular Evolution 88 (8): 641-652.
- Le Kim Thu, and Vinh Le Sy. 2021. “fastTIGER: A rapid method for estimating evolutionary rates of sites from large datasets.” 2021 13th International Conference on Knowledge and Systems Engineering (KSE).
- Le Kim Thu, and Vinh Le Sy. 2022. “A protein secondary structure-based algorithm for partitioning large protein alignments.” 2022 14th International Conference on Knowledge and Systems Engineering (KSE) 1-5.
- Le Kim Thu, Diep Hoang Thi, Dong Do Duc, Thang Bui Ngoc, Phuong Thao Nguyen Thi, and Vinh Le Sy. 2022. “gPartition: An Efficient Alignment Partitioning Program for Genome Datasets.” VNU Journal of Science: Computer Science and Communication Engineering.