Построение последовательности нуклеотидов методами машинного обучения в секвенаторе "Нанофор СПС"
Министерство здравоохранения Российской Федерации, Национальная система химической и биологической безопасности Российской Федерации (2015-2020 годы), К-27-ФЦП/77-4
Министерство науки и высшего образования Российской Федерации, Федеральная научно-техническая программа развития генетических технологий на 2019-2027 годы, 075-15-2021-1057
Манойлов В.В.
1, Бородинов А.Г.
1, Петров А.И.
1, Заруцкий И.В.
1, Бардин Б.В.
1, Ямановская А.Ю.
1, Сараев А.С.
1, Курочкин В.Е.
11Институт аналитического приборостроения Российской академии наук, Санкт-Петербург, Россия
Email: manoilov_vv@mail.ru, borodinov@gmail.com, fataip@mail.ru, igorzv@yandex.ru, bardin.bv@mail.ru, alex.niispb@yandex.ru, vladimirkurockin638@gmail.com
Поступила в редакцию: 12 февраля 2024 г.
В окончательной редакции: 14 июня 2024 г.
Принята к печати: 8 июля 2024 г.
Выставление онлайн: 24 августа 2024 г.
Рассмотрены способы обработки информации, включающие в себя методы фильтрации изображений, обнаружения кластеров флуоресценции, оценки параметров сигналов флуоресценции как для одиночных кластеров, так и для кластеров, "наложившихся" друг на друга, а также методы построения последовательности буквенных кодов нуклеотидов ДНК по интенсивностям сигналов флуоресценции, полученных непосредственно по результатам обработки изображений. В этих методах использованы классификаторы, основанные на машинном обучении. Показано, что в результате выполненной апробации различных моделей машинного обучения к задаче построения последовательности нуклеотидов, полученные результаты показали достаточно высокие показатели качества генетического анализа. Показатели качества по Phred score оказались в диапазоне от 29 до 35 для референсного генома бактериофага Phix174. Ключевые слова: секвенирование, нуклеиновые кислоты, обработка изображений, повышение качества генетического анализа, машинное обучение.
- В.Е. Курочкин, Я.И. Алексеев, Д.Г. Петров, А.А. Евстрапов. Известия Российской ВМА, 40 (3), 69 (2021). DOI: 10.33917/es-3.189.2023.36-41
- В.В. Манойлов, А.Г. Бородинов, А.С. Сараев, А.И. Петров, И.В. Заруцкий, В.Е. Курочкин. ЖТФ, 92 (7), 985 (2022). DOI: 10.21883/JTF.2022.07.52655.318-21
- В.В. Манойлов, А.Г. Бородинов, И.В. Заруцкий, А.И. Петров, В.Е. Курочкин. Труды СПИИРАН, 18 (4), 1010 (2019). DOI: 10.15622/sp.2019.18.4.1010-1036
- Kao, Wei-Chun. Algorithms for Next-Generation High-Throughput Sequencing Technologies (Thesis, University of California, 2011), https://escholarship.org/uc/item/86b9c87d
- RTA Theory of Operations v1.13 ILLUMINA PROPRIETARY Pub. No. 770-2009-020, current as of 09 Nov. 2011
- S. Paliwal, A. Sharma, S. Jain, S. Sharma. Machine Learning and Deep Learning in Bioinformatics. In Bioinformatics and Computational Biology (Chapman and Hall/CRC, 2024), p. 63-74
- H. Izadkhah. Deep Learning in Bioinformatics: Techniques and Applications in Practice (Academic Press, 2022)
- А.Г. Бородинов, В.В. Манойлов, И.В. Заруцкий, А.И. Петров, В.Е. Курочкин, А.С. Сараев. Информатика и автоматизация, 21 (3), 572 (2022). DOI: 10.15622/ia.2022.3.21
- Р. Гонсалес, Р. Вудс. Цифровая обработка изображений (Техносфера, М., 2005)
- Б.В. Бардин, И.В. Чубинский-Надеждин. Научное приборостроение, 19 (4), 96 (2009.)
- N. Otsu. IEEE Transactions on Systems, Man, and Cybernetics, 9 (1), 62 (1979)
- L. Najman, M. Schmitt. Signal Processing, 38 (1), 99 (1994)
- E. Tegfalk. Application of Machine Learning Techniques to Perform Base-Calling in Next-Generation DNA Sequencing (2020). https://www.diva-portal.org/smash/get/diva2:1465444/FULLTEXT01.pdf
- S.I. Gallant. IEEE Transactions on Neural Networks, 1 (2), 179 (1990). DOI: 10.1109/72.80230
- S. Dreiseitl, L. Ohno-Machado. J. Biomed. Inform., 35 (5-6), 352 (2002). DOI: 10.1016/S1532-0464(03)00034-0
- J. Abello, G. Carmode. (eds.). Discrete Methods in Epidemiology. DIMACS Series in Discrete Mathematics and Theoretical Computer Science, 70, 13 (2004)
- L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone. Classification and Regression Trees (Wadsworth \& Brooks/Cole Advanced Books \& Software, Monterey, CA, 1984) DOI: 10.1201/9781315139470
- G. Biau, E. Scornet. Test, 25, 197 (2016). DOI: 10.1007/s11749-016-0481-7
- T. Hastie, R. Tibshirani, J. Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction (Springer, N Y., 2009), DOI: 10.1007/978-0-387-84858-7
- J. Hao, T.K. Ho. J. Educational and Behavioral Statistics, 44 (3), 348 (2019). DOI: 10.3102/1076998619832248
- L. Buitincketal. API Design for Machine Learning Software: Experiences from the Scikit-Learn Project. arXiv preprint arXiv:1309.0238. 2013
- J. Zhou, A.H. Gandomi, F. Chen, A. Holzinger. Electronics, 10 (5), 593 (2021). DOI: 10.3390/electronics10050593
- F. Masoodi, M. Quasim, S. Bukhari, S. Dixit, S. Alam. (eds.). Applications of Machine Learning and Deep Learning on Biological Data (CRC Press, 2023), DOI: 10.1201/9781003328780
- Quality Scores for Next-Generation Sequencing (Illumina Inc., San Diego, CA, 2011)
- A.G. Borodinov, V.V. Manjilov, I.V. Zarutskiy, A.I. Petrov, V.I. Kurochkin. Quality Control Metrics at Different Stages of Genomic Assembly in the Parallel Sequencing Using the Nanofor SPS. XV International scientific-technical conference on actual problems of electronic instrument engineering (APEIE), IEEE, 516 (2021). DOI: 10.1109/APEIE52976.2021.9647574
- X. Li, L. Zhang, J. Yang, F. Teng. J. Med. Biolog. Engineering, 44, 231 (2024). DOI: 10.1007/s40846-024-00863-x
- В.В. Манойлов, А.Г. Бородинов, А.И. Петров, И.В. Заруцкий, В.Е. Курочкин. Научное приборостроение, 33 (2), 35 (2023)
- G.C. Linderman, S. Steinerberger. SIAM J. Mathematics of data Science, 1 (2), 313 (2019). DOI: 10.1137/18M1216134
Подсчитывается количество просмотров абстрактов ("html" на диаграммах) и полных версий статей ("pdf"). Просмотры с одинаковых IP-адресов засчитываются, если происходят с интервалом не менее 2-х часов.
Дата начала обработки статистических данных - 27 января 2016 г.