Поиск аномалий сигнала покрытия секвенирования, ассоциированных со структурными вариациями генома

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Структурные вариации генома являются одним из основных источников генетического разнообразия. Как мутагены структурные варианты могут оказывать значительное влияние на здоровье человека, являясь причинами наследственных и онкологических заболеваний. Существующие методы поиска структурных вариантов основываются на анализе данных высокопроизводительного секвенирования, и, несмотря на значительный прогресс в их развитии, не позволяют определять структурные вариации с точностью, достаточной для применения в диагностике. Новые возможности для разработки методов поиска структурных вариаций представляет анализ сигнала покрытия секвенирования (т.е. количества фрагментов секвенирования, выравненных в каждой точке генома), который может рассматриваться как временной ряд. В работе представлен метод для поиска повторяющихся паттернов в сигнале покрытия, разработанный с использованием алгоритмов, применяемых для анализа временных рядов, а именно: KNN- (K-nearest neighbour) и SAX-преобразования (Symbolic Aggregation Approximation) сигнала. С использованием данных проекта Human Genome Diversity Project, включающих полногеномное секвенирование 911 человек разного этнического происхождения, нами были построены обобщающие паттерны сигнала покрытия в окрестностях точек разрыва, соответствующих структурным вариациям. В дополнение был разработан программный пакет для быстрого поиска аномалий в сигнале покрытия с применением полученных паттернов.

Об авторах

И. В Бездворных

Санкт-Петербургскии государственный университет

Санкт-Петербург, Россия

Н. А Черкасов

Санкт-Петербургскии государственный университет

Санкт-Петербург, Россия

А. А Канапин

Санкт-Петербургскии государственный университет

Санкт-Петербург, Россия

А. А Самсонова

Санкт-Петербургскии государственный университет

Email: a.samsonova@spbu.ru
Санкт-Петербург, Россия

Список литературы

  1. R. L. Collins, et al., Nature, 581 (7809), 444 (2020).
  2. Y. R. Li, et al., Nature Commun., 11 (1), 255 (2020).
  3. S. Girirajan, et al., Am. J. Human Genetics, 92 (2), 221 (2013).
  4. M. Mahmoud, et al., Genome Biol., 20 (1), 1 (2019).
  5. S. Kosugi, et al., Genome Biol., 20 (1), 117 (2019).
  6. Z. Liu, et al., Genome Biol., 23 (1), 68 (2022).
  7. H. Parikh, et al., BMC Genomics, 17 (1), 64 (2016).
  8. A. Abyzov, et al., Genome Res., 21 (6), 974 (2011).
  9. M. Rapti, et al., Brief Bioinform., 23 (2), bbac049 (2022).
  10. Z. A. Aghbari, Data Knowl. Eng., 52 (3), 333 (2005).
  11. S. Malinowski, et al., Lect. Notes Comput. Sci., 273 (2013).
  12. BGRS/SB-2022 Swaveform: a genome-wide survey of structural variation profiles, Thirteen Int. Multiconference (2022).
  13. A. Bergstrom, et al., Science, 367 (6484), eaay5012 (2020).
  14. M. A. Almarri, et al., Cell, 182 (1), 189 (2020).
  15. H. Sakoe and S. Chiba, IEEE Trans. Acoust. Speech Signal Process., 26 (1), 43 (1978).
  16. F. Petitjean, A. Ketterlin, and P. Gangarski, Pattern Recogn., 44 (3), 678 (2011).
  17. R. Tavenard, et al., J. Mach. Learn. Res., 21 (118), 1 (2020).
  18. B. S. Pedersen and A. R. Quinlan, Bioinformatics, 34 (5), 867 (2018).
  19. D. V. Zhernakova, et al., Genomics, 1 (2019).
  20. T. Rausch, et al., Bioinformatics, 28 (18), i333 (2012).
  21. J. M. Zook, et al., Nat. Biotechnol., 1 (2020).
  22. A. Shumate, et al., Genome Biol., 1 (2020).
  23. J. M. Zook, et al., Sci. Data, 3, 160025 (2016).
  24. L. M. Chapman, et al., PLoS Comput. Biol. 16 (6), e1007933-20 (2020).

© Российская академия наук, 2023

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах