Сравнительный анализ инструментов для поиска структурных вариантов на данных короткоридового полногеномного секвенирования

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Проанализирована работа трех биоинформатических инструментов (Manta, Smoove, Delly) для поиска структурных вариантов на данных полногеномного секвенирования с использованием четырех разных алгоритмов выравнивания: DRAGEN, GDC DNA-SeqAlignment Workflow, GDC DNA-SeqAlignmentWorkflow + GDC DNA-SeqCo-cleaning Workflow, NovoAlign, разных длин “сырых” прочтений: 2 × 150 и 2 × 250 пн, разных показателей среднего покрытия генома. Полученные показания соотнесены с эталонными результатами команды GIAB. Проведена проверка выявленных структурных вариантов с помощью секвенирования по методу Сэнгера. Выявили, что структурные варианты типа делеция и инсерция лучше всего определяются с помощью инструмента Manta. Мы получили 89–96% точности и 59–70% чувствительности для проанализированных делеций, а также 96–99% точности и 15–36% чувствительности для инсерций. Smoove и Delly продемонстрировали менее точные и чувствительные результаты (Smoove: 91–95% точности и 8–54% чувствительности для делеций; Delly: 78–87% точности и 31–66% чувствительности для делеций, 99–100% точности и 1–13% чувствительности для инсерций). Показали, что использование комбинации из двух и даже трех инструментов не повышает процента подтвержденных структурных вариантов для типов делеция, инсерция, дупликация. Проведенный анализ выявил, что с увеличением среднего значения покрытия генома увеличиваются показатели точности и чувствительности работы биоинформатических инструментов для поиска структурных вариантов, а увеличение длины прочтений с 150 до 250 пн влияет в разной степени на точность и чувствительность работы отдельных инструментов. Также сделали вывод, что точность работы инструментов для поиска структурных вариантов варьируется в зависимости от диапазона размеров структурных вариантов. Например, Manta лучше находит делеции в диапазоне от 200 и более пн, Delly – от 1000 до 10 000 пн, Smoove – от 200 до 10 000 пн.

Об авторах

А. А. Мкртчян

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Автор, ответственный за переписку.
Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

С. М. Юдин

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

А. А. Кескинов

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

В. С. Юдин

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

Т. А. Шпакова

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

Л. В. Фролова

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

Е. А. Снигирь

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

А. П. Сергеев

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

Д. В. Светличный

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

М. Н. Пилипенко

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

А. А. Ивашечкин

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

П. Ю. Земский

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

С. И. Митрофанов

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

П. Г. Казакова

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

К. С. Грамматикати

Федеральное государственное бюджетное учреждение Центр стратегического планирования
и управления медико-биологическими рисками здоровью
Федерального медико-биологического агенства России

Email: AMkrtchyan@cspfmba.ru
Россия, 119121, Москва

В. И. Скворцова

Федеральное медико-биологическое агентство России

Email: AMkrtchyan@cspfmba.ru
Россия, 123182, Москва

Список литературы

  1. Pang A.W., MacDonald J.R., Pinto D. et al. Towards a comprehensive structural variation map of an individual human genome // Genome Biol. 2010. V. 11. № 5. P. R52. https://doi.org/10.1186/gb-2010-11-5-r52
  2. The International HapMap Consortium. The international hapmap project // Nature. 2003. P. 789–796. https://doi.org/10.1038/nature02168
  3. Sudmant P.H., Rausch T., Gardner E.J. et al. An integrated map of structural variation in 2,504 human genomes: 7571 // Nature. 2015. V. 526. № 7571. P. 75–81. https://doi.org/10.1038/nature15394
  4. Pös O., Radvanszky J., Buglyo G. et al. DNA copy number variation: Main characteristics, evolutionary significance, and pathological aspects // Biomed. J. 2021. V. 44. № 5. P. 548–559. https://doi.org/10.1016/j.bj.2021.02.003
  5. Alkan C., Coe B.P., Eichler E.E. Genome structural variation discovery and genotyping // Nat. Rev. Genet. 2011. V. 12. № 5. P. 363–367. https://doi.org/10.1038%2Fnrg2958
  6. Mahmoud M., Gobet N., Cruz-Davalos D.I. et al. Structural variant calling: the long and the short of it // Genome Biol. 2019. V. 20. № 1. P. 246. https://doi.org/10.1186/s13059-019-1828-7
  7. Carvalho C.M., Lupski J.R. Mechanisms underlying structural variant formation in genomic disorders // Nat. Rev. Genet. 2016. V. 17. № 4. P. 224–238. https://doi.org/10.1038/nrg.2015.25
  8. Sedlazeck F.J., Lee H., Darby C.A. et al. Piercing the dark matter: bioinformatics of long-range sequencing and mapping // Nat. Rev. Genet. 2018. V. 19. № 6. P. 329–346. https://doi.org/10.1038/s41576-018-0003-4
  9. Collins R.L., Brand H., Karczewski K.J. et al. A structural variation reference for medical and population genetics // Nature. 2021. V. 581. P. 444–451. https://doi.org/10.1038/s41586-020-2287-8
  10. Weischenfeldt J., Symmons O., Spitz F. et al. Phenotypic impact of genomic structural variation: Insights from and for human disease // Nat. Rev. Genet. 2013. V. 14. № 2. P. 125–138. https://doi.org/10.1038/nrg3373
  11. Stankiewicz P., Lupski J. Structural variation in the human genome and its role in disease // Annu. Rev. Med. 2010. V. 61. P. 437–455. https://doi.org/10.1146/annurev-med-100708-204735
  12. Schüle B., McFarland K.N., Lee K. et al. Parkinson’s disease associated with pure ATXN10 repeat expansion // NPJ Parkinson’s Disease. 2017. V. 3. P. 27. https://doi.org/10.1038/s41531-017-0029-x
  13. Yeh Y.C., Ho H.L., Wu Y.C. et al. AKT1 internal tandem duplications and point mutations are the genetic hallmarks of sclerosing pneumocytoma // Mod. Pathol. 2020. V. 33. № 3. P. 391–403. https://doi.org/10.1038/s41379-019-0357-y
  14. Schütte J., Reusch J., Khandanpour C. et al. Structural variants as a basis for targeted therapies in hematological malignancies // Front. Oncol. 2019. V. 9. P. 839. https://doi.org/10.3389%2Ffonc.2019.00839
  15. Ewing A., Meynert A., Churchman M. et al. Structural variants at the BRCA1/2 loci are a common source of homologous repair deficiency in high-grade serous ovarian carcinoma // Clin. Cancer Res. V. 27. № 11. P. 3201–3214. https://doi.org/10.1158/1078-0432.ccr-20-4068
  16. Malhotra D., Sebat J. CNVs: Harbingers of a rare variant revolution in psychiatric genetics // Cell. 2012. V. 148. № 6. P. 1223–1241. https://doi.org/10.1016%2Fj.cell.2012.02.039
  17. Huse K., Taudien S., Groth M. et al. Genetic variants of the copy number polymorphic β-defensin locus are associated with sporadic prostate cancer // Tumor Biol. 2008. V. 29. № 2. P. 83–92. https://doi.org/10.1159/000135688
  18. Wellcome Trust Case Control Consortium. Genome-wide association study of CNVs in 16,000 cases of eight common diseases and 3,000 shared controls // Nature. 2010. V. 464. P. 713–720. https://doi.org/10.1038/nature08979
  19. Fanciulli M., Norsworthy P.J., Petretto E. et al. FCGR3B copy number variation is associated with susceptibility to systemic, but not organ-specific, autoimmunity // Nat. Genet. 2007. V. 39. № 6. P. 721–723. https://doi.org/10.1038/ng2046
  20. Fellermann K., Stange D.E., Schaeffeler E. et al. A chromosome 8 gene-cluster polymorphism with low human beta-defensin 2 gene copy number predisposes to crohn disease of the colon // Am. J. Hum. Genet. 2006. V. 79. № 3. P. 439–448. https://doi.org/10.1086/505915
  21. Hollox E.J., Huffmeier U., Zeeuwen P.L. et al. Psoriasis is associated with increased β-defensin genomic copy number // Nat. Genet. 2008. V. 40. № 1. P. 23–25. https://doi.org/10.1038/ng.2007.48
  22. Zook J.M., Hansen N.F., Olson N.D. et al. A robust benchmark for detection of germline large deletions and insertions // Nat. Biotechnol. 2020. V. 38. P. 1347–1355. https://doi.org/10.1038/s41587-020-0538-8
  23. Ye J., Coulouris G., Zaretskaya I. et al. Primer-BLAST: A tool to design target-specific primers for polymerase chain reaction // BMC Bioinformatics. 2012. V. 13. № 1. P. 134. https://doi.org/10.1186/1471-2105-13-134
  24. Sequencing analysis viewer [Electronic resource] // Sequencing analysis viewer support. URL: https://support.illumina.com/sequencing/sequencing_software/ sequencing_analysis_viewer_sav.html (accessed: 15.09.2022).
  25. bcl2fastq [Electronic resource] // bcl2fastq. URL: https://emea.support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software/ downloads.html (accessed: 13.05.2022).
  26. FastQC [Electronic resource] // Babraham bioinformatics FastQC a quality control tool for high throughput sequence data. URL: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (accessed: 13.05.2022).
  27. Illumina DRAGEN Bio-IT Platform [Electronic resource] // Illumina DRAGEN Bio-IT platform | variant calling & secondary genomic analysis software tool. URL: https://www.illumina.com/products/by-type/informatics-products/dragen-bio-it-platform.html (accessed: 13.05.2022).
  28. Schneider V.A., Graves-Lindsay T., Howe K. et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly // Genome Res. 2017. V. 27. № 5. P. 849–864. https://doi.org/10.1101/gr.213611.116
  29. Chen X., Schulz-Trieglaff O., Shaw R. et al. Manta: Rapid detection of structural variants and indels for germline and cancer sequencing applications // Bioinformatics. 2016. V. 32. № 8. P. 1220–1222. https://doi.org/10.1093/bioinformatics/btv710
  30. Smoove [Electronic resource] // Brent S. Smoove: structural-variant calling and genotyping with existing tools. URL: https://github.com/brentp/smoove (accessed: 13.07.2022).
  31. Rausch T., Zichner T., Schlattl A. et al. DELLY: structural variant discovery by integrated paired-end and split-read analysis // Bioinformatics. 2012. V. 28. № 18. P. i333–i339. https://doi.org/10.1093/bioinformatics/bts378
  32. NCBI [Electronic resource] // GRCh37 hg19 genome assembly NCBI. URL: https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.13/ (accessed: 15.09.2022).
  33. Zhao H., Sun Z., Wang J. et al. CrossMap: A versatile tool for coordinate conversion between genome assemblies // Bioinformatics. 2014. V. 30. № 7. P. 1006–1007. https://doi.org/10.1093/bioinformatics/btt730
  34. GDC [Electronic resource] // GDC viewer docs. URL: https://docs.gdc.cancer.gov/Data_Dictionary/viewer/#?view=table-definition-view&id=alignment_cocleaning_workflow (accessed: 13.07.2022).
  35. Li H., Durbin R. Fast and accurate long-read alignment with Burrows–Wheeler transform // Bioinformatics. 2010. V. 26. № 5. P. 589-595. https://doi.org/10.1093/bioinformatics/btp698
  36. Danecek P., Bonfield J.K., Liddle J. et al. Twelve years of samtools and bcftools // GigaScience. 2021. V. 10. № 2. https://doi.org/10.1093/gigascience/giab008
  37. Pedersen B.S., Quinlan A.R. Duphold: scalable, depth-based annotation and curation of high-confidence structural variant calls // GigaScience. 2019. V. 8. № 4. https://doi.org/10.1093/gigascience/giz040
  38. Jeffares D.C., Jolly C., Hoti M. et al. Transient structural variations have strong effects on quantitative traits and reproductive isolation in fission yeast // Nat. Commun. 2017. V. 8. P. 14061. https://doi.org/10.1038/ncomms14061
  39. Witty.er [Electronic resource] // Wan Y., Ho K. Witty.er. URL: https://github.com/Illumina/witty.er (accessed: 13.07.2022).
  40. Unipro UGENE [Electronic resource] // Unipro UGENE: a unified bioinformatics toolkit. Bioinformatics. Oxford academic. URL: https://academic.oup.com/bioinformatics/article/28/8/1166/195474?login=false (accessed: 13.07.2022).
  41. Robinson J.T., Thorvaldsdottir H., Winckler W. et al. Integrative genomics viewer // Nat. Biotechnol. 2011. V. 29. № 1. P. 24–26. https://doi.org/10.1038/nbt.1754

© А.А. Мкртчян, К.С. Грамматикати, П.Г. Казакова, С.И. Митрофанов, П.Ю. Земский, А.А. Ивашечкин, М.Н. Пилипенко, Д.В. Светличный, А.П. Сергеев, Е.А. Снигирь, Л.В. Фролова, Т.А. Шпакова, В.С. Юдин, А.А. Кескинов, С.М. Юдин, В.И. Скворцова, 2023

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах