Neural network based on correlation convolution of multi-target energy spectra of multiple docking: a new method of artificial intelligence in the search for pharmacologically active substances
- 作者: Vasiliev P.M.1, Perfiliev M.A.1, Golubeva A.V.1, Kochetkov A.N.1
-
隶属关系:
- Volgograd State Medical University
- 期: 卷 21, 编号 4 (2024)
- 页面: 136-142
- 栏目: Original Researches
- URL: https://journals.rcsi.science/1994-9480/article/view/276960
- DOI: https://doi.org/10.19163/1994-9480-2024-21-4-136-142
- ID: 276960
如何引用文章
全文:
详细
22 biotargets relevant to the anxiolytic activity of chemical compounds have been identified. Multiple docking of known anxiolytic substances in 22 valid 3D models of relevant biotargets has been performed. The energy spectra of multiple docking of these compounds have been calculated for the entire volume of relevant target proteins. Correlation convolution of the energy spectra of multitarget multiple docking in 22 convolution variables has been performed. The one-way ANOVA method has shown high statistical significance of using the obtained convolution variables to estimate the integral multitarget affinity of ligands to a set of relevant biotargets. Neural network models of the dependence of the anxiolytic activity level of chemical compounds on the specified convolution variables have been formed. Very high statistical significance of the constructed neural network models has been shown. As a result, a new artificial intelligence method was developed for in silico search for pharmacologically active substances based on a convolution correlation neural network and energy spectra of multitarget multiple docking.
全文:
В настоящее время методы машинного обучения и искусственного интеллекта широко применяются в поиске фармакологически активных веществ [1]. Термин «искусственный интеллект» общепринято определяется как использование для решения поставленных человеком задач искусственных нейронных сетей различной архитектуры, в частности, сверточных нейронных сетей [2]. Методология сверточных нейронных сетей была разработана для распознавания зрительных образов и применяемые в ней способы свертки ориентированы на успешное решение именно этой задачи [2]. Между тем для случая фармакологически активных веществ характер и внутренняя структура химико-биологической информации существенно отличаются от таковых для пикселизированных изображений. Поэтому разработка новых архитектур и методов построения искусственных нейронных сетей, учитывающих особый характер химико-биологических данных и ориентированных на анализ зависимостей между фармакологической активностью и структурой химических соединений, является актуальной и научно востребованной задачей.
В наших предыдущих исследованиях [3, 4, 5] было показано, что использование метода множественного докинга для построения нейросетевых моделей зависимостей между фармакологической активностью и спектром энергий множественного докинга химических соединений позволяет достигать значительно более высокой точности прогноза уровня активности, чем простой докинг единичной молекулы лиганда в отдельно взятый сайт связывания.
Метод множественного докинга [3] моделирует взаимодействие множества молекул лиганда со всей поверхностью биомишени. В рамках этого подхода весь белок разделяется на некоторое фиксированное число пространств и в каждое такое пространство осуществляется ансамблевый докинг. Полученный вектор энергий множественного докинга отражает интегральную аффинность лиганда к данной биомишени в целом. Такой подход не требует определения в белке-мишени местоположения какого-либо сайта связывания.
Предыдущие исследования [4, 5] рассматривали использование множественного докинга только для построения монотаргетных моделей зависимостей фармакологической активности от структуры химических соединений. Между тем хорошо известно, что подавляющее большинство лекарственных веществ действуют одновременно на несколько релевантных биомишеней.
Однако объединение в один массив спектров энергий множественного докинга, вычисленных для множества биомишеней, существенно увеличивает размерность предметной области и для эффективного использования таких данных в нейросетевом моделировании необходимо разработать валидный метод свертки.
ЦЕЛЬ РАБОТЫ
Доказательство методами многомерной статистики и нейросетевого моделирования валидности использования корреляционной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.
МЕТОДИКА ИССЛЕДОВАНИЯ
Для достижения цели исследования необходимо было решить следующие задачи.
- Сформировать верифицированную выборку по структуре и уровню активности известных соединений, испытанных на модельную фармакологическую активность.
- Построить и оптимизировать 3D-модели этих соединений.
- Выявить биомишени, релевантные модельной активности.
- Найти валидные 3D-модели белков-мишеней, релевантных модельной активности.
- Сформировать пространства для множественного докинга по всему объему каждой валидной 3D-модели релевантных белков-мишеней.
- Выполнить для указанных соединений множественный докинг во все сформированные для этого пространства релевантных белков-мишеней, рассчитать спектры энергий мультитаргетного множественного докинга.
- Провести корреляционную свертку рассчитанных спектров энергий мультитаргетного множественного докинга.
- Провести однофакторный дисперсионный анализ, устанавливающий статистическую значимость уровня модельной активности известных соединений от параметров корреляционной свертки спектров энергий мультитаргетного множественного докинга.
- Выполнить обучение нейронных сетей на полученных сверточных переменных и сформировать мультитаргетные нейросетевые модели зависимости модельной фармакологической активности от параметров корреляционной свертки спектров энергий мультитаргетного множественного докинга химических соединений.
Выборка по структуре и активности известных соединений. В качестве модельной фармакологической активности была выбрана анксиолитическая активность, системный характер которой обусловлен мультитаргетным воздействием соединений на весьма большое число биомишеней. Обучающая выборка по структуре и активности 537 известных веществ, испытанных на анксиолитическую активность, была сформирована с использованием оригинальной верифицированной базы данных [6] и включала 92, 181, 184 и 80 соединений с высокой, умеренной, низкой активностью и неактивных соответственно. Для последующей обработки были сформированы объединенные классы активности high, high or moderate и active, включающие 92, 273 и 457 соединений соответственно.
Оптимизированные 3D-модели соединений. Оптимизированные 3D-модели всех 537 соединений были построены в соответствии с методикой [3]. Методами молекулярной механики с помощью программы MarvinSketch 17.1.23 (URL: https://chemaxon.com/products/marvin), отдельно для каждого соединения, были построены по 10 конформеров с наименьшей энергией. Построенные конформеры были оптимизированы с помощью программы MOPAC 2012 (URL: http://openmopac.net) с использованием полуэмпирического квантово-химического метода PM7. Среди оптимизированных конформеров были отобраны для каждого соединения по одному конформеру с наименьшей общей энергией.
Релевантные биомишени. Биомишени, релевантные анксиолитической активности, были определены в соответствии с методикой [7]. Пересечением списка из системы Open Targets [8] 2057 биомишеней, ассоциированных с тревожными расстройствами, и списка из оригинальной QSAR-базы системы Microcosm BioS 20.6.6 [9] 2697 биомишеней человека с экспериментальными данными по различным видам таргетной активности был получен список из 92 биомишеней человека, предположительно релевантных анксиолитической активности и имеющих достоверное экспериментальное подтверждение. Для этих 92 биомишеней по 273 соединения с выраженной анксиолитической активностью из оригинальной базы данных [6] с использованием оригинальных систем IT Microcosm 7.3 [10] и Microcosm BioS 20.6.6 [9] методом структурного сходства были вычислены 92 средних показателя уровня таргетной активности Ind – диапазон от Ind = +5 очень высокая до Ind = 5 неактивно; Ind = 0 соответствует средней активности. В качестве релевантных анксиолитической активности отобраны 22 биомишени, имеющие значения Ind ≥ 1.
Валидные 3D-модели релевантных биомишеней. По методике, описанной в работе [7], для 22 релевантных анксиолитической активности биомишеней в базах данных PDBe (URL: https://www.ebi.ac.uk/pdbe) и RCSB PDB (URL: https://www.rcsb.org) были выявлены 22 валидных экспериментальных 3D-модели, по одной для каждой биомишени. Критериями качества служили: 1) максимальная длина смоделированной аминокислотной последовательности; 2) высокое разрешение; 3) минимальное число фрагментов.
Пространства для множественного докинга. На каждой валидной 3D-модели релевантной биомишени с помощью оригинальной программы MSite 21.04.22 с использованием алгоритма, описанного в работе [3], было построено по 27 пространств для множественного докинга, охватывающих весь объем данного белка-мишени.
Множественный докинг. Множественный ансамблевый докинг проводили с помощью программы AutoDock Vina 1.1.1 [11], каждое соединение в 10 конформерах в каждое пространство докинга каждой валидной 3D-модели каждой релевантной биомишени, с вычислением по 50 полученным значениям минимальных энергий связывания ΔE, как это описано в исследовании [3]. Указанную процедуру повторяли по 5 раз для каждого пространства докинга. В итоге для каждого соединения был получен спектр из 27 × 5 = 135 значений ΔE для одной релевантной биомишени и спектр из 135 × 22 = 2970 значений ΔE, характеризующий интегральный мультитаргетный аффинитет соединений в отношении всех 22 релевантных биомишеней.
Корреляционная свертка спектров энергий множественного докинга. Для одной биомишени рассчитанные в результате множественного докинга 135 значений ΔE можно рассматривать как нейроны полносвязной нейронной сети с симметричной матрицей связей. Они взаимозависимы, поскольку определены для одного и того же белка. В полносвязной нейросети веса межнейронных связей являются линейными, поэтому их значения могут быть вычислены как коэффициенты парных корреляций. Следовательно, для одной биомишени показатель свертки спектра энергий множественного докинга может быть определен как энергия W нейронной полносвязной корреляционной сети
(1)
где Rij – коэффициент корреляции Пирсона между энергиями ΔEi и ΔEj, i≠j; ΔEil – значение энергии i для соединения l, l=1...N; ΔEjl – значение энергии j для соединения l, l=1...N; M – число сворачиваемых значений энергии, равно 135; N – число соединений. В результате свертки мультитаргетный множественный аффинитет каждого соединения в отношении релевантных биомишеней был представлен 22 сверточными переменными.
Однофакторный дисперсионный анализ. Для показателей уровня активности high, high or moderate и active с помощью программы Statistica 7 [12] был выполнен однофакторный дисперсионный анализ (ANOVA) [17] зависимостей указанных факторов от многомерной матрицы значений сверточных переменных спектров энергий мультитаргетного множественного докинга. Для каждого сравнения рассчитаны величины критерия лямбда Уилкса Λ, соответствующего ему критерия Фишера F и определена статистическая достоверность p.
Обучение нейронных сетей. Выполняли с помощью программы Statistica 8 [12]. В настоящем исследовании использовалась архитектура нейронной сети в виде двухслойного перцептрона MLP k-m-2 с узким горлом. Здесь k – число входных нейронов, в данном случае 22; m – число скрытых нейронов, устанавливается программой от 3 до 21, поскольку 2 < m < k. При обучении сетей для скрытого слоя использовались четыре наиболее распространенных активационных функций (Identity, Logictic, Tanh, Exponential), попарный перебор которых осуществляется программой. Для выходных нейронов использовалась активационная функция Softmax, которая является наиболее эффективной при обучении классификационных нейронных сетей [13]. При формировании обучающих и тестовых подвыборок использовался метод Монте-Карло. С целью достижения наилучшего результата обучения, число сетей в каждом цикле обучения было установлено в 2000, из которых программой автоматически отбирались 200. После окончания обучения для заданного уровня активности из 100 лучших отобранных программой нейросетей по совокупности характеристик точности вручную отбирали одну наилучшую. Для всех трех найденных нейросетей были рассчитаны общая точность прогноза Acc, чувствительность Sens и специфичность Spec. С помощью биномиального критерия [14] оценена статистическая достоверность p показателей точности прогноза.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ОБСУЖДЕНИЕ
В табл. 1 приведен перечень 22 биомишеней, релевантных анксиолитической активности, и их валидные экспериментальные 3D-модели.
Таблица 1
Релевантные анксиолитической активности биомишени и их валидные 3D-модели
Шифр 1 | Название2 | PDB код 3D-модели |
ADRA1A | Alpha-1A adrenergic receptor | 3p0g |
ADRA1B | Alpha-1B adrenergic receptor | 4amj |
ADRA2A | Alpha-2A adrenergic receptor | 6kuy |
ADRA2B | Alpha-2B adrenergic receptor | 3pbl |
AGTR1 | Type-1 angiotensin II receptor | 6os1 |
CA2 | Carbonic anhydrase 2 | 2weg |
CA4 | Carbonic anhydrase 4 | 5jn9 |
CNR1 | Cannabinoid receptor 1 | 7v3z |
GABAR | Gamma-aminobutyric acid A receptor | 6x3x |
HTR1A | 5-hydroxytryptamine receptor 1A | 7e2x |
HTR1B | 5-hydroxytryptamine receptor 1B | 4iar |
HTR1D | 5-hydroxytryptamine receptor 1D | 5d5a |
HTR2A | 5-hydroxytryptamine receptor 2A | 4amj |
HTR2B | 5-hydroxytryptamine receptor 2B | 6j20 |
HTR2C | 5-hydroxytryptamine receptor 2C | 4amj |
HTR4 | 5-hydroxytryptamine receptor 4 | 2rh1 |
HTR7 | 5-hydroxytryptamine receptor 5 | 7e2z |
MTNR1A | Melatonin receptor type 1A | 7vgz |
MTNR1B | Melatonin receptor type 1B | 7vh0 |
NMDAR | N-methyl-D-aspartate receptor | 6irh |
SCN11A | Sodium channel protein type 11 subunit alpha | 6a90 |
SLC18A2 | Synaptic vesicular amine transporter | 3o7q |
В табл. 2 приведены данные дисперсионного анализа, которые доказывают высокую статистическую достоверность использования сверточных переменных, полученных в результате корреляционной свертки спектров энергий множественного докинга, для оценки интегральной мультитаргетной аффинности лигандов к совокупности фармакологически релевантных биомишеней.
Таблица 2
Результаты однофакторного дисперсионного анализа зависимостей уровня анксиолитической активности от переменных, полученных в результате корреляционной свертки спектров энергий множественного докинга в совокупность пространств релевантных белков-мишеней
Показатель достоверности | Значение для уровня активности | ||
High | High or Moderate | Active | |
Λ Уилкса | 0,909 | 0,848 | 0,865 |
F Фишера | 2,34 | 4,18 | 3,65 |
p | 5,79 × 10-4 | 1,54 × 10-9 | 6,07 × 10-8 |
В табл. 3 приведены результаты нейросетевого моделирования зависимостей трех уровней анксиолитической активности от параметров корреляционной свертки мультитаргетных спектров энергий множественного докинга химических соединений в релевантные биомишени.
Точность всех найденных нейросетевых моделей статистически очень высоко достоверна. Таким образом, на примере анксиолитической активности показано, что нейросетевое моделирование на основе корреляционной свертки спектров мультитаргетных энергий докинга химических соединений в множество пространств совокупности релевантных биомишеней является весьма точным вычислительным методом, который может быть рекомендован как новый метод искусственного интеллекта для поиска in silico фармакологически активных веществ.
Таблица 3
Точность прогноза уровня анксиолитической активности с использованием нейросетевых моделей на основе параметров корреляционной мультитаргетной свертки спектров энергий множественного докинга химических соединений в релевантные биомишени
Показатель | Значение для уровня активности | ||
High | High or moderate | Active | |
Архитектура 1 | MLP 22162 (Tanh) | MLP 22142 (Logistic) | MLP 22152 (Logistic) |
Acc, % 2 | 95,2 | 88,1 | 98,1 |
Sens, % 3 | 83,7 | 91,9 | 99,1 |
Spec, % 4 | 97,5 | 84,1 | 92,5 |
AUCROC, % 5 | 94,9 | 92,1 | 99,1 |
p 6 | 2,89 × 10-6 | 2,78 × 10-15 | 4,74 × 10-8 |
ЗАКЛЮЧЕНИЕ
Разработан новый способ свертки спектра энергий множественного докинга в виде энергии полносвязной корреляционной нейронной сети с симметричной матрицей связей.
Методами многомерной статистики и нейросетевого моделирования на примере анксиолитической активности доказана высокая валидность использования параметров корреляционной свертки спектров энергий мультитаргетного множественного докинга как статистически высокодостоверной метрики интегральной аффинности химических соединений к совокупности фармакологически релевантных биомишеней, определяющих системные виды фармакологической активности.
Создана новая архитектура сверточной искусственной нейронной сети для поиска in silico фармакологически активных веществ на основе корреляционной свертки спектров энергий мультитаргетного множественного докинга и многослойного перцептрона прямого распространения с узким горлом.
Новый метод искусственного интеллекта может быть рекомендован для создания моделей зависимостей различных видов системной мультитаргетной фармакологической активности от показателей интегральной аффинности химических соединений и поиска с применением этих моделей новых соединений с высокой активностью.
Финансирование. Работа выполнена в рамках государственного задания Министерства здравоохранения Российской Федерации № 23022400009-9 «Разработка методологии компьютерного поиска мультитаргетных фармакологически активных соединений на основе множественного докинга и технологии сверточных нейронных сетей различной архитектуры».
Funding. The work was performed within the framework of the state task of the Ministry of Health of the Russian Federation No. 23022400009-9 “Development of a methodology for computer search for multi-target pharmacologically active compounds based on multiple docking and convolutional neural network technology of various architectures”.
Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.
Competing interests. The authors declare that they have no competing interests.
作者简介
Pavel Vasiliev
Volgograd State Medical University
编辑信件的主要联系方式.
Email: pvassiliev@mail.ru
Doctor of Biological Sciences, Associate Professor, Head of the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs SCIM, Professor of the Department of Pharmacology and Bioinformatics
俄罗斯联邦, VolgogradMaxim Perfiliev
Volgograd State Medical University
Email: maxim.firu@yandex.com
is a junior researcher at the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs SCIM, Assistant at the Department of Pharmacology and Bioinformatics
俄罗斯联邦, VolgogradArina Golubeva
Volgograd State Medical University
Email: arina_arina_golubeva@mail.ru
Junior Researcher at the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs NCILS, Assistant at the Department of Pharmacology and Bioinformatics
俄罗斯联邦, VolgogradAndrey Kochetkov
Volgograd State Medical University
Email: akocha@mail.ru
System administrator, Software Engineer at the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs SCIM
俄罗斯联邦, Volgograd参考
- Sarkar C., Das B., Rawat V.S. et al. Artificial Intelligence and Machine Learning Technology Driven Modern Drug Discovery and Development. International Journal Molecular Sciences. 2023;24(3):2026.
- Leijnen S., Van Veen F. The Neural Network Zoo. Proceedings. 2020;47(4):9.
- Vassiliev P.M., Kochetkov A.N., Spasov A.A., Perfilev M.A. The energy spectrum of multiple docking as a multidimensional metric of the affinity of chemical compounds to pharmacologically relevant biotargets. Volgogradskii nauchno-meditsinskii zhurnal = Volgograd Scientific and Medical Journal. 2021;3:5–61. (In Russ.).
- Vassiliev P.M., Kochetkov A.N., Perfilev M.A. Neural network modeling of the dependence of GABA-agonistic activity of chemical compounds on the energy spectrum of multiple docing. Vestnik Volgogradskogo gosudarstvennogo meditsinskogo universiteta = Journal of Volgograd State Medical University. 2022;19(4):88–93. (In Russ.) doi: 10.19163/1994-9480-2022-19-4-88-93.
- Vassiliev P.M., Perfilev M.A., Kochetkov A.N. Neural network modeling of the dependence of RAGE inhibitory activity of chemical compounds on the energy spectrum of multiple docing. Vestnik Volgogradskogo gosudarstvennogo meditsinskogo universiteta = Journal of Volgograd State Medical University. 2023;20(4):157–161. (In Russ.) doi: https://doi.org//10.19163/1994-9480-2023-20-4-157-161.
- Vasiliev P.M., Maltsev D.V., Perfiliev M.A. et al. Compo-unds with anxiolytic activity. Certificate of state registration of database No. 2022621744. Declared 13.07.2022. Registered 15.07.2022. Published 15.07.2022. Ofitsial’nyi byulleten’ “Programmy dlya EVM. BD. TIMS” = Official Bulletin “Computer Programs. DB. TIMS”. 2022;7. (In Russ.) URL: https://www1.fips.ru/ofpstorage/Doc/PrEVM/RUNWDB/000/002/022/621/744/2022621744-00001/DOCUMENT.PDF.
- Vassiliev P.M., Maltsev D.V., Spasov A.A. et al. consensus ensemble multitarget neural network model of anxiolytic activity of chemical compounds and its use for multitarget pharmacophore design. Pharmaceuticals. 2023;16(5):731.
- Ochoa D., Hercules A., Carmona M. et al. The next-generation Open Targets Platform: reimagined, redesigned. Nucleic Acids Research. 2023;51(D1): D1353-D1359.
- Vasilyev P.M., Luzina O.A., Babkov D.A. et al. Studying dependences between the chemotype structure of some natural compounds and the spectrum of their targeted activities correlated with the hypoglycemic effect. Journal of Structural Chemistry. 2019;60(11):1827–1832.
- Vassiliev P.M., Spasov A.A., Kosolapov V.A. et al. Consensus drug design using IT microcosm. Application of Computational Techniques in Pharmacy and Medicine. Eds. L. Gorb, V. Kuz’min, E. Muratov. Vol. 17. Dordrecht (Netherlands); Springer Science + Business Media, 2014:369–431.
- Trott O., Olson A.J. AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization and multithreading. Journal of Computational Chemistry. 2010;31(2);455–461.
- Hilbe J.M. Statistica 7: an overview. The American Statistician. 2007;61(1):91–94.
- Dubin U. Cross-Entropy Method: Theory with Applications. Chisinau (Moldova): LAMBERT Academic Publishing, 2013. 148 p.
- Glotov N.V., Zhivotovskiy L.A., Khovanov N.V., Khromov-Borisov N.N. Biometrics. Leningrad; Leningrad University Publishing House, 1982. 264 p. (In Russ.).
补充文件
