banner
Дом / Блог / Мульти
Блог

Мульти

Mar 11, 2024Mar 11, 2024

Научные отчеты, том 12, Номер статьи: 10487 (2022) Цитировать эту статью

1174 Доступа

3 цитаты

2 Альтметрика

Подробности о метриках

Эта статья обновлена

Взаимодействия белок-белок (PPI) имеют решающее значение для функционирования белка, тем не менее, предсказание остатков в интерфейсах PPI по последовательности белка остается сложной проблемой. Кроме того, функциональные аннотации на основе структуры, такие как аннотации интерфейса PPI, немногочисленны: только примерно для одной трети всех белковых структур доступны аннотации интерфейса PPI на основе остатков. Если мы хотим использовать стратегию глубокого обучения, нам необходимо решить проблему ограниченной доступности данных. Здесь мы используем стратегию многозадачного обучения, которая может обрабатывать недостающие данные. Мы начнем с архитектуры многозадачной модели и адаптируем ее для тщательной обработки недостающих данных в функции стоимости. В качестве смежных задач обучения мы включаем прогнозирование вторичной структуры, доступности растворителя и захороненных остатков. Наши результаты показывают, что стратегия многозадачного обучения значительно превосходит подходы с одной задачей. Более того, только многозадачная стратегия способна эффективно обучаться на наборе данных, расширенном данными о структурных признаках, без дополнительных аннотаций PPI. Настройка многозадачности становится еще более важной, если доля аннотаций PPI становится очень маленькой: учащийся, работающий в режиме многозадачности и обученный только одной восьмой аннотаций PPI (с расширением данных), достигает тех же результатов, что и учащийся, выполняющий одну задачу. во всех аннотациях PPI. Таким образом, мы показываем, что стратегия многозадачного обучения может быть полезна для небольшого набора обучающих данных, где интересующие функциональные свойства белка аннотированы лишь частично.

Базы данных по последовательностям белков1 продолжают быстро расти, а структурная информация становится все более доступной2. Тем не менее, точных функциональных аннотаций, основанных на структуре белка, таких как сайты связывания белков3, все еще мало, и их трудно предсказать. Поэтому вычислительные методы используются для прогнозирования некоторых функциональных структурных свойств белков на основе их последовательности. Одним из этих свойств является интерфейс физического взаимодействия между белками, который имеет решающее значение для функционирования белка4. Взаимодействие между белками необходимо во многих биологических процессах, таких как репликация ДНК, транскрипция РНК, передача сигналов, контроль клеточных процессов, транспорт белков и метаболизм5,6,7,8,9. Более того, многие заболевания могут быть связаны с деформацией интерфейса белка10,11. Предсказание набора остатков в белке, которые взаимодействуют с другими белками, является важной, но все еще сложной задачей12. Более того, структурная информация об остатках, составляющих интерфейс, скудна. Размер базы данных с аннотациями PPI составляет лишь небольшую часть размера базы данных со структурными аннотациями. Размер базы данных структурных аннотаций, в свою очередь, составляет небольшую часть размера базы данных последовательностей белков (см. рис. 1). Кроме того, существуют такие проблемы, как предсказание интерфейсов эпитопов (связывания антител), для которых доступно еще меньше меченых данных13. Чтобы эффективно обучать глубокие нейронные сети для прогнозирования интерфейса PPI и других задач с ограниченной доступностью аннотаций, нам необходимо преодолеть проблему ограниченного размера набора обучающих данных.

Сравнение количества записей, доступных в базах данных о последовательности белка, структуре белка и функциональных аннотациях на основе конкретной структуры: интерфейс межбелкового взаимодействия (PPI). Эти результаты соответственно основаны на записях о белках, доступных в базе данных UniProtKB/TrEMBL, записях о белках, доступных в банке данных белков (PDB), и записях о белках с аннотациями интерфейса PPI. Обратите внимание, что ось Y является логарифмической.

Благодаря успехам глубокого обучения в таких областях, как обработка естественного языка, подходы глубокого обучения используются все чаще и показали большие успехи в прогнозировании структурных особенностей белков14,15,16,17. При глубоком обучении несколько связанных слоев вместе со своими параметрами прогнозируют выходные данные соответствующих входных функций18. В последних методах прогнозирования структуры появляются такие подходы и модели, как сверточные нейронные сети (CNN), остаточные нейронные сети (ResNet), рекуррентные нейронные сети (RNN), сети долгосрочной краткосрочной памяти (LSTM), преобразователи и многозадачные обучающиеся устройства15,16. ,19,20,21,22. Hanson et al.16 использовали, среди прочего, сверхглубокие сети ResNet в модели SPOT-1D, которые были способны фиксировать нелокальные взаимодействия между остатками, которые близки только по структуре белка, но не по последовательности белка16. Хеффернан и др.21 использовали двунаправленные RNN LSTM и показали, что этот метод полезен для фиксации дальнодействующих взаимодействий, особенно для остатков с большим количеством дальнодействующих контактов. Недавно мы сравнили использование различных архитектур нейронных сетей для прогнозирования белковых интерфейсов23. Более того, трансформеры успешно используются в языке белков24,25. В преобразователях информация, полученная из общих данных домена, таких как белковые последовательности, переносится в данные, специфичные для домена, такие как предсказание вторичной структуры. Другая стратегия передачи информации – это многозадачное обучение.