Регистрация / Вход
Прислать материал

Разработка Интернет-доступного сервиса поисковой протеомной машины для идентификации белков живых организмов.

Номер контракта: 14.576.21.0073

Руководитель: Горшков Михаил Владимирович

Должность: заведующий лабораторией

Аннотация скачать
Постер скачать
Ключевые слова:
протеомика, протеом человека, биоинформатика, хромато-масс-спектрометрия, белки, пептиды

Цель проекта:
В последние два десятилетия масс-спектрометрия (МС) стала основным методом анализа белков в сложных смесях биологического происхождения. Считается, что в сочетании с хроматографическим разделением МС будет играть ключевую роль в реализации глобального проекта «Протеом Человека», одной из основных задач которого является составление полной карты белков человека. Решение этой задачи открывает возможность для качественных изменений в подходах к решению фундаментальных проблем медицины, основанных на ранней диагностике различных форм тяжелых заболеваний через качественный и количественный анализ ассоциированной экспрессии белков в клетках человеческого организма. В связи с масштабом получаемых при этом данных, неотъемлемой частью таких решений является развитие биоинформационных инструментов для высокопроизводительной автоматизированной поддержки обработки хроматомасс-спектрометрических данных, надежного поиска и идентификации белков, присутствующих в исследуемой культуре, а также качественного и количественного анализа получаемых результатов. Одним из основных таких инструментов являются так называемые протеомные поисковые машины (search engines) задачей которых является автоматизированное обнаружение белков в результатах хроматомасс-спектрометрических экспериментов. Не смотря на значительные достижения в области разработки протеомных поисковых машин и большого количества предлагаемых решений, в настоящее время не существует однозначного, универсального и стандартного подхода к их реализации. Также следует указать на тот факт, что большинство из наиболее популярных решений являются дорогостоящим коммерческим продуктом, либо привязаны через лицензирование к конкретной масс-спектрометрической системе. Основной целью реализуемого проекта является разработка прототипа протеомной поисковой машины, реализующей все стадии обработки экспериментальных хроматомасс-спектрометрических данных, включая поиск спектральных идентификаций по геномным базам данных живых организмов, идентификация протеолитическихъ пептидов и белков с заданным уровнем ложно-положительных идентификаций, валидирование идентификаций, а также оценку относительных концентраций идентифицированных в пробах белков.

Основные планируемые результаты проекта:
Основным результатом проекта является создание работающей версии протеомной поисковой машины, в которой будут реализованы как новые подходы к поиску идентификаций белков в анализируемых пробах, так и комплементарные новые решения, развитые в различных биоинформационных центрах, но не реализованные в едином интегрированном виде ни в одной из существующих поисковых машин. Разработка такой системы, а также сервиса на ее основе, на национальном уровне позволит расширить возможности российских исследователей, аналитиков и диагностических центров в решении задач протеомного анализа биологических проб.

Основными характеристиками разрабатываемой протеомной поисковой машины являются:
- возможности работы с экспериментальными хроматомасс-спектрометрическими данными, представленными с стандартизированных форматах MGF и mzML;
- наличие пользовательского интерфейса для ввода параметров поиска в интерактивном режиме;
- валидирование результатов поиска с использованием комплементарных экспериментальных данных, включая хроматографические времена, зарядовые состояния пептидов, глубина протеолитического гидролиза;
- фильтрация спектральных идентификаций, пептидов и белков до задаваемого пользователем уровня ложно-положительных идентификаций;
- оценка относительного содержания идентифицированных белков с использованием безметочных методов на основе подсчета спектральных идентификаций и анализа спектров фрагментации идентифицированных пептидов;
- выдача результатов поиска в стандартизированных табличных форматах;
- эффективность поиска (количество идентифицируемых спектральных идентификаций и белков), сравнимая с коммерческими аналогами;
- кросс-платформенность программного обеспечения;
- возможность доступа пользователя к серверу хранения и обработки данных и работы с поисковой машиной через Интернет.



Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Тандемная масс-спектрометриявысокого разрешения с последующим сопоставлением экспериментальных и полученных in silico спектров фрагментации пептидов является наиболее наиболее широко используемым методом анализа биологических проб в масштабных проектах составления карт протеомов живых организмов, наиболее амбициозным из которых является проект Протеом Человека. Использование этого подхода к идентификации белков требует разработки сложных вероятностных математических алгоритмов поиска наиболее достоверных хитов при сравнении тандемных масс-спектров (теоретических и экспериментальных) с последующей идентификацией белков через поиск в соответствующих базах данных и ранжированием этих идентификаций. Эту работу выполняют протеомные поисковые машины. Не смотря на большое количество разработанных поисковых машин, каждая из них по отдельности не реализует все возможные подходы к поиску и ранжированию хитов. Согласно проведенным исследованиям наиболее популярные поисковые машины способны положительно сопоставить порядка 10-30% всех получаемых спектров и работа по совершенствованию существующих и разработке новых алгоритмов для поисковых машин является в настоящее время актуальной биоинформационной задачей современной аналитической протеомики. Основной вопрос здесь заключается в нахождении оптимального баланса между скоростью обработки данных и последующего поиска и чувствительностью такого анализа. Существующие подходы идут, как правило, по пути выбора в пользу скорости. Значительные усилия в последние годы были направлены на разработку подходов и алгоритмов проверки полученных поисковой машиной идентификаций и в настоящее время находит понимание в международном протеомном сообществе необходимости, как стандартной и обязательной практики, подтверждение (или, валидирование) идентификаций с использованием различных вероятностных схем или комплементарной к масс-спектрометрической информации. Однако, такое подтверждение осуществляется с уже отобранными поисковой машиной хитами и не решает вопрос с повышением чувствительности протеомного исследования.

Таким образом, выявление и разработка протеомной поисковой машины нового поколения для идентификации пептидов на основе всей совокупности имеющихся экспериментальных данных является серьезной и актуальной задачей в современных протеомных исследованиях. Новая поисковая машина должна не просто «дополнять» стандартные масс-спектрометрические решения, а предоставлять независимую оценку достоверности пептидных идентификаций.

Конечным результатом проекта является создание универсальной протеомной поисковой машины, в которой будут интегрированы методы обработки хромато-масс-спектрометрических спектров, включая спектры фрагментации, методы извлечения комплементарной информации о последовательностях и аминокислотном составе идентифицируемых пептидов, включая их хроматографические времена и физико-химические свойства, а также методы валидации полученных идентификаций на основе вероятностных алгоритмов. Еще одним результатом проекта является предоставление отечественным аналитикам в области протеомных исследований эффективных аналогов современных коммерческих поисковых машин зарубежных поставщиков, а также сервисов на их основе.

Назначение и область применения, эффекты от внедрения результатов проекта:
Предлагаемая к разработке протеомная поисковая машина и Интернет-доступный сервис на ее основе предназначена для определения белкового состава биообразцов и интерпретации результатов масс-спектрометрических измерений в области:

- лабораторной диагностики: количественное масс-спектрометрическое выявление белковых маркеров социально значимых заболеваний, которые могут быть использованы для ранней диагностики и мониторинга патологии, а также анализа эффективности фармакологического воздействия;

- биомедицинских исследований в области протеомики и постгеномных технологий: разработка методов глубокого панорамного (в широком диапазоне молекулярных масс и концентраций) анализа белкового состав билогических проб и количественного измерения содержания целевых белков;

- развитие методов персонализированной медицины: выявление протеомных маркеров, включая как индивидуальные белки, так и белковые «сигнатуры», заболеваний человека, а также проявлений экспрессии генов (и/или мутаций генов) на протеомном уровне.

Текущие результаты проекта:
В настоящие время участниками проекта получены все основные планируемые результаты проекта:

- разработана протеомная поисковая машина IdentiPROT, реализующая все стадии обработки хроматомасс-спектрометрических данных протеомного анализа, работы с белковыми базами данных живых организмов и поиска спектральных идентификаций;

- реализована интеграция протеомной поисковой машины с модулем валидирования спектральных идентификаций на основе комплементарных экспериментальных данных, получаемых в рамках протеомного анализа и модулем расчета относительного количественного содержания белков в анализируемых пробах;

- разработан графический пользовательский интерфейс протеомной поисковой машины;

- разработан сервер хранения и обработки экспериментальных данных;

- завершены исследовательские испытания разработанной протеомной поисковой машины на экспериментальных данных панорамного хроматомасс-спектрометрического анализа биологических проб клеточных линий человека;

- проведено сравнение эффективности разработанной протеомной поисковой машины с коммерческим аналогом.