close

Вход

Забыли?

вход по аккаунту

?

Реферат: Дмитриева И. В.

код для вставкиСкачать
БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Выпускная работа по
основам информационных технологий
Магистрантки
биологического факультета
кафедры микробиологии
Дмитриевой Ирины Владимировны
Руководитель:
ст. преподаватель Шешко Сергей Михайлович
Минск 2010
1
ОГЛАВЛЕНИЕ
Оглавление
.........................................................................................................
2
Реферат по ИТ в предметной области
.............................................................
3
Интернет-ресурсы в предметной области
....................................................
24
Действующий личный сайт в WWW
.............................................................
25
Граф (круг) научных интересов
.....................................................................
26
Список литературы к выпускной работе
.......................................................
29
Приложение
.....................................................................................................
30
2
РЕФЕРАТ ПО ИТ В ПРЕДМЕТНОЙ ОБЛАСТИ
«Использование информационных технологий в области
биоинформатики
»
ОГЛАВЛЕНИЕ
Введение …………………………………………………………………………… 4
Обзор литературы …………………………………………………………………. 5
1.
Задачи биоинформатики ……………………………………………………….. 5
2. Типы баз данных
в биологии…………………………………………………… 9
3. Теоретические основы построения 3
d
-структуры белков…………………... 11
4. Обсуждение результатов………………………………………………………. 17
Заключение………………………………………………………………………... 18
Предметный указатель…………………………………………………………… 19
Список литературы к реферату………………………………………………….. 20
3
ВВЕДЕНИЕ
Биоинформатика
как наука появилась на стыке молекулярной биологии,
генетики, математики и компьютерных технологий. Ее основная задача -
разработка вычислительных алгоритмов для анализа и систематизации данных
о структуре и функциях биологических молекул, прежде всего нуклеиновых
кислот и белков. Объем генетической информации, накапливаемой в банках
данных, начал увеличиваться с возрастающей скоростью после того, как были
разработаны быстрые методы секвенирования (расшифровки нуклеотидных
последовательностей ДНК). Парадоксальность ситуации, складывающейся сейчас в геномике и
протеомике, состоит в том, что объем информации, которым располагают
исследователи, намного больше того, что можно осмыслить, проанализировать
и использовать в экспериментальной работе. Поэтому развитие новых
математических методов, вычислительной техники, программного обеспечения,
совершенствование способов описания и хранения геномной информации
становятся чрезвычайно актуальными. Биоинформатические методы позволяют
не просто обрабатывать огромный массив данных, но и выявлять
закономерности, которые не всегда можно заметить при обычном
эксперименте, предсказывать функции генов и зашифрованных в них белков,
строить модели взаимодействия генов в клетке, конструировать лекарства.
Целью
данной работы является описание наиболее распространенного
информационно-технологического инструментария для анализа данных при
работе с биополимерами.
Задачи
:
·
проанализировать спектр задач, которые решаются с помощью средств
информационных технологий в сфере биологии;
·
охарактеризовать средства информационных технологий, наиболее
часто используемые для анализа данных в области исследования
биополимеров.
4
ОБЗОР ЛИТЕРАТУРЫ
1.
ЗАДАЧИ БИОИНФОРМАТИКИ
По сравнению с периодом времени 30–40 летней давности, когда знание
об устройстве биологических молекул было ещё крайне ограниченным, и
определение аминокислотной последовательности инсулина или
пространственного строения миоглобина было настоящим научным прорывом,
сейчас поток биологической информации нарастает год от года
стремительными темпами. Завершение геномных проектов, следующих один за
другим, фактически избавило исследователей от рутины по «классическому»
секвенированию белковых молекул — последовательности всех белков
конвертируются из прочтённых геномов множества организмов в
аннотированные базы данных
, доступные через интернет. Так, число
последовательностей в базе Swiss-Prot (версия 55.1 от 18 марта 2008 года),
курируемой и аннотируемой специалистами вручную, составляет ≈360 000, а
число записей в базе TrEMBL (версия 38.1), аннотированных автоматически по
доступной геномной информации, приближается к 5.5 миллионам.
Получить такое фантастическое число последовательностей стало
возможным благодаря современным высокопроизводительным технологиям
секвенирования геномов, делающим задачу прочтения всей (ну или почти всей)
ДНК нового вида (или даже отдельной особи) лишь вопросом времени.
Обработка такого огромного объема данных требует использования
компьютерных технологий.
Биоинформатика
занимается системным анализом нуклеотидных
последовательностей ДНК и РНК, а также аминокислотных
последовательностей белков, т.е. сравнительной геномикой и протеомикой.
Основу биоинформатики составляют сравнения. Если у нас есть, например,
аминокислотная последовательность, о которой у нас есть экспериментальные
данные, и известны ее функции, и другая, похожая на нее последовательность,
мы можем предположить, что эти последовательности выполняют сходные
функции.
5
СРЕДСТВА ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ПРИМЕНЯЮТСЯ
ПРИ РЕШЕНИИ СЛЕДУЮЩИХ ЗАДАЧ:
1. АВТОМАТИЧЕСКИЙ ПОИСК ГЕНОВ И РЕГУЛЯТОРНЫХ
ПОСЛЕДОВАТЕЛЬНОСТЕЙ В ГЕНОМЕ И РАЗРАБОТКА
АЛГОРИТМОВ ВЫЯВЛЕНИЯ КОДИРУЮЩИХ БЕЛКИ
УЧАСТКОВ ГЕНОМА. НЕ ВСЕ НУКЛЕОТИДЫ В ГЕНОМЕ
ИСПОЛЬЗУЮТСЯ ДЛЯ ЗАДАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
БЕЛКОВ. НАПРИМЕР, В ГЕНОМАХ ВЫСШИХ ОРГАНИЗМОВ
БОЛЬШИЕ СЕГМЕНТЫ ДНК ЯВНО НЕ КОДИРУЮТ БЕЛКИ, И ИХ
ФУНКЦИОНАЛЬНАЯ РОЛЬ НЕ ИЗВЕСТНА. ACT
(
Artemis
Comparison
Tool
) – программа для проведения анализа генома.
Sequin -
депонирование последовательностей в GenBank, EMBL, DDBJ;
2.
выявление консервативных участков молекул НК (сайленсеры,
энхансеры и т.п.)
, поиск сигналов в ДНК, то есть тех участков ДНК, которые
отвечают за регуляцию - сайты связывания регуляторных белков, элементы
вторичной структуры мРНК, которая транскрибируется с этого гена, выявление
доменных структур белков. DnaSP – программа для анализа полиморфизма
последовательностей ДНК;
3. сопоставление у разных видов организмов нуклеотидных
последовательностей отдельных участков ДНК и аминокислотных
последовательностей функционально похожих белков для выявления общих
структурных фрагментов. Последующая экспериментальная проверка этих
"компьютерных предсказаний" часто позволяет ответить на вопрос о
функциональной важности тех или иных участков биологических
макромолекул. ClustalW/ClustalX,
Muscle, T-Coffee - множественное сравнение
нуклеотидных и аминокислотных последовательностей. Muscle - более быстрая
и точная по сравнению с ClustalW. T-Coffee - более чувствительное, чем в
ClustalW/ClustalX. BLAST – программа для поиска родственных
последовательностей в базе данных нуклеотидных и аминокислотных
последовательностей;
6
4. связь геномных и протеомных проектов, например, помощь в
использовании последовательности ДНК для идентификации белков;
JalView -
редактор множественного выравнивания нуклеотидных и аминокислотных
последовательностей;
5. предсказание функции белка на основании знания его первичной
структуры и предсказанной трехмерной структуры. Данная проблема является
одной из ключевых в современной молекулярной биологии. До настоящего
момента не создано точных методов предсказания трехмерной структуры белка
по его аминокислотной последовательности. Однако, поскольку в банках
данных существует экспериментально полученная информация о трехмерной
структуре сотен белков, то во многих случаях можно на ее основе
предсказывать пространственную структуру неизвестного белка с достаточной
точностью. Следующим шагом в системных исследованиях геномов должнен
стать способ предсказания функции белка на основании знания его первичной
(аминокислотной) структуры и предсказанной трехмерной структуры.
инструментарий для решения этой задачи — рентгеноструктурный анализ и
спектроскопия ядерного магнитного резонанса (ЯМР) — ещё не достиг той
степени зрелости, чтобы можно было получить структуру любого
интересующего исследователей белка с ограниченными временными и
материальными затратами. Сложность заключается в получении нужных
количеств белка, подготовке препарата, пригодного для изучения дифракции
рентгеновских лучей или ядерного магнитного резонанса в меченном
изотопами образце, и в анализе данных. Каждый этап этой задачи часто требует
уникального подхода и по этой причине не может быть полностью
автоматизирован. Особенно сложно охарактеризовать структуру белков,
образующих сложные молекулярные комплексы, и интегральные белки
биологических мембран (составляющих до трети от общего числа белков в
большинстве организмов). Поэтому, даже с учётом того, что расшифровкой
структур белков занимаются не только научные коллективы по собственной
инициативе, но и международный консорциум PSI (Protein Structure Initiative),
7
задачей которого является максимально полная и широкая структурная
характеризация всего белкового разнообразия в живом мире, число белков с
известной структурой сравнительно невелико. По состоянию на 25 марта 2008
года, число структур в Брукхэйвенском банке белковых структур (PDB)
немногим меньше 50 000, но если из этого множества исключить повторные
эксперименты на одних и тех же белкáх в различных условиях, а также
структуры искусственно модифицированных и близкородственных белков, это
число сократится до менее чем 10 000, составляя ≈1–2% от общего числа
практически важных белков. Выход из сложившейся ситуации могут дать методики теоретического
предсказания пространственной структуры, решающим преимуществом
которых является сравнительно высокая скорость и низкая трудоёмкость
получения моделей строения белков. Оборотной стороной этого преимущества
оказывается «качество» моделей — точность предсказания, которая не всегда
является достаточной для практически важных задач (например, изучения
взаимодействия рецептора с лигандами). Однако, как уже было сказано, в
условиях ограниченной доступности структурных данных по интересующему
исследователей объекту, молекулярная модель оказывается разумной заменой;
6. филогенетический анализ, выявление родства видов и родов на основе
гомологии
ДНК и белковых структур. PHYLIP, Phylo_win и Seaview -
филогенетический анализ. Программы имеют графический интерфейс. FigTree -
редактор филогенетических деревьев. Arlequin, Genepop, Populations и Genetix -
популяционно-генетический анализ. MacClade - коммерческая программа для
интерактивного эволюционного анализа данных. MEGA - молекулярно-
эволюционный генетический анализ. PAUP - филогенетический анализ с
использованием метода парсимонии (и других методов). PopGene - анализ
генетического разнообразия популяций. Существуют программы, предназначенные для работы со всеми группами
данных. Например, BioNumerics - коммерческий универсальный пакет
программ для биоинформатики
.
8
2. ТИПЫ БАЗ ДАННЫХ
В БИОЛОГИИ
СУЩЕСТВУЕТ НЕСКОЛЬКО ТИПОВ БАЗ ДАННЫХ
В БИОЛОГИИ.
ПЕРВЫЙ ТИП – АРХИВНЫЕ БАЗЫ ДАННЫХ
, ЭТО БОЛЬШАЯ
СВАЛКА, КУДА ЛЮБОЙ МОЖЕТ ПОМЕСТИТЬ ВСЕ, ЧТО
ЗАХОЧЕТ. К ТАКИМ БАЗАМ ОТНОСЯТСЯ:
GENEBANK
& EMBL
– ЗДЕСЬ ХРАНЯТСЯ ПЕРВИЧНЫЕ
ПОСЛЕДОВАТЕЛЬНОСТИ. PDB
– ПРОСТРАНСТВЕННЫЕ
СТРУКТУРЫ БЕЛКОВ И МНОГОЕ ДРУГОЕ.
ВТОРОЙ ТИП – КУРИРУЕМЫЕ БАЗЫ ДАННЫХ
, ЗА ДОСТОВЕРНОСТЬ
КОТОРЫХ ОТВЕЧАЕТ ОРГАНИЗАЦИЯ, СОЗДАВШАЯ БАЗУ
ДАННЫХ. ТУДА ИНФОРМАЦИЮ НИКТО НЕ ПРИСЫЛАЕТ, ЕЕ
ИЗ АРХИВНЫХ БАЗ ДАННЫХ ОТБИРАЮТ ЭКСПЕРТЫ,
ПРОВЕРЯЯ ДОСТОВЕРНОСТЬ ИНФОРМАЦИИ – ЧТО ЗАПИСАНО
В ЭТИХ ПОСЛЕДОВАТЕЛЬНОСТЯХ, КАКИЕ ЕСТЬ
ЭКПЕРИМЕНТАЛЬНЫЕ ОСНОВАНИЯ ДЛЯ ТОГО, ЧТОБЫ
СЧИТАТЬ, ЧТО ЭТИ ПОСЛЕДОВАТЕЛЬНОСТИ ВЫПОЛНЯЮТ
ТУ ИЛИ ИНУЮ ФУНКЦИЮ. К БАЗАМ ДАННЫХ ТАКОГО ТИПА
ОТНОСЯТСЯ: SWISS
-
PROT
– НАИБОЛЕЕ КАЧЕСТВЕННАЯ БАЗА ДАННЫХ
,
СОДЕРЖАЩАЯ АМИНОКИСЛОТНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ
БЕЛКОВ. KEGG
– ИНФОРМАЦИЯ О КЛЕТОЧНОМ
МЕТАБОЛИЗМЕ. FLYBASE
– ИНФОРМАЦИЯ О DROSOPHILA
.
COG
– ИНФОРМАЦИЯ ОБ ОРТОЛОГИЧНЫХ ГЕНАХ. ТРЕТИЙ ТИП – ПРОИЗВОДНЫЕ БАЗЫ ДАННЫХ
. ТАКИЕ БАЗЫ
ПОЛУЧАЮТСЯ В РЕЗУЛЬТАТЕ ОБРАБОТКИ ДАННЫХ ИЗ
АРХИВНЫХ И КУРИРУЕМЫХ БАЗ ДАННЫХ. СЮДА ВХОДИТ:
9
SCOP
– БАЗА ДАННЫХ СТРУКТУРНОЙ КЛАССИФИКАЦИИ БЕЛКОВ
(ОПИСЫВАЕТСЯ СТРУКТУРА БЕЛКОВ). PFAM
– БАЗА ДАННЫХ
ПО СЕМЕЙСТВАМ БЕЛКОВ. GO
(
GENE
ONTOLOGY
) –
КЛАССИФИКАЦИЯ ГЕНОВ (ПОПЫТКА СОЗДАНИЯ НАБОРА
ТЕРМИНОВ, УПОРЯДОЧИВАНИЯ ТЕРМИНОЛОГИИ, ЧТОБЫ
ОДИН ГЕН НЕ НАЗЫВАЛСЯ ПО РАЗНОМУ, И ЧТОБЫ РАЗНЫМ
ГЕНАМ НЕ ДАВАЛИ ОДИНАКОВЫЕ НАЗВАНИЯ). PRODOM
–
БЕЛКОВЫЕ ДОМЕНЫ. ASMAMDB
– АЛЬТЕРНАТИВНЫЙ
СПЛАЙСИНГ У МЛЕКОПИТАЮЩИХ
ЧЕТВЕРТАЯ ГРУППА - ИНТЕГРИРОВАННЫЕ БАЗЫ ДАННЫХ
, В
КОТОРЫХ БЕССИСТЕМНО НАХОДИТСЯ ВСЯ ИНФОРМАЦИЯ
(КУРИРУЕМАЯ И НЕ КУРИРУЕМАЯ), И ВВЕДЯ ИМЯ ГЕНА,
МОЖНО НАЙТИ ВСЮ СВЯЗАННУЮ С НИМ ИНФОРМАЦИЮ – В
КАКИХ ОРГАНИЗМАХ ВСТРЕЧАЕТСЯ, В КАКОМ МЕСТЕ
ГЕНОМА ЛОКАЛИЗОВАН, КАКИЕ ФУНКЦИИ ВЫПОЛНЯЕТ И
Т.Д. В ТАБЛИЦЕ 1 ПРИВЕДЕНЫ ПРИМЕРЫ ТАКИХ БАЗ
ДАННЫХ.
Таблица 1.
Некоторые банки данных (БД) по биоинформатике
Наименование БД
Краткое описание
PIR
Аннотированная БД по аминокислотным
последовательностям белков, организованным в
соответствии с гомологией и таксономией
OWL
Невырожденная комплексная БД по структурам
белков из SwissProt, PIR (1-3), GenBank и NRL-3D
NDB
БД по нуклеиновым кислотам, включает
структуры ДНК и РНК вместе с их трехмерными
изображениями
PROSITE
БД паттернов функционально значимых участков
белков
ProDom
БД по доменам белков
ProteinMotionsDatabase
БД по динамике белков, включающая
многоуровневую классификацию движения петель,
доменов и субъединиц
10
PROMISE
БД по простетическим группам и ионам металла
в активных центрах белков
ECOCYC
все о Е. coli
: гены, белки, метаболизм
OMIM
Каталог генов человека и генетически
обусловленных заболеваний
LIGAND
БД по ферментативным реакциям
dbCFC
БД по кодирующим ДНК цитокинов
ReLiBase
БД по анализу лиганд-рецепторных комплексов в
PDB
11
3. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПОСТРОЕНИЯ 3
D
-СТРУКТУРЫ БЕЛКОВ
Наиболее сложная задача в области биоинформатики
– это предсказание
третичной структуры белков. Фолдинг — сворачивание белков (и других
биомакромолекул) из развёрнутой конформации в «нативную» форму —
физико-химический процесс, в результате которого белки в своей естественной
«среде обитания» (растворе, цитоплазме или мембране) приобретают
характерные только для них пространственную укладку и функции. Фолдинг
причисляют к списку крупнейших неразрешённых научных проблем
современности — поскольку процесс этот далёк от окончательного понимания.
Теоретические подходы, служащие цели предсказать результат фолдинга,
делятся на две большие группы: “ab initio” (или “de novo
”) фолдинг —
методики, не использующие в явном виде данных о структуре других белков,
— и сопоставительное моделирование (или моделирование на основании
гомологии
). Далее обе эти группы будут рассмотрены подробнее с бóльшим
акцентом на последнюю как учитывающую феномен белковой эволюции.
Фолдинг «из первых принципов»
“
de
novo
” фолдинг(лат. — заново, с начала) - термин, часто применяемый
для обозначения методов компьютерного предсказания структуры белка без
использования структурных данных о других белках.
Наиболее «физически корректные» подходы из этой группы заключаются
в основном в расчётах молекулярной динамики для моделирования процесса и
результата фолдинга, однако эти методы из-за их огромной вычислительной
сложности и неточности функций потенциальной энергии достигают успеха
лишь для некоторых очень небольших белков. В остальных же случаях — тоже,
впрочем, относящихся к маленьким белкам (не более 150 аминокислотных
остатков), — прибегают к дополнительным приближениям с целью уменьшить
вычислительную сложность расчёта.
Для увеличения вычислительной эффективности, в de novo
подходах
часто используются упрощённые модели представления белка — отдельные
аминокислотные остатки, присутствующие в модели, представлены не так
12
подробно, как в «полноатомных» подходах: вся боковая цепь моделируется
лишь одним-двумя центрами («псевдоатомами»). Так, например, боковая цепь
триптофана содержит 16 атомов, а в упрощённом виде их может быть всего
два-три (и только один — для менее объемных остатков).
De novo фолдинг проводится в специальном силовом поле (также
упрощённом по сравнению, например, с используемыми в МД), оценивая
огромное количество вариантов укладки сворачиваемой молекулы по значению
потенциальной энергии. Идентификация конформации, значительно (с
«зазором») более «низкой» по потенциальной энергии, чем остальные, может
служить признаком конца поиска — аналогично тому, как нативная
конформация с некоторым отрывом отстоит от несвёрнутых промежуточных
состояний.
Программа Rosetta генерирует ансамбль моделей, получающихся после
«сборки» структурно-консервативных фрагментов молекулы в
специализированном силовом поле. Короткие (4–10 аминокислотных остатков)
фрагменты последовательности моделируемого белка выступают
«зародышами» структуры будущей модели (причём в разных моделях они
различаются и «перекрываются»), а конформацию этим фрагментам
«назначают», используя конформации гомологичных фрагментов из белков с
уже известной структурой. (В этом смысле, “de novo
” не является
моделированием «заново» в полном смысле слова, но «заимствование»
локальных структурных фрагментов такой небольшой длины в данном случае
не считается использованием структуры белков-гомологов целиком.)
Чтобы как-то приблизиться к природному механизму сворачивания,
исследователи пытаются выделить в последовательности моделируемого белка
структурно консервативные фрагменты (аналогичные тем, что в природе
сворачиваются первыми и в дальнейшем уже остаются неизменными) и как бы
«собирают мозаику» из этих фрагментов. Эта процедура, тоже чрезвычайно
ресурсоёмкая (всё равно требуется перебрать астрономическое число
13
вариантов), позволяет существенно сократить время расчётов, и для небольших
белков уже получены обнадёживающие результаты.
Одним из научных коллективов, активно занимающихся предсказанием
структуры белков de novo
, является вашингтонская лаборатория Дэвида
Бэйкера (David Baker), также являющегося профессором Медицинского
института имени Ховарда Хьюза. Разрабатываемая ими программа Rosetta уже
неоднократно показывала себя с хорошей стороны в предсказании структуры
белков небольшой длины — ~100–150 аминокислотных остатков, а также в
дизайне ферментов с новыми функциями.
Похожий подход используется в программе TASSER, где короткие
структурные фрагменты «собираются» в специализированном силовом поле, а
результат (модель, предположительно близкая к нативной) выбирается из
ансамбля предсказаний с помощью идентификации наиболее плотного
структурного кластера — являющегося, по мнению исследователей, «гнездом»
физически реалистичных моделей.
Упомянутые методы очень требовательны к вычислительным ресурсам —
предсказание структуры белка длиной 112 остатков с помощью метода Rosetta
потребовало использования суперкомпьютера и распределённой сети
Rosetta@Home из ≈70 000 персональных компьютеров. (Конечно, все эти
мощности пошли не только на предсказание одной структуры — в
исследование был включен не один белок.) Эта ресурсоёмкость лишний раз
подчёркивает, что понимание механизмов фолдинга находится не на высоте:
способ направленно двигаться в сторону нативной структуры, не перебирая
множества нереалистичных вариантов, пока не найден. Да и функции оценки
потенциальной энергии часто дают промашки: ведь на одно удачное
предсказание, становящееся поводом к публикации в одном из ведущих
журналов, приходится множество неудачных попыток. Для таких предсказаний
находится своё применение: упомянутые алгоритмы могут не только
предсказывать структуру «с нуля», но и оптимизировать модель, если в
качестве отправной точки задать экспериментальную структуру, требующую
14
уточнения — например, ЯМР-модель или данные из криоэлектронной
микроскопии. Кроме того, предсказание структуры всех белков подряд из
какого-нибудь организма может помочь идентифицировать белки с ещё
неизвестным типом укладки — чтобы экспериментаторы могли
сконцентрироваться именно на них и «расшифровать» строение ещё одного
структурного семейства.
Сопоставительное моделирование (моделирование по гомологии
)
Предсказание структуры белков, использующее эти близкородственность
белков, называется сопоставительным моделированием, или моделированием
на основании гомологии
.
Эмпирически установлено, что если последовательности двух белков
идентичны друг другу более чем на 30%, то белки почти наверняка являются
«родственниками» и степень эволюционной дивергенции ещё не столь велика,
чтобы их структуры утратили общность. Эти наблюдения и являются основой
методики предсказания пространственной структуры, называемой
моделированием на основании гомологии
.
На настоящий момент моделирование по гомологии
позволяет установить
структуру более половины белков, чьё строение ещё неизвестно. Если же
выбирать мишени для экспериментального определения структуры таким
образом, чтобы в результате для каждого белка был получен хотя бы один
структурный гомолог (с идентичностью последовательностей >30%), то
окажется, что достаточно получить всего 16 000 структур, а «степень
покрытия» при этом составит >90%, включая и мембранные белки.
Моделирование по гомологии в этом случае поможет установить структуры
бóльшей части оставшихся белков.
Процесс моделирования по гомологии
включает несколько шагов,
главными из которых являются поиск структурного шаблона и построение
аминокислотного выравнивания. Решающим фактором, определяющим
качество получаемых моделей, является степень гомологии (или идентичности)
последовательностей моделируемого белка и шаблона. Высокая идентичность
15
обозначает, что эволюционное расхождение обоих белков от общего «предка»
произошло не настолько давно, чтобы эти белки утратили структурную
общность. Идентифицируется структурный шаблон — белок с известной
пространственной структурой, гомологичный моделируемому (идентичность
последовательностей >30%). Поиск производится с помощью серверов FASTA
или PSI-BLAST (или их аналогов) в базе структур белков PDB (едином
депозитарии структурных данных для биомакромолекул);
Далее производится построение выравнивания аминокислотных
последовательностей шаблон-модель. Парное выравнивание служит
«инструкцией» программам, осуществляющим моделирование. Множественное
выравнивание может быть полезно для выявления консервативных остатков во
всём семействе (показаны звёздочкой) или отдельных подсемействах белков
(три верхних последовательности — рецепторы мелатонина). Множественное
выравнивание и профили последовательностей позволяют идентифицировать
более слабые гомологии
, чем «обыкновенное» парное выравнивание.
Выравнивание проводят с помощью сервера CLUSTALW (или его аналогов);
Моделирование проводят с помощью программы Modeller (и
аналогичных ей) или сервера Swiss-Model (и ему подобных). В онлайн-базах
ModBase и Swiss-Model Repository содержатся автоматически построенные
модели для всех белков из базы Swiss-Prot, для которых удаётся найти
структурный шаблон;
Самый сложный этап моделирования по гомологии
— оптимизировать
модель с учётом всей доступной биологической информации по
моделируемому белку. Вообще, моделирование структуры по гомологии с
белком, выполняющим отличную функцию, не способно автоматически дать
модель, пригодную для практически важных задач. Обязательно требуется
аккуратная оптимизация, превращающая «заготовку» (которой, по сути,
является модель «нулевого приближения») в рабочий инструмент, — задача,
зависящая скорее от интуиции и опыта исследователя, чем от конкретных
компьютерных методик.
16
Область применения предсказанных структур белков довольно
разнообразна, и они оказываются полезными на различных этапах процесса
разработки фармацевтических препаратов.
В некоторых случаях основополагающая концепция метода
моделирования по гомологии
— «близкие последовательности упаковываются
в близкие структуры» — нарушается. Белки, чьи последовательности
практически идентичны и содержат лишь несколько замен, иногда могут
принимать различные конформации. Некоторые белки при ди- или
олигомеризации обмениваются доменами, в результате чего структура
мономеров в составе олигомера и отдельно взятого мономера совершенно не
похожи. За этими явлениями стоят очень тонкие эффекты, сопровождающие
сворачивание белков, приводящие к тому, что небольшие замены в
последовательности или молекулярном окружении стабилизируют различные
конформации белка. Увы, прогнозирование таких событий пока что
совершенно неподвластно ни сопоставительному моделированию, ни другим
теоретическим методам предсказания пространственной структуры.
Вообще, как показывает анализ множества предсказаний структуры
«вслепую», в подавляющем большинстве случаев структура моделей,
созданных по гомологии
, оказывается не ближе к нативной, чем шаблон, на
котором она базировалась — если сравнивать укладку белковых «остовов» в
пространстве. 17
4. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
Итак, использование компьютерных средств для анализа данных
геномики и протеомики вошло во всеобщую практику. Для решения каждой
конкретной задачи в распоряжении исследователя находится масса программ,
работа которых основана на расчетах вероятностей (математические методы на
базе закономерностей поведения биологических систем) и сравнительном
анализе большого объема данных.
На основании информации, представленной в данной работе, можно
сделать следующие выводы:
·
использование новых подходов в биологии значительно облегчает,
ускоряет и удешевляет процесс анализа данных, полученных при
работе с биополимерами;
·
в настоящее время существует большое количество инструментов для
решения самых разнообразных задач, которые возникают при работе с
биополимерами;
·
использование средств информационных технологий в качестве
единственного источника информации при определении
пространственной структуры белковых соединений (как например в
области фармакологии) на данный момент невозможно из-за
ненадежности метода;
·
область биоинформатики
является новым перспективным
направлением, которому предстоит дальнейшее развитие и
усовершенствование.
18
ЗАКЛЮЧЕНИЕ
Биология и биоинформатика
являются не только способами познания
мира, но имеют и прикладное значение, прежде всего в медицине и
биотехнологии. Биоинформатика играет существенную роль в поиске новых
лекарственных препаратов и мишеней для них, а также в отбраковке
неперспективных лекарств.
Важность этого направления науки можно показать и косвенно.
Достаточно сказать, что в мире есть несколько крупных научных
биоинформатических центров, есть коммерческие компании, предоставляющие
биоинформатические услуги. Любая крупная или средняя фармацевтическая
или биотехнологическая компания имеет отдел биоинформатики
. Сейчас
многие университеты готовят специалистов в этой области. Сложнейшей на сегодняшний день задачей биоинформатики
является
построение 3
D
-структуры
белков. Методы предсказания трехмерной
структуры белка (вторичной и третичной структуры) по его
аминокислотной последовательности все еще крайне неточны, тем не
менее благодаря тому, что в банках данных уже есть информация о
трехмерной структуре сотен белков, можно на ее основе, используя
сведения о нуклеотидной и аминокислотной последовательностях
неизвестного белка, предсказывать во многих случаях и трехмерную
структуру с достаточной точностью. Разумеется, работая с теоретически
предсказанными моделями белков, надо критически относиться к
полученным результатам и быть готовым к тому, что полученные
результаты необходимо проверять с помощью независимых методов —
что, в прочем, касается большинства научных областей, работа в которых
ещё не превратилась в чистую технологию.
19
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
20
3D-структура
..................................
19
База данных
..................
3, 5, 9, 10, 24
Биоинформатика
3, 4, 5, 8, 10, 12, 18,
19
Гомология биополимеров
..
8, 12, 15,
16, 17
Фолдинг de novo
................
12, 13, 14
21
22
СПИСОК ЛИТЕРАТУРЫ К РЕФЕРАТУ
1.
Chugunov A.O., Chavatte P., Farce A., Efremov R.G. (2006). Differences in
binding sites of two melatonin receptors help to explain their selectivity to some
melatonin analogs: a molecular modeling study. J. Biomol. Struct. & Dynamics
24, 91–108; 2.
Dill
K.A., Ozkan S.B., Weikl T.R., Chodera J.D., Voelz V.A. (2007). The protein
folding problem: when will it be solved? Curr. Opin. Struct. Biol. 17, 342–346; 3.
Ginalski K. (2006). Comparative modeling for protein structure prediction. Curr.
Opin. Struct. Biol. 16, 172–177; 4.
Hillisch A., Pineda L.F., Hilgenfeld R. (2004). Utility of homology models in the
drug discovery process. Drug Discov. Today 15, 659–669; 5.
Lesk A.M., Chothia C. (1986). The response of protein structures to amino-acid
sequence changes. Philos. Trans. R. Soc. Lond. Boil. Sci. 317, 345–356; 6.
Levinthal C. (1968). Are there pathways for protein folding. J. Chim. Phys. 65,
4
4–45; 7.
Vitkup D., Melamud E., Moult J., Sander C. (2001). Completeness in structural
genomics. Nat. Struct. Biol. 8, 559–566; 8.
Xu Y., Purkayastha P., Gai F. (2006). Nanosecond folding dynamics of a three-
stranded beta-sheet. J. Am. Chem. Soc. 128, 15836–15842;
9.
http://bioinformatics.ru/
23
ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ
http://www.google.com
Всемирно известная поисковая система Google. Позволяет производить
простой поиск по ключевым словам, возможен вариант расширенного поиска
по группам (среди книг, музыкальных файлов или видеофайлов, новостей и
т.д.), особым признакам (определение, тип файла) и т.д. Поиск информации в
сети Интернет обычно начинается с этого сайта.
http://www.vak.org.by
Сайт Высшей аттестационной комиссии Республики Беларусь. Тут
размещены материалы, касающиеся подготовки научных кадров, присуждения
ученых степеней и званий, краткие паспорта специальностей и программы-
минимумы кандидатских экзаменов по специальности; в разделе «Каталог
файлов» представлены доступные для скачивания файлы нормативных
документов с приложениями и шаблоны регистрационных документов.
Организован поиск по сайту и в сети Интернет.
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
PubMed
– это информационный ресурс Национального Института
Здравоохранения США, состоящий из множества разделов. Он содержит более
16 миллионов цитат из научных журналов биомедицинской и
естественнонаучной направленности, начиная с 1950-х годов. Здесь
размещаются ссылки на полные тексты статей и другие связанные ресурсы (на
страницы Национальной Библиотеки медицины США; на страницу Medline
–
базу материалов о более чем 700 заболеваниях и состояниях, о лекарственных
средствах, на этом портале есть также медицинская энциклопедия и
медицинский словарь и много другой полезной информации; на базы данных
по токсикологии и токсическим веществам и др.). Поиск в базе данных
журналов можно осуществлять по предмету или по названию журнала, по
сокращенному названию, аббревиатуре ISO
и другим параметрам. 24
ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ В WWW
www
.
idim
9.
narod
.
ru
25
ГРАФ (КРУГ) НАУЧНЫХ ИНТЕРЕСОВ
Магистрантки Дмитриевой И.В. биологический факультет
Специальность «биология (микробиология)»
Смежные специальности
Основная специальность
03.00.04 - биохимия
1.
Химический состав, строение и свойства веществ живой природы,
вопросы анализа, исследования свойств, выделение и способы
использования классов и групп соединений: б
елки, ферменты,
нуклеиновые кислоты
, у
глеводы и полисахариды, витамина и другие
низкомолекулярные биорегуляторы, липиды, г
ормоны, аминокислоты
и органические кислоты, пигменты, в
ещества фенольной природы
.
2.
Взаимопревращение веществ в живом объекте.
3.
Термодинамика и кинетика биохимических процессов.
4.
Биохимия фотосинтеза и других светозависимых процессов.
5.
Исследование молекулярных основ функционирования клетки и ее
органелл.
6.
Строение биологических мембран, их свойств и функции, мембранный
транспорт.
7.
Изучение процессов биоэнергетики и АТФ-цикла, гликолиза и цикла
трикарбоновых кислот, фосфоглюконатного пути, переноса электронов
и окислительного фосфорилирования.
8.
Фиксация азота.
9.
Сократительные системы и системы движения.
10.
Биохимия процессов репликации, транскрипции и
трансляции генетической информации.
11.
Молекулярные основы происхождения жизни,
эволюционная биохимия.
12.
Разработка биохимических методов исследования.
03.00.15 – генетика
1.
Цитогенетика, клеточная и хромосомная инженерия. 2.
Геносистематика. 3.
Генетика биологических систем in vitro. 4.
Генетика метаболизма. 5.
Генетика онтогенеза, эпигенетика. 6.
Мутагенез и антимутагенез. 7.
Нехромосомная наследственность. 8.
Генетика фитоиммунитета. 9.
Популяционная и эволюционная генетика. 10.
Генетика микроорганизмов. 11.
Экологическая генетика. 12.
Медицинская генетика. 13.
Математическая генетика. 14.
Генетические основы селекции растений. 15.
Генетические основы селекции животных. 03.00.16 – экология
1.
Изучение общих закономерностей функционирования биологических
систем. 2.
Исследование в природных и лабораторных условиях взаимодействия
биологических систем разного уровня организации между собой, а
также с факторами среды. 3.
Изучение реакций организма и его систем на действия
03.00.07 – микробиология
1.
Эволюция и
филогенетическое
положение
микроорганизмов; 2.
Выделение,
культивирование и
идентификация
микроорганизмов; 3.
Морфология,
физиология, биохимия и
генетика
микроорганизмов; 4.
Исследование
микроорганизмов на
популяционном уровне; 5.
Изучение
различных форм
взаимоотношений между
микроорганизмами
(сапро
фитизим, паразитизм,
симбиоз, антагонизм и
др.); 6.
Роль микроорганизмов в
круговороте веществ; 7.
Обмен веществ
микроорганизмов;
8.
Использование
микроорганизмов и
продуктов их метаболизма
в различных областях
промышленности,
сельском хозяйстве и
охране окружающей
сре
ды.
26
неблагоприятных и экстремальных факторов. 4.
Изучение общих законов взаимодействия человека и биосферы. 5.
Изучение генетических эффектов, вызванных экологическими
воздействиями. 6.
Изучение механизмов и закономерностей сезонной и многолетней
динамики изменения функционирования организмов. 7.
Изучение воздействия природных и антропогенных факторов на
параметры жизненных циклов организма. 8.
Изучение разнообразных типов межпопуляционных отношений. 9.
Исследование видового разнообразия сообществ в разнотипных
природно-климатических регионах. 10.
Изучение структуры и закономерностей
функционирования биогеоценозов в различных природно-
климатических регионах. 11.
Разработка и создание искусственных экосистем,
управления их функционированием. 12.
Разработка теоретических основ, моделей и методов
рационального и экологически безопасного природопользования, а
также экологически обоснованных норм воздействия человека на
живую природу. 13.
Разработка методов повышения приспособительных
возможностей организма и обеспечения нормального его
функционирования в измененных условиях среды. 14.
Изучение и разработка методов оценки ущерба,
причиненного природной среде в результате превышения
нормативных выбросов, сбросов, аварий на промышленных объектах и
стихийных бедствий. 03.00.23 – биотехнология
1.
Генетические, селекционные и иммунологические исследования,
изучение новых методов молекулярного клонирования генов для целей
производства. 2.
Разработка научно-методических основ
применения стандартных
биосистем на молекулярном, клеточном, тканевом и организменных
уровнях в научных исследованиях. 3.
Разработка технологических режимов выращивания микроорганизмов-
продуцентов,
культур
клеток растений
и животных для получения
биомассы и
ее компонентов. 4.
Исследование и разработка требований к сырью, включая вопросы его
предварительной обработки. 5.
Изучение и разработка процессов и аппаратов микробного синтеза 6.
Разработка новых биотехнологических процессов на основе
микробного синтеза, биотрансформации, биодеструкции,
биоокисления. 03.00.24 – микология
1.
Проблемы происхождения, эволюции грибов, филогенетических
связей между ними, классификации и номенклатуры. 2.
Флористические исследования грибов в разных эколого-
географических районах. 3.
Изучение морфологии, цитологии и ультраструктуры грибов, их
онтогенеза, морфогенеза, жизненных циклов и систем размножения. 4.
Исследование генетических, физиолого-биохимических механизмов в
грибных организмах. 5.
Исследование структуры грибных популяций и эколого-трофических
групп грибов. 27
6.
Изучение симбиотических связей грибов с растениями (лишайники,
микориза и др.). 7.
Изучение грибов-паразитов растений. Разработка биологических основ
борьбы с ними. 8.
Исследование возможностей и путей рационального использования
грибов (микологическое ресурсоведение). 9.
Исследование вопросов сохранения, воспроизводства грибных
ресурсов. 10.
Разработка биологических основ промышленного
культивирования высших базидиальных грибов.
Презентацию, выполненную в Power Point, можно посмотреть по
следующей ссылке: http://www.
idim
9.narod.ru/
presentation
.
ppt
28
СПИСОК ЛИТЕРАТУРЫ К ВЫПУСКНОЙ РАБОТЕ
1.
Chugunov A.O., Chavatte P., Farce A., Efremov R.G. (2006). Differences in
binding sites of two melatonin receptors help to explain their selectivity to some
melatonin analogs: a molecular modeling study. J. Biomol. Struct. & Dynamics
24, 91–108; 2.
Dill
K.A., Ozkan S.B., Weikl T.R., Chodera J.D., Voelz V.A. (2007). The protein
folding problem: when will it be solved? Curr. Opin. Struct. Biol. 17, 342–346; 3.
Ginalski K. (2006). Comparative modeling for protein structure prediction. Curr.
Opin. Struct. Biol. 16, 172–177; 4.
Hillisch A., Pineda L.F., Hilgenfeld R. (2004). Utility of homology models in the
drug discovery process. Drug Discov. Today 15, 659–669; 5.
Lesk A.M., Chothia C. (1986). The response of protein structures to amino-acid
sequence changes. Philos. Trans. R. Soc. Lond. Boil. Sci. 317, 345–356; 6.
Levinthal C. (1968). Are there pathways for protein folding. J. Chim. Phys. 65,
4
4–45; 7.
Vitkup D., Melamud E., Moult J., Sander C. (2001). Completeness in structural
genomics. Nat. Struct. Biol. 8, 559–566; 8.
Xu Y., Purkayastha P., Gai F. (2006). Nanosecond folding dynamics of a three-
stranded beta-sheet. J. Am. Chem. Soc. 128, 15836–15842;
9.
http://bioinformatics.ru/
29
ПРИЛОЖЕНИЕ
1.
2. Белорусский
Белорусский
государственный
государственный
университет
университет
Методы
определения
структуры
хемокинов
Методы
Методы
определения
определения
структуры
структуры
хемокинов
хемокинов
Выполнила
: магистрантка
кафедры
микробиологии
биологического
факультета
Дмитриева
Ирина
Владимировна
Руководители
: ст
. преподаватель
Кожич
Павел
Павлович
ассистент
Шешко
Сергей
Михайлович
СРЕДСТВА
СРЕДСТВА
ИНФОРМАЦИОННЫХ
ИНФОРМАЦИОННЫХ
ТЕХНОЛОГИЙ
ТЕХНОЛОГИЙ
ПРИМЕНЯЮТСЯ
ПРИМЕНЯЮТСЯ
В
В
БИОЛОГИИ
БИОЛОГИИ
ПРИ
ПРИ
РЕШЕНИИ
РЕШЕНИИ
СЛЕДУЮЩИХ
СЛЕДУЮЩИХ
ЗАДАЧ
ЗАДАЧ
:
:
выявление
выявление
консервативных
консервативных
участков
участков
молекул
молекул
НК
НК
сопоставление
сопоставление
у
у
разных
разных
видов
видов
организмов
организмов
нуклеотидных
нуклеотидных
последовательностей
последовательностей
отдельных
отдельных
участков
участков
ДНК
ДНК
связь
связь
геномных
геномных
и
и
протеомных
протеомных
проектов
проектов
,
,
предсказание
предсказание
функции
функции
белка
белка
на
на
основании
основании
знания
знания
его
его
первичной
первичной
структуры
структуры
и
и
предсказанной
предсказанной
трехмерной
трехмерной
структуры
структуры
3. 4.
Типы
Типы
баз
баз
данных
данных
в
в
биологии
биологии
:
:
АРХИВНЫЕ
АРХИВНЫЕ
БАЗЫ
БАЗЫ
ДАННЫХ
ДАННЫХ
КУРИРУЕМЫЕ
КУРИРУЕМЫЕ
БАЗЫ
БАЗЫ
ДАННЫХ
ДАННЫХ
ПРОИЗВОДНЫЕ
ПРОИЗВОДНЫЕ
БАЗЫ
БАЗЫ
ДАННЫХ
ДАННЫХ
ИНТЕГРИРОВАННЫЕ
ИНТЕГРИРОВАННЫЕ
БАЗЫ
БАЗЫ
ДАННЫХ
ДАННЫХ
Функции
Функции
хемокинов
хемокинов
–
–
межклеточная
межклеточная
сигнализация
сигнализация
5. 6. BKT
BKT
-
-
P3
P3
Хемокины
Хемокины
IL
IL
-
-
8
8
SDF
SDF
-
-
1
1
Нативная
Нативная
структура
структура
CXCR2
CXCR2
30
7. 8. Совмещение
образа
, полученного
с
помощью
программы
TESSERA
,
и
результатов
ЯМР
официальный
сайт
разработчиков
программы
TESSERA
Этапы
Этапы
построения
построения
3
3
D
D
-
-
модели
модели
белка
белка
9. 10.
Достоверность
Достоверность
3
3
D
D
-
-
модели
модели
определяют
определяют
в
в
несколько
несколько
этапов
этапов
:
:
Взаимодействие
Взаимодействие
хемокин
хемокин
–
–
рецептор
рецептор
11. 12.
Этапы
Этапы
получения
получения
производственного
производственного
продукта
продукта
:
:
Спасибо
за
внимание
!
Спасибо
Спасибо
за
за
внимание
внимание
!
!
вернуться
к
началу
презентации
31
Автор
dostelon
Документ
Категория
Без категории
Просмотров
441
Размер файла
3 880 Кб
Теги
дмитриева, рефераты
1/--страниц
Пожаловаться на содержимое документа