close

Вход

Забыли?

вход по аккаунту

?

Глубокие генеративные конкурентные нейронные сети для малых органических молекулярных структур

код для вставкиСкачать
3
Общая характеристика работы
Актуальность темы. Разработка лекарственных молекул исторически основана на трех важнейших научных дисциплинах: компьютерном моделировании (виртуальный скрининг, ВС), комбинаторном органическом синтезе (КС) и
высокопроизводительном биологическом скрининге (ВБС). Применение этих
технологий привело к разработке значительного числа новых структурно разнообразных лекарственных молекул, многие из которых были выпущены на
мировой фармацевтические рынок.
При помощи различных методов виртуального скрининга, в частности, генетических алгоритмов, еще до стадии непосредственного синтеза прогнозируется ряд важных характеристик малых органических молекулярных структур (в
дальнейшем – молекулярных структур), включая наиболее вероятный механизм
действия (биологическая мишень, как правило, белок), активность, селективность, фармакокинетический профиль, токсичность, стабильность и синтетическая доступность. В результате структуры уже известных или синтетически доступных молекул профилируются по указанным свойствам, что позволяет специалистам осуществлять их рациональный отбор. Активность отобранных молекул оценивается при помощи методов ВБС в биохимических и клеточных
массивах. Структура наиболее активных соединений (молекула-хит) модифицируется с целью усиления активности, селективности, растворимости и снижения возможных побочных эффектов. Итерационно молекула-хит трансформируется в лидирующую молекулу, которая исследуется в серии доклинических испытаний.
Указанные стадии разработки требуют существенных финансовых и временных затрат и не всегда приводят к успеху. С учетом того, что химическое
пространство всех возможных органических синтетически доступных лекарственно-подобных молекул включает огромное число структур, обход и оценка
такого пространства методами ВС, включая генетические алгоритмы, являются
вычислительно трудными задачами. Существенный недостаток методов, основанных на генетических алгоритмах – ручная спецификация эвристик мутации
и скрещивания, при которой возникает риск их неправильного задания. Кроме
того, будучи экспертно-зависимыми методами, перенос генетических алгоритмов на новые задачи потребовал бы привлечения дополнительных экспертных
знаний. Также стоит отметить, что многие разрабатываемые молекулы могут
подпадать под действие существующих патентов и, тем самым, не будут удовлетворять критериям новизны.
Для устранения недостатков, связанных с использованием генетических
алгоритмов, в последнее время начали применяться глубокие нейронные сети
для генерации молекулярных соединений, что является областью дальнейших
перспективных исследований.
4
Степень разработанности темы. Применением нейронных сетей в этой
области занимались такие ученые, как, например, R. Gómez-Bombarelli1,
M. Olivecrona2, M. Popova3, A. Gupta4.
Разрабатываемые модели нейронных сетей можно разделить по типу представления молекулярных структур: строка, бинарный вектор, молекулярный
граф и трехмерная электронная карта плотности. В силу того, что работа с графами и трехмерными структурами вычислительно долгий процесс, а бинарный
вектор может соответствовать разным молекулам, наиболее эффективным
представлением молекулярных структур является строковое представление в
формате Simplified Molecular Input Line Entry System (SMILES).
При таком представлении молекулярная структура записывается как последовательность символов атомов и связей между ними, при этом строка взаимно-однозначно соответствует молекуле, которую кодирует. Однако может
возникнуть ситуация, в которой строка корректна с точки зрения синтаксиса
грамматики SMILES, но не является семантически валидной – не соответствует
какой-либо существующей в природе молекуле.
При таком молекулярном представлении задача генерации новых молекулярных структур разбивается на два этапа. На первом – происходит сбор, обработка и приведение в строковый формат тренировочных молекулярных соединений. На втором этапе осуществляется обучение какой-либо модели генеративной нейронной сети на тренировочных молекулярных структурах. Впоследствии обученную модель можно использовать, чтобы генерировать новые молекулярных структуры.
В литературе существуют различные типы генеративных нейронных сетей,
однако одними из наиболее популярных и лучших с точки зрения качества генерируемых объектов рассматриваемого класса являются генеративные конкурентные нейронные сети (generative adversarial network, GAN)5. GAN реализуют парадигму конкурентного обучения, которая основывается на игре между
двумя игроками – генератором и дискриминатором, каждый из которых является нейронной сетью. Генератор генерирует объекты, его задача состоит в том,
чтобы обмануть дискриминатор. Последний, в свою очередь, принимая объекты, решает, являются ли они реальными (из тренировочной выборки) или сгенерированными генератором. Таким образом, генератор и дискриминатор образуют минимаксную игру, в которой теоретически достигается равновесие Нэша
1
Gómez-Bombarelli R. et al. Automatic chemical design using a data-driven continuous representation of molecules // ACS central science. — 2018. — Vol. 4, no. 2. — P. 268-276.
2
Olivecrona M. et al. Molecular de-novo design through deep reinforcement learning // Journal of cheminformatics. — 2017. — Vol. 9, no. 1. — P. 48.
3
Popova M., Isayev O., Tropsha A. Deep reinforcement learning for de novo drug design // Science advances.
— 2018.
4
Gupta A. et al. Generative recurrent networks for de novo drug design // Molecular informatics. — 2018.
—Vol. 37, no. 1-2. — P. 1700111.
5
Goodfellow I. et al. Generative adversarial nets // Advances in neural information processing systems. — 2014.
— P. 2672-2680.
5
и благодаря совместному обучению, генератор начинает порождать все более и
более реалистичные объекты.
Целью работы является разработка и экспериментальная оценка набора
эффективных архитектур глубоких генеративных конкурентных нейронных сетей и алгоритмов их обучения для генерации малых органических молекулярных структур с заданными свойствами.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Разработать и реализовать архитектуры глубоких конкурентных нейронных сетей для программных систем генерации молекулярных структур с
заданными свойствами.
2. Провести вычислительные эксперименты для оценки эффективности
предложенных глубоких генеративных конкурентных нейронных сетей
для рассматриваемого класса задач.
Положения, выносимые на защиту:
1. Разработана архитектура RANC (Reinforced Adversarial Neural Computer)
глубокой конкурентной нейронной сети для программной системы генерации малых органических молекулярных структур с заданными свойствами. Показано, что она позволяет генерировать более качественные
молекулярные соединения по сравнению конкурентом – нейронной сетью
с архитектурой ORGANIC (Objective Reinforced Generative Adversarial
Network for Inverse Chemical Design).
2. Разработана архитектура ATNC (Adversarial Threshold Neural Computer)
глубокой конкурентной нейронной сети для программной системы генерации малых органических молекулярных структур с заданными свойствами на основе архитектуры RANC c добавлением специального блока,
который фильтрует недостаточно качественные молекулярные соединения уже на этапе генерации. Показано, что она позволяет генерировать
более качественные молекулярные соединения по сравнению с программными системами RANC.
3. Разработана архитектура RSAAE (Reinforced Seq2Seq Adversarial Autoencoder) глубокой конкурентной нейронной сети для программной системы
генерации малых органических молекулярных структур с заданными
свойствами на основе архитектуры RANC с добавлением специального
блока, который обеспечивает повышение процента генерации семантически валидных строк (молекул). Показано, что в экспериментах с предобучением (выполняется на больших выборках) и дальнейшим дообучением
(выполняется на небольших выборках) RSAAE эффективнее RANC и
ATNC, а в экспериментах только на небольших выборках ATNC эффективнее RANC и ATNC.
Научная новизна. Предложены архитектуры нейронных сетей для проектирования программных систем генерации малых органических молекулярных
структур с заданными свойствами. Эти архитектуры позволили генерировать
более качественные молекулярные соединения по сравнению с программной
6
системой ORGANIC (разработанной в Гарвардском университете), что, в частности, подтверждается тем, что ее авторы стали соавторами диссертанта.
Достоверность научных положений, экспериментальных результатов, выводов и практических рекомендаций, полученных в диссертации, обеспечивается корректным обоснованием постановок задач, формулировкой критериев
оценки, а также результатами вычислительных экспериментов.
Методология диссертационного исследования базируется на конкурентном обучении двух нейронных сетей (генератора и дискриминатора), реализуемом в виде поиска равновесия Нэша в минимаксной игре, а также на обучении с
подкреплением, реализуемом в виде максимизации функции награды генератора.
Методы, используемые в диссертационном исследовании, связаны с глубоким машинным обучением, теорией вероятности, математической статистикой, дискретной математикой и объектно-ориентированным программированием.
Теоретическая значимость работы состоит в разработке новых эффективных архитектур нейронных сетей для генерации молекулярных соединений,
объединяющих парадигмы конкурентного обучения и обучения с подкреплением.
Практическая значимость работы заключается в том, что предлагаемые
архитектуры глубоких генеративных конкурентных нейронных сетей позволяют порождать качественные молекулярные соединения с заданными свойствами под конкретный белок-мишень или класс мишеней.
Внедрение результатов работы. Предложенные программные системы на
основе глубоких генеративных конкурентных нейронных сетей применяются в
компании ООО «Инсилико» (Москва) для генерации новых молекулярных
структур, что подтверждается актом о внедрения. Результаты диссертации
нашли применение в Университете ИТМО при выполнении работ по теме
№ 617041 «Автоматизированный анализ пространства химических превращений для предсказательного моделирования каталитических процессов», выполняемых из средств Университета ИТМО, что подтверждается соответствующим
актом.
Апробация результатов работы. Основные результаты диссертационной
работы докладывались на следующих научных и научно-практических конференциях: XIX Международная конференция по мягким вычислениям и измерениям (SCM’16). 2016, СПбГЭТУ «ЛЭТИ», СПб; International Symposium on Innovations in Intelligent Systems and Applications (INISTA’16). 2016, Синая, Румыния; XX Международная конференция по мягким вычислениям и измерениям
(SCM’17). 2017, СПбГЭТУ «ЛЭТИ», СПб; Научная и учебно-методическая
конференция Университета ИТМО. 2017, Университет ИТМО, СПб; Научная и
учебно-методическая конференция Университета ИТМО. 2018, Университет
ИТМО, СПб; XXI Международная конференция по мягким вычислениям и изме-
7
рениям (SCM’18). 2018, СПбГЭТУ «ЛЭТИ», СПб; The 18th EPIA Conference on
Artificial Intelligence (EPIA'17). 2017, Порту, Португалия; The 27th International
Conference on Artificial Neural Networks (ICANN'18). 2018, Родос, Греция.
Личный вклад автора. Идеи, формализация, разработка и реализация архитектур, предлагаемых в работе глубоких генеративных конкурентных
нейронных сетей, а также алгоритмов их обучения принадлежат лично автору.
Проведение вычислительных экспериментов выполнены автором совместно с
Арипом Асадулаевым.
В работах, выполненных в соавторстве, Жаворонковым А.А., Шалыто
А. А., Алипером А.М. и Aspuru-Guzik A. осуществлена постановка задачи исследования, Иваненковым Я.А., Аладинским В.А., Аладинской А.В., Vanhaelen
Q. и Sanchez- Lengeling B. выполнена химическая интерпретация сгенерированных молекулярных структур.
Публикации по теме диссертации. Основные результаты по теме диссертации изложены в четырех публикациях, две из которых изданы в журналах из
списка ВАК, две – в изданиях, индексируемых в международных базах цитирования Web of Science и Scopus.
Участие в научно-исследовательских работах. Результаты диссертации
использовались при выполнении НИР «Автоматизированный анализ пространства химических превращений для предсказательного моделирования каталитических процессов» (2017-2018 гг., тема № 617041, средства Университета
ИТМО).
Структура диссертации. Диссертация изложена на 134 страницах и состоит из введения, пяти глав и заключения. Список источников содержит 176
наименований. Работа проиллюстрирована 20 рисунками и 14 таблицами.
Содержание работы
Во введении обосновывается актуальность, формулируются цель работы и
положения, выносимые на защиту, приводятся значимость, научная новизна и
общее содержание работы.
Первая глава посвящена обзору предметной области – современному
процессу разработки лекарственных молекулярных соединений, его вычислительным методам и результатам существующих исследований по генерации
малых органических молекулярных соединений. Кроме того, в главе приведены
основные понятия и определения глубокого машинного обучения, а также изложены ключевые модели, методы и алгоритмы, необходимые для описания
предлагаемых в диссертации архитектур нейронных сетей.
Сначала описывается современный процесс разработки новых лекарственных молекул (драг-дизайн) и рассматриваются его основные стадии. После этого дается обзор различных вычислительных методов в драг-дизайне, включая
генетические алгоритмы.
Далее вводятся основные определения, понятия и задачи глубокого машинного обучения. В частности, дается вероятностная постановка задачи обу-
8
чения без учителя с точки зрения принципа максимального правдоподобия
(Maximum Likelihood Estimation, MLE).
Так, рассматривается тренировочное множество из  объектов  = {& }*
&() ,
независимо выбираемых из реального, но неизвестного распределения данных
,-.- (). Задача заключается в аппроксимации ,-.- () посредством генеративной модели 2 из параметрического модельного распределения вероятности
34,56 (;  ). Так как объекты в  независимы и одинаково распределены, то:
,-.- () = ∏*
&() ,-.- (& ). Для решения задачи определяется функция правдоподобия L(,  ) = ∏*
&() 34,56 (& ;  ) и согласно принципу MLE необходимо
∗
найти параметр  при котором L(,  ) от тренировочных данных будет максимальна. Тогда, оценка максимально правдоподобия может быть получена как:
 ∗ = argmax ΕC~EFGHIH (C) log 34,56 (& ;  ) , где ̂,-.- ( ) эмпирическое распреде2
ление тренировочных данных.
Далее в главе вводятся ключевые понятия и определения обучения с подкреплением (Reinforcement Learning, RL), такие как: марковский процесс принятия решений, уравнение Беллмана. Так, RL-парадигма определяет агента, который совершает действия в среде подкрепления и получает от нее вознаграждения. Соответственно RL-задача определяется как нахождение стратегии агента,
при которой его вознаграждение будет максимальным. В качестве ее решения
приводится наиболее популярный метод обучения агентов, представленных в
виде нейронных сетей – метод градиентного поиска стратегии (policy gradient).
После этого рассматриваются основные архитектуры нейронных сетей такие, как: многослойный персептрон, автоэнкодер, сверточные и рекуррентные
нейронные сети. Кроме того, подробно описывается алгоритм обратного распространения ошибки, позволяющий посредством применения градиентного
спуска эффективно обучать нейронные сети.
Затем приводится формальное описание GAN и рассматриваются различные метрики оценки генеративных нейронных сетей и генерируемых ими объектов, такие как: Fréchet ChemNet Distance (FCD), точность (Precision) и полнота (Recall), где FCD измеряет близость двух распределений в пространстве молекул, Precision измеряет общее качество генерации, а Recall измеряет насколько хорошо по модам распределений сгенерированные молекулы покрывают
тренировочные молекулярные структуры.
После этого приводится обзор современных работ, посвященных генерации малых органических молекулярных структур на основе глубоких генеративных нейронных сетей.
В конце главы на основании проведенного обзора формулируются цель и
задачи диссертационного исследования.
Во второй главе предлагается архитектура RANC (Reinforced Adversarial
Neural Computer) глубокой конкурентной нейронной сети для программной системы генерации малых органических молекулярных структур с заданными
свойствами, приводятся ее схема, а также алгоритм обучения нейронной сети
на основе такой архитектуры. Кроме того, приводятся результаты вычисли-
9
тельных экспериментов и сравнительного анализа генерируемых RANC и ORGANIC молекулярных структур.
Так, архитектура RANC (рисунок 1), состоит из генератора 2 и дискриминатора N . Генератор порождает SMILES-строки ):Q = () , … , Q ) из набора
молекул X, где & символ из алфавита SMILES,  максимальная длина строки.
При этом генератор q является RL-агентом, который взаимодействует со средой, которой является дискриминатор N и объектная функция награды , которая задается пользователем и определяет свойства генерируемых молекул. На
каждой итерации генерации SMILES-строки, генератор q по своему состоянию
(текущая сгенерированная последовательность ):& ) осуществляет действие –
выбор следующего символа из алфавита SMILES, который необходимо добавить к уже сгенерированной последовательности ):& . Когда молекулярная последовательность достигает терминального символа или максимальной длины,
она оценивается средой. Таким образом, цель генератора q заключается в том,
чтобы одновременно обмануть дискриминатор N и максимизировать целевую
функцию вознаграждения :  (q) = ∑]^ ∈` q () |[) ∗  ([, ) ), где  функция
действие-награда, [ и ) первичное состояние и первое действие q , соответственно.
Рисунок 1 – Схема архитектуры RANC
Отличительной особенностью RANC от ORGANIC является использование
специальной глубокой рекуррентной нейронной сети с внешним блоком памяти
в качестве генератора. Данная замена позволяет RANC генерировать гораздо
более длинные и сложные последовательности ):Q . За счет этого решается проблема совершенного дискриминатора ORGANIC и генерируются более качественные молекулы. После MLE предобучения, генератор q создает отрицательные образцы для предобучения дискриминатора N :
min g`~iGHIH(`) jlogDN ()l + `~in
N
q
∇N J() = d
min g`̇~iGHIH (`̇) jlogDNẏzl + `̇~in
N
q
(`) jlog(1
− N ())lq , ℎ < 
̇
(`̇ ) jlog(1 − N y z)lq , ℎ ≥ 
,
10
где параметр  контролирует, сколько эпох дискриминатор N обучается только на валидных строках ̇ . Так как дискриминатор может различать только
полностью сгенерированные последовательности, для не полностью сгенериро•
ванных строк  раз применяется поиск по методу Монте-Карло  ~2 ():Q
;  ):
) *
• ) •
•
∑ ():Q
, ):Q ∈  ~2 ():Q
; ) ,  < 
 ( = ):.€),  = . ) = ‚* •()
,
• )
(
 ):Q ,  = 
где  является суммарным вознаграждением генератора и определяется как
сумма выхода дискриминатора N и функции награды , где вклад каждого
компонента в сумму регулируется параметром λ:
 ():Q ) =  ∙ N ():Q ) + (1 − ) ∙  ():Q ).
Наконец, параметры q генератора q можно получить, используя метод
policy gradient:
Q
1
∇2 ( ) ≃ ‰ ]I ~~Š y]I‹`^:IŒ^)z j∇2 log 2 y. ‹):.€))z ∙ y):.€),]I zl.

.()
Так как математическое ожидание  [∙] может быть аппроксимировано различными методами семплирования, то обновление параметров  можно осуществлять через стохастический градиентный спуск:  ←  + ‘ ∇2 ( ), где ‘
скорость обучения на эпохе обучения ℎ.
В конце главы приводятся вычислительные эксперименты для оценки эффективности нейронной сети на основе архитектуры RANC, включающие анализ математических метрик и проведение сравнительного анализа генерируемых молекулярных структур архитектурами RANC и ORGANIC.
На рисунке 2 показаны значения метрики FCD для нейронных сетей на основе архитектур RANC и ORGANIC, обученных на двух наборах данных Drugs
и CD (каждый из которых состоял из 15 тысяч тренировочных молекул), а также распределения длин (length) сгенерированных ими SMILES-строк.
Рисунок 2 – Значения метрики FCD и распределения длин сгенерированных
молекул нейронными сетями на основе архитектур RANC и ORGANIC
Как следует из рисунка 2, RANC превосходит ORGANIC – распределения
длин тренировочных SMILES-строк и строк, сгенерированных генератором
RANC, совпадают, в то время как генератор ORGANIC порождает строки почти
11
в два раза короче, чем в наборах CD и Drugs. Кроме того, значения FCD на тренировочных наборах у RANC почти в два раза меньше, чем у ORGANIC.
В третьей главе предлагается архитектура ATNC (Adversarial Threshold
Neural Computer) глубокой конкурентной нейронной сети для программной системы генерации малых органических молекулярных структур с заданными
свойствами на основе архитектуры RANC, приводятся ее схема, а также алгоритм обучения нейронной сети на основе архитектуры ATNC. Также приводятся результаты вычислительных экспериментов и сравнительного анализа генерируемых ATNC и ORGANIC молекулярных структур.
Так, архитектура ATNC (рисунок 3) добавляет в RANC специальный блок
AT (Adversarial Threshold), который находится между генератором 2 и дискриминатором N , и является копией последнего, которая отстает от исходного
дискриминатора N на заданное число тренировочных эпох .
Рисунок 3 – Схема архитектуры ATNC
Блок AT воплощает идею парадигмы модельно-зависимого обучения с
подкреплением (model-based RL) – добавляет в архитектуру RANC способность
симулировать окружающую среду. Такая симуляция среды подкрепления позволяет нейронной сети на основе архитектуры ATNC отсеивать или фильтровать сгенерированные генератором 2 молекулы до их реальной оценки средой.
Обучение нейронной сети с такой архитектурой происходит следующим
образом. На каждой эпохе обучения генератор 2 генерирует  (размер партии
генератора) SMILES-строк (молекулярных структур). Затем AT-блок отбирает
молекулы, которые наиболее точно соответствуют тренировочным молекулярным структурам. Если число выбранных молекул меньше  (размер партии дискриминатора), то генератор 2 снова генерирует новые  молекул. Этот процесс повторяется до тех пор, пока число выбранных AT-блоком молекул не будет равно .
12
Таким образом, на каждой итерации обучения нейронной сети AT-блок
выбирает образцы, которые максимально похожи на тренировочные молекулярные соединения, что позволяет фильтровать молекулы еще на стадии генерации, без задействования среды подкрепления. За счет того, что градиенты
при использовании policy gradients будут посчитаны только для тех действий
(молекул) генератора 2 , которые прошли AT-блок, достигается лучшее качество генерации молекулярных структур.
Далее в главе предлагается новая функция награды IDC (Internal Diversity
Clustering), разработанная для того, чтобы генерировать более разнообразные
по структуре молекулярные соединения.
В конце главы проводятся вычислительные эксперименты для оценки эффективности нейронной сети на основе архитектуры ATNC, включающие анализ математических метрик и проведение сравнительного анализа генерируемых молекулярных структур архитектурами ATNC и ORGANIC.
Экспериментальные исследования нейронной сети на основе архитектуры
ATNC проводились на наборе данных CD. В экспериментах задействовались
следующие функции награды: IDC, внутренняя схожесть (IS), фильтр лекарственной подобности молекулы (MU), наличие sp3-гибридизированных фрагментов в молекуле (SP3). Значения метрик Precision и Recall для нейронных сетей на основе архитектур ATNC и ORGANIC, обученных на всех четырех функциях награды, показаны в таблице 1.
Таблица 1 – Значения метрик Precision и Recall сгенерированных молекул
ATNC и ORGANIC по четырем функциям награды
ATNC
ORGANIC
IDC IS MU SP3 IDC IS MU SP3
Precision (%) 71 73 72
70
73 75 76
74
Recall (%)
75 70 73
72
43 46 44
45
Как следует из таблицы 1, на всех функциях награды генератор RANC демонстрирует Recall почти в два раза больший, чем генератор ORGANIC, при
этом у обеих нейронных сетей значения Precision сопоставимы. Кроме того, с
точки зрения среднего арифметического между Precision и Recall лучшие результаты показывает предложенная объектная функция награды IDC, на которой нейронная сеть с архитектурой ATNC достигает 71% Precision и 75% Recall.
Таким образом, можно заключить, что на всех четырех функциях награды
генератор ATNC существенно лучше покрывает различные моды распределения
тренировочных молекулярных структур нежели генератор ORGANIC.
В четвертой главе предлагается архитектура RSAAE (Reinforced Seq2Seq
Adversarial Autoencoder) глубокой конкурентной нейронной сети для программной системы генерации малых органических молекулярных структур с
заданными свойствами на основе архитектуры RANC, приводятся ее схема, а
также алгоритм обучения нейронной сети на основе такой архитектуры. Кроме
13
того, приводятся результаты вычислительных экспериментов и сравнительного
анализа генерируемых ORGANIC, RANC, ATNC и RSAAE молекул.
Так, архитектура RSAAE (рисунок 4) основана на архитектуре RANC и состоит из пяти компонент: энкодера (Э), декодера (Де), генератора (Г), дискриминатора (Ди) и блока обучения с подкреплением (функции награды, ФН), где
каждая компонента, кроме ФН, является глубокой нейронной сетью.
Рисунок 4 – Схема архитектуры RSAAE
Энкодер отображает оригинальные молекулярные структуры, представленные в виде SMILES-строк, в точки латентного пространства (ЛП). Декодер,
декодирует точки из ЛП в молекулы. Обучаясь вместе, энкодер и декодер образуют рекуррентный автоэнкодер, который в режиме обучения без учителя выучивает общие молекулярные зависимости и отвечает за валидность генерируемых SMILES-строк (молекул).
За генерацию молекул в RSAAE отвечает конкурентное обучение, реализуемое через глубокие генеративные конкурентные нейронные сети. Так, генератор по входному шуму из стандартного нормального распределения (на рисунке 4, верхняя левая функция) порождает точки ЛП. Дискриминатор, принимая
точки ЛП от энкодера и генератора, решает, является ли точка (молекула) реальной или сгенерированной (на рисунке 4, верхняя правая функция).
Последний, пятый, компонент RSAAE отвечает за то, чтобы генерируемые
молекулярные структуры обладали конкретными целевыми свойствами (такими, как их задает пользователь при запуске обучения). Это достигается за счет
использования обучения с подкреплением, при котором по выходным молекулам с декодера вычисляется ФН. В случае RSAAE, ФН добавляется в функцию
потерь автоэнкодера, которая вычисляется по выходу декодера. Другими словами, функция потерь автоэнкодера будет состоять из двух частей: ошибки восстановления молекул и объектной ФН. В таком случае принцип работы ФН
остается точно таким же, как в RANC и ATNC, и автоэнкодер может быть обучен с помощью метода policy gradient.
Таким образом, ЛП реализует сразу две идеи. Во-первых, за счет ошибки
реконструкции, структурно похожие молекулярные соединения отображаются
в близкие друг к другу точки в ЛП. Во-вторых, молекулярные структуры, в
14
большей степени удовлетворяющие функции награды, должны находиться друг
к другу ближе в ЛП, чем те, которые удовлетворяют в меньшей степени.
В конце главе проводятся вычислительные эксперименты для оценки эффективности нейронной сети на основе архитектуры RSAAE, включающие анализ математических метрик и проведение сравнительного анализа генерируемых молекулярных структур нейронными сетями с архитектурами ORGANIC,
RANC, ATNC. В качестве тренировочных данных использовались две выборки:
большая выборка ZINC из 250000 молекул и небольшая выборка Kin из 23000
молекул, ингибирующих киназы.
Ставилось три эксперимента по обучению нейронных сетей: 1) обучение с
нуля на Kin, 2) предобучение на ZINC и 3) предобучение сначала на ZINC, а затем дообучение на Kin (ZINC+Kin). Считались следующие математические
метрики: проценты валидных (valid) и уникальных (unique) сгенерированных
SMILES-строк, а также их средняя длина (length). В таблице 2 приведены математические метрики оценки нейронных сетей на основе архитектур ORGANIC,
RANC, ATNC и RSAAE, обученных с функцией награды IDC.
Таблица 2 – Математические метрики нейронных сетей на основе
архитектур ORGANIC, RANC, ATNC и RSAAE c функцией награды IDC
Valid
ORGANIC
RANC
ATNC
RSAAE
79
64
70
68
Kin
Unique Length
13
41
72
68
28
52
52
50
Valid
81
67
73
77
ZINC
Unique Length
17
58
75
80
24
42
42
44
ZINC+Kin
Valid Unique Length
77
61
70
80
14
48
61
83
27
49
50
53
Из таблицы 2 следует, что при обучении с нуля на Kin нейронная сеть на
основе архитектуры ATNC по метрикам показывает лучшие результаты, однако
во втором и третьем экспериментах нейронная сеть на основе архитектуры
RSAAE практически по всем метрикам превосходит остальные нейронные сети.
Более того, в третьем эксперименте по сравнению с первым нейронная сеть с
архитектурой RSAAE достигает прироста + 12% valid, + 15% unique, + 3%
length, в то время как другие нейронные сети теряют в метриках. Из этого следует, что, выучивая общие закономерности построения SMILES-строк (молекул) во втором эксперименте, нейронная сеть с архитектурой RSAAE может эффективно переносить знания и дообучаться на более специфических небольших
выборках. При этом стоит заметить, что наборы данных Kin и ZINC сильно отличаются друг от друга (во-первых, средняя длина SMILES-строк в Kin на 10
символов больше, чем в ZINC, а во-вторых, в Kin содержится исключительно
киназная химия, которой в наборе ZINC всего 10–15%).
В пятой главе описывается внедрение результатов работы в компании
«Инсилико» и приводится их применение при выполнении НИР «Автоматизи-
15
рованный анализ пространства химических превращений для предсказательного моделирования каталитических процессов».
Так, в компании «Инсилико» была использована программная система на
основе представленной в диссертационном исследовании архитектуры ATNC
глубокой конкурентной нейронной сети, обученной с функцией награды IDC.
Было сгенерировано 30000 молекул и после этапа фильтрации, который включал применение медицинских химических фильтров, отсечение молекул по существующим патентам и похожести через кластерный анализ, осталось 50 соединений. Эти 50 молекулярных структур были приобретены в концентрации
10  и протестированы в трех повторениях на панели различных киназ. В результате 10 из 50 (20%) протестированных молекулярных структур показали
хорошую активность и селективность, при этом в литературе принято считать
стадию ВБС успешной при проценте большем 10%. Таким образом, были обнаружены новые ингибиторы SGK1, MAPKAPK2, Aurora A/B киназ.
Кроме того, результаты работы нашли применение при выполнении НИР
«Автоматизированный анализ пространства химических превращений для
предсказательного моделирования каталитических процессов». В частности,
была показана возможность генерации органических молекул, что в дальнейшем может быть расширено для генерации промежуточных соединений реакций и потенциальных реакций, а также на применение к более сложным металлорганическим молекулярным соединениям.
Заключение
В диссертационной работе получены следующие научные результаты, составляющие итоги исследования:
1. Разработана архитектура RANC глубокой конкурентной нейронной сети
для программной системы генерации малых органических молекулярных
структур с заданными свойствами. Показано, что она позволяет генерировать более качественные молекулярные соединения по сравнению конкурентом – нейронной сетью с архитектурой ORGANIC.
2. Разработана архитектура ATNC глубокой конкурентной нейронной сети
для программной системы генерации малых органических молекулярных
структур с заданными свойствами на основе архитектуры RANC c добавлением специального блока, который фильтрует недостаточно качественные молекулярные соединения уже на этапе генерации. Показано, что она
позволяет генерировать более качественные молекулярные соединения по
сравнению с программными системами RANC.
3. Разработана архитектура RSAAE глубокой конкурентной нейронной сети
для программной системы генерации малых органических молекулярных
структур с заданными свойствами на основе архитектуры RANC с добавлением специального блока, который обеспечивает повышение процента
генерации семантически валидных строк. Показано, что в экспериментах
с предобучением и дальнейшим дообучением RSAAE эффективнее RANC
16
и ATNC, а в экспериментах только на небольших выборках ATNC эффективнее RANC и ATNC.
4. Результаты диссертации внедрены в компании ООО Инсилико (Москва)
для генерации новых молекулярных структур, что подтверждается актом
внедрения. Результаты диссертации использовались в Университете ИТМО при выполнении работ по теме № 617041 «Автоматизированный анализ пространства химических превращений для предсказательного моделирования каталитических процессов», выполняемых из средств Университета ИТМО, что подтверждается соответствующим актом.
Сформулированы рекомендации по применению результатов работы. В
частности, разработанные архитектуры нейронных сетей для программных систем генерации малых органических молекулярных структур с заданными
свойствами могут быть использованы биоинформатиками, структурными биологами, медицинскими химиками как умные помощники в задачах генерации
лекарственных молекулярных соединений в таких компаниях, как, например, РФарм (Москва), Астразеника (Москва), Биокад (Санкт-Петербург).
Перспективы дальнейшей разработки – развитие и адаптация предложенных архитектур глубоких конкурентных нейронных сетей для эффективной
генерации малых органических молекулярных структур в виде графа.
Статьи в журналах из перечня ВАК
1. Путин Е.О., Шалыто А.А. Нейронная сеть с конкурентным порогом для
генерации малых органических молекулярных структур // Информационно-управляющие системы. — 2018. — 4. — С. 52–60. — 0,56 п. л. /
0,50 п. л.
2. Путин Е.О. Подкрепленный последовательность-к-последовательности
конкурентный автоэнкодер для генерации малых органических молекулярных структур // Научно-технический вестник информационных технологий, механики и оптики. — 2018. — Т. 18. — № 6. — С. 1071–1077.
— 0,43 п. л. / 0,43 п. л.
Публикации в рецензируемых изданиях, индексируемых
Web of Science или Scopus
1. Putin E., Asadulaev A., Ivanenkov Y., Aladinskiy V., Sanchez-Lengeling B.,
Aspuru-Guzik A., Zhavoronkov A. Reinforced Adversarial Neural Computer
for De Novo Molecular Design // Journal of chemical information and modeling. — 2018. — Vol. 58, no. 6. — P. 1194-1204. — 0,68 п. л. / 0,40 п. л.
2. Putin E., AsadulaevA., Vanhaelen Q., Ivanenkov Y., Aladinskaya A. V., Aliper A., Zhavoronkov A. Adversarial Threshold Neural Computer for Molecular De Novo Design // Molecular pharmaceutics. — 2018. — Vol. 15, no. 10.
— P. 4386-4397. — 0,75 п. л. / 0,45 п. л.
Документ
Категория
Без категории
Просмотров
15
Размер файла
2 655 Кб
Теги
нейронные, глубоких, молекулярная, структура, конкурентные, малыш, органических, сети, генеративных
1/--страниц
Пожаловаться на содержимое документа