С вами снова Павел Бузин. Как и обещал в первой части саги о Нобелевской премии, сегодня поговорим о химии. Надеюсь, интерес публики к новости еще не угас, потому что, признаюсь, даже у меня, технически подкованного человека, ушло немало времени на то, чтобы разобраться в химической составляющей изысканий лауреатов этого года. 

8 октября 2024 года теперь можно считать одной из важнейших дат в истории искусственного интеллекта, потому что Нобелевскую премию по химии присудили по сути за применение методов AI. Американец Дэвид Бейкер (David Baker) и сотрудники «дочки» Google в Британии Демис Хассабис (Demis Hassabis) и Джон Джампер (John M. Jumper) взяли приз за предсказание структуры белков. Стоп. А с каких это пор Google стал химическим концерном? В этой статье посмотрим на бэкграунд исследователей и методы, открытые ими чуть внимательнее.

Демис Хассабис и Джон Джампер являются, соответственно, CEO и директором в DeepMind — дочерней компании Google, специализирующейся на разработке и применении методов искусственного интеллекта.  Стоит упомянуть, что Нобелевские премии и до этого неоднократно присуждались за открытия, сделанные сотрудниками исследовательских подразделений корпораций. Можно вспомнить Bell Labs (сейчас подразделение Nokia Corporation), исследователи которой создали первый транзистор и открыли реликтовое излучение. Или исследователей из IBM, что получили премии за создание туннельного микроскопа и открытие высокотемпературной сверхпроводимости.

Неоднократно вручались и премии за разработку новых инструментов и методов, позволяющих расширить возможности и получить кардинально новые научные результаты. Яркий пример из физики — это камера Вильсона (1927 год), в химии — методы синтеза молекул с заданными свойствами «клик-химия» (2022 год) и многое, многое другое. 

Вычислительные методы, которые сейчас объединяют под названием Computer Science, также неоднократно отмечались высокой наградой. Большая их часть — Нобелевские премии по экономике (в силу отсутствия премии по математике), здесь в качестве примера можно упомянуть Леонида Канторовича (1975 год), отца линейного программирования, который получил премию с формулировкой «за вклад в теорию оптимального распределения ресурсов». 

Что же такого в этот раз сделали в области компьютерных наук, что это признали революционным в химии?

Геометрическая химия

Пресс-релиз Нобелевского комитета гласит: «The Royal Swedish Academy of Sciences has decided to award the Nobel Prize in Chemistry 2024 … “for protein structure prediction”».

Уже интересно. Исследование белков — одна из важнейших областей современной науки, охватывающей химию, биологию, медицину, фармацевтику, компьютерные науки. В этой области исследователи сталкиваются с тремя большими проблемами:

  • сложность и дороговизна проведения экспериментов; 

  • молекулы белков состоят из длинных цепочек, составленных из аминокислот, и количество их сочетаний – очень велико;

  • как и любые длинные молекулы, молекулы белков имеют большое количество внутренних степеней свободы и, закручиваясь, могут принимать различную форму, в том числе обладающую внутренней упорядоченной или неупорядоченной структурой. 

При этом разные части молекул могут геометрически входить в механическое зацепление, которое не сопровождается возникновением новых химических связей. А это уже начинает сильно влиять на свойства белков при взаимодействии с другими агентами — химическими реактивами, другими белками, лекарствами, вирусами, различными элементами клеток. 

В химии нередки случаи, когда формула вещества не меняется, но изменение положения молекул влияет на то, как это вещество взаимодействует с другими. Всем известно, что вода и лед — это одни и те же молекулы H2O, однако, лед занимает больший объем и менее охотно вступает в реакции. Понимать условия, при которых белки спонтанно меняют геометрию своих молекул, или знать, какие факторы инициируют это — крайне важно. Это влияет на такие вещи как:

  • сроки хранения лекарств и реактивов;

  • образование неактивных или даже токсичных изомеров белков;

  • спонтанное изменение или восстановление геометрии молекул со временем. 

Процесс превращения цепочки аминокислот, составляющих молекулу белка в упорядоченную структуру, называют фолдингом белка (protein folding). 

https://upload.wikimedia.org/wikipedia/commons/thumb/4/4f/ProteinogenicAminoAcids.svg/600px-ProteinogenicAminoAcids.svg.png
Иллюстрация многообразия аминокислот. Источник: https://en.wikipedia.org/wiki/Amino_acid https://en.wikipedia.org/wiki/File:ProteinogenicAminoAcids.svg

Типичная молекула белка — цепочка из сотен и тысяч атомов углерода, имеющих связи с атомами азота, кислорода, серы, циклические и ациклические соединения, гидроксильные группы и многое другое. То, в какое пространственное оригами в итоге «упакуется» цепочка аминокислот раньше невозможно было знать заранее. Только представьте: белок с цепочкой из 100 аминокислот может упаковываться в 1047 разных конфигураций. Самих аминокислот — около трех десятков, но дело осложняется еще и тем, что в синтезе белка изначально могут участвовать аминокислоты-энантиомеры: это молекулы, которые являются зеркальными копиями друг друга в пространстве (как правая и левая рука). Из-за своих геометрических свойств энантиомеры по-разному взаимодействуют с другими молекулами. Таким образом общее количество вариантов аминокислот, их сочетаний, энантиомеров и способов упаковать все это добро в молекулу белка превышает число частиц во Вселенной. К счастью для исследователей, природа не настолько разнообразна, и если понаблюдать за фолдингом и анфолдингом аминокислотных цепочек «в пробирке» выяснится, что выстраиваются они все-таки в ограниченное число конфигураций.  Количество вариантов ограничено из-за того, что разная пространственная конфигурация молекулы обладает разной внутренней энергией и молекулы стремятся принять конфигурации с наименьшей внутренней энергией как наиболее стабильные. 

https://upload.wikimedia.org/wikipedia/commons/thumb/1/12/Milchs%C3%A4ure_Enantiomerenpaar.svg/298px-Milchs%C3%A4ure_Enantiomerenpaar.svg.png
Иллюстрация зеркальных свойств молекул. (S)-(+)-молочная кислота и (R)-(–)-молочная кислота как несовмещаемые зеркальные отражения. Источник: https://en.wikipedia.org/wiki/File:Milchs%C3%A4ure_Enantiomerenpaar.svg

Тема энантиомеров важна еще и потому, что в процессе биологической эволюции на земле все белки приняли только одну зеркальную ориентацию, называемую левосторонней (left-handed), что проявляется в направлении вращения поляризованного света при прохождении через раствор, содержащий энантиомер. Разделение энантиомеров невозможно физическими или химическими способами без разрушения молекул. При этом зеркальные копии могут быть неактивными или даже ядовитыми, а для получения чистого энантиомера приходится в процессе синтеза использовать «затравку» в виде природной молекулы, которая задает требуемую конфигурацию.

Прежде чем с головой нырнуть в мир химии белков, давайте освежим в памяти несколько терминов, которые нам потребуется позже. 

В биохимии последовательности, состоящие из аминокислот и сахаров, которые не меняются в процессе реакций синтеза белков, именуют остатками (residue). Понятие остатка шире, чем группы атомов (такие как гидроксильные, карбоксильные или аминогруппы), поскольку может иметь более сложную структуру и состоять из нескольких групп.

Также нам потребуется понимание пептидной связи — это когда аминогруппы (—NH2) одной аминокислоты взаимодействуют с карбоксильной группой (—СООН) другой аминокислоты, устанавливая С=N связь с образованием свободной молекулы воды. 

И нам нужно знать про три основных способа проведения эксперимента в биологии и химии: in vivo (в живом организме),  in vitro (в пробирке) и in silico (на компьютере). Моделирование химических и биологических процессов жизненно необходимо в силу сложности и дороговизны натурных экспериментов. 

Итак, поехали: in silico. 

Краткая история белков «в цифре»

Одна из самых крупных баз данных о белках — Protein Data Bank (PDP), содержит информацию о 225 тысячах белков и других структур. В то время как общее количество известных белков, которые подробно не описаны, составляет 200 миллионов. 

Основные методы, которые ранее использовались для предсказания форм молекул, были основаны на решении уравнений, описывающих распределении электронов в атомах (как развитие подходов решения уравнения Шредингера) и на геометрических свойствах атомов, которые можно получить как экспериментальные данные (рентгенография, туннельные микроскопы, статистические и другие методы). 

Решение уравнения Шредингера для одиночного атома позволило получить информацию об орбиталях — одноэлектронных волновых функциях, позволяющих получить представление о распределении электронов в атоме. Решение задачи для двухатомной системы даже для текущего уровня развития суперкомпьютеров все еще невозможно. 

Применение геометрического подхода позволяет понять, как осуществляются химические реакции для относительно простых молекул. В силу квантово-механических эффектов и температурных колебаний атомов в молекуле, молекула непрерывно дрожит и меняет свою форму, принимая некоторые устойчивые состояния. На рисунке ниже показаны возможные изменения, которые могут происходить: изменения углов между связями с соседними атомами (αi, βi, γi и другие), вращение вокруг межатомной связи (ωi, φi-1, ψi-1), изменение расстояния между соседними атомами (межатомная связь выступает в роли пружины/осциллятора). Отмечу, что атомы в процессе движения могут принимать не произвольные положения, а те, которые точно определяются энергетическими уровнями каждой молекулы. 

Линейная молекула и ее степени свободы. Источник: https://arxiv.org/pdf/2202.01079 
Линейная молекула и ее степени свободы. Источник: https://arxiv.org/pdf/2202.01079 

Небольшое лирическое отступление — а почему в природе нет белковых циклических или ветвящихся структур? Как обыватели мы не знаем (вы если знаете, расскажите в комментариях). Но по логике вещей в природе белковые структуры образуются в процессе репликации. Подобные процессы спонтанной репликации для ветвящихся структур невозможны, более того — они возможны только для ограниченной доли линейных и циклических структур. А вот в лабораторных условиях ветвящиеся структуры можно синтезировать и изучать, в чем нам и помогает компьютерное моделирование.

Для белков, состоящих большого числа аминокислот, потребовалось расширение абстрактного описания в виде химических формул, к которому мы привыкли на уроках химии. Биологи и химики оперируют четырехуровневым представлением:

  • Первичная структура белка (Primary Protein Structure) — одномерная последовательность аминокислот.

  • Вторичная структура белка (Secondary Protein Structure) — складывание в повторяющиеся структуры, линейные или спиральные.

  • Третичная структура белка (Tertiary Protein Structure) — трехмерное свертывание посредством взаимодействия боковых атомов и групп атомов (торчащих в сторону от основной цепочки, которая состоит, в основном, из атомов углерода).

  • Четвертичная структура белка (Quaternary Protein Structure) — структура белка формируется несколькими цепочками взаимодействующих аминокислот. Для визуализации четвертичной структуры белка применяют также представление в виде линий, в виде лент, в виде палочек-связей между атомами и в виде поверхности электронного облака, окружающего молекулу белка.

На рисунке ниже проиллюстрированы структуры белка human foetal deoxyhaemoglobin protein (PDB: 1FDH)

Различные представления структуры белка. Источник: https://arxiv.org/pdf/2409.17726 
Различные представления структуры белка. Источник: https://arxiv.org/pdf/2409.17726 

Думаю, из сказанного выше вы убедились, что изучение фолдинга белков — невероятно сложная сфера. Давайте совершим короткий экскурс в историю того, как задачи о предсказаниях структуры белков решались до 2024 года. 

1994 год — Critical Assessment of protein Structure Prediction

Сегодня мы уже привыкли к хакатонам. А как насчет чемпионата по фолдингу белковых структур?  В 1994 году состоялся первый чемпионат CASP — Critical Assessment of protein Structure Prediction (критическая оценка предсказания белковых структур), с тех пор он проходит каждые два года. Команды исследователей получают аминокислотную последовательность и соревнуются в предсказании вторичных и третичных структур для ранее не исследованных белков. Ни организаторы, ни эксперты, ни участники не знают структуры тестируемых белков до окончания стадии предсказаний. 

2005—2008 год — Rosetta@home и Foldit

Еще в 2003 году проект «Геном человека» секвенировал 85% человеческого генома. Исследователи выяснили аминокислотные последовательности почти всех белков в человеческом организме и решили: раз мы изучили все, что есть, давайте создадим в виртуальной пробирке то, чего нет. Например, новые более активные белки или способы изменения структур, виновных в серьезных заболеваниях. 

Так появился проект добровольных вычислений Rosetta@home, где коллективные вычислительные ресурсы использовались исследователями для предсказания третичной структуры белков и прогнозирования взаимодействия белковых структур. Но была одна проблема: ученых, способных в свободное время придумывать новые молекулы не так уж много. И чтобы ускорить победу над раком и Альцгеймером энтузиасты решили популяризировать фолдинг белков и превратить суровую забаву для ученых в кубик Рубика, с которым может поупражняться каждый. Главным энтузиастом этой инициативы был как раз будущий лауреат этого года Девид Бейкер.

Именно он вместе с коллегами разработал онлайн-головоломку Foldit, где люди даже без специфических знаний в области химии могут «покрутить» аминокислотную последовательность для решения конкретной задачи. В конце концов, 38 000 голов (количество пользователей Rosetta@home на 2011 год) — хорошо, а 240 000 (количество игроков в Foldit в год релиза) — лучше. Цель головоломки состоит в поиске трехмерной структуры определенного белка с самым низким уровнем свободной энергии. Каждое задание публикуется на сайте на определенный срок, в течение которого пользователи соревнуются между собой. С помощью Foldit удалось совершить несколько научных прорывов: например, расшифровать структуру вируса, вызывающего СПИД у обезьян, и изменить структуру белка, отвечающего за катализ реакции Дильса — Альдера.

2017—2024 — AlphaFold

Пришло время поговорить про самое интересное. Следите за руками:

  • В 2010 году в Лондоне возникает стартап DeepMind Technologies, который занимается искусственным интеллектом.

  • В 2014 компанию приобретает Google.

  • В 2016 году модель AlphaZero, разработанная командой DeepMind, выигрывает партию в го у чемпиона мира Ли Седоля.

  • В 2017 году AlphaZero, получает высший шахматный рейтинг, победив в серии из 100 партий сильнейшую на тот момент шахматную программу StockFish 8. Компания DeepMind обучает широкое семейство моделей Alpha, которые достигают блестящих успехов в разных областях.

  • В 2018 году к семейству моделей Alpha добавляется AlphaFold, предназначенная для предсказания структуры белка. Разработкой модели руководят Демис Хассабис и Джон Джампер. Исследовательская команда участвует в 13-ом чемпионате CASP и берет первое место. 

  • В 2020 году AlphaFold2 снова решила главную задачу CASP, да так хорошо, что главный научный журнал мира Nature назвал это «прорывом».

К чести Google она выложила модели AlphaFold и AlphaFold2 в открытый доступ для использования другими исследователями, а также создала базу структур белков AlphaFold Protein Structure Database и наполнила ее информацией о 200 миллионах белковых структур, рассчитанных DeepMind. Для желающих – ссылки на первоисточники:

А теперь о том, что же там внутри.

Внутри AlphaFold

Если верить описанию, AlphaFold «напрямую предсказывает 3D-координаты всех тяжелых атомов для данного белка, используя в качестве входных данных первичную аминокислотную последовательность и выровненные последовательности гомологов». 

Рекомендую почитать первоисточники, не пожалеете

Архитектуру AlphaFold2 DeemMind открыли в статье в журнале Nature, опубликованной 15 июля в 2021 года (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8371605/). Самое интересное – в дополнении в этой статье, в Supplementary information. Специалистам в области машинного обучения можно сразу перейти по ссылке для его изучения https://pmc.ncbi.nlm.nih.gov/articles/instance/8387230/bin/41586_2021_3819_MOESM1_ESM.pdf.

Поделюсь своим мнением относительно того, что в AlphaFold2 было важным, интересным, реально очень сложным и прорывным. 

Первое, что привлекает внимание — обучающий датасет. Команда DeepMind использовала данные о 250+ тысячах белков и их свойствах (таких как размеры, конфигурации, углы между связями, расстояния между атомами и другие) из Protein Data Bank. На следующем шаге была создана отдельная модель для генерации синтетических примеров на основе реальных данных (аугментация данных) для создания обучающего датасета AlphaFold2. При этом 25% были оригинальными примерами белков из Protein Data Bank, а 75% — синтетическими. При проверке правильности синтетических примеров использовали как метрику расстояние Кульбака-Лейбнера для пар реальный пример-синтетический пример. 

Модель AlphaFold2 работает с последовательностями аминокислот, составляющих белки называемые multiple sequence alignments (MSA). На вход модели AlphaFold2 подаются эмбеддинги MSA, составляющих белки, и фичи известных пар последовательностей известных белков (из обучающего датасета). Сеть состоит из двух основных модулей: модуля Evoformer и модуля структуры. 

 

Высокоуровневая схема архитектуры нейросети AlphaFold2
Высокоуровневая схема архитектуры нейросети AlphaFold2

Evoformer оперирует эмбеддингами MSA, а также данными о геометрии реальных молекул (углы, расстояния, конфигурация). Модуль включает 48 последовательных блоков и использует механизм attention, в том числе для вычисления углов между атомами. Цитируя DeepMind: «ключевыми инновациями в блоке Evoformer являются новые механизмы обмена информацией внутри MSA и парные репрезентации, позволяющие напрямую рассуждать о пространственных и эволюционных отношениях». В результате Evoformer реализует геометрический подход при вычислении формы молекул белков.

В качестве результата Evoformer выдает:

  • массив Nseq × Nres, который представляет обработанный MSA (Nseq — количество последовательностей аминокислот, Nres — количество остатков — тех самых групп атомов, о которых мы говорили в разделе «Геометрическая химия»);

  • массив Nres × Nres, который представляет пары остатков.

Выходные данные Evoformer подаются на вход модуля структуры для восстановления. 

Один из 48 блоков модуля Evoformer нейросети AlphaFold2
Один из 48 блоков модуля Evoformer нейросети AlphaFold2

Модуль структуры используется для восстановления предсказываемой формы молекулы посредством представления (representation) вращения и перемещения для каждого остатка белка. Модуль итеративно моделирует эволюцию начального состояния (положение атомов и связей), многократно подавая результат работы модуля обратно на вход. Такое итеративное уточнение (авторы называют его «рециркуляцией») заметно повышает точность при незначительном увеличении времени обучения. Сохранение последовательности атомов N-Cα-C в молекуле белка при восстановлении формы молекулы обеспечивает модуль Invariant point attention (IPA). 

Модуль Invariant Point Attention Module
Модуль Invariant Point Attention Module

В процессе восстановления 3D-структуры должны выполняться многие ограничения, включая неравенство треугольника для расстояний. Для этого применяется сочетание операций последовательного обновления треугольников и работа модуля triangle self-attention. Такой процесс более точный и производительный в сравнении только с механизмом attention или обновления треугольников по отдельности. 

Модуль Triangular self-attention
Модуль Triangular self-attention

При восстановлении геометрии предсказываемого белка в AlphaFold2 используются кватернионы. Это такое расширение комплексных чисел, применяемое в механике для описания движения твердого тела. Кватернионы представляют число в виде q=a+bi+cj+dk, где a, b, c, d — вещественные числа, а  i, j, k — мнимые единицы со свойствами i2 = j2 = k2 = ijk = −1.

Кватернионы — это вышка вышки в высшей математике. Они позволяют удобно представлять вращение объектов в пространстве, упрощают расчеты и минимизируют возможные ошибки в вычислениях. Применение кватернионов является подтверждением высшего  уровня проработки задачи в части геометрических свойств молекул. 

Также в модуле структуры реализован механизм, учитывающий расположение соседних групп атомов и возникающих между ними пептидных связей.

В результате на выходе AlphaFold2 мы имеем данные о положении атомов, составляющих молекулу белка, форма которой смоделирована сетью. 

При этом AlphaFold2 достигает очень высокой точности и оказалась намного точнее, чем конкурирующие методы. Медианная точность AlphaFold2 составляет 0,96 Å (ангстрем, 10-10 метра), что сравнимо с размерами атома углерода 1,4 Å. При этом AlphaFold2 можно применять для анализа белков с длинными цепочками и доменной упаковкой без существенной потери точности. 

И в качестве вишенки на торт — модель выложена в открытом доступе в репозитории с описанием как развернуть образ в Google Cloud. AlphaFold2 очень экономно относится к вычислительным ресурсам — для работы ей достаточно всего 12 vCPUs, 85 GB RAM и одной GPU A100. По утверждению DeepMind, AlphaFold2 использовали уже более 2 миллионов раз. 

Вместо заключения

Часто приходится слышать, что Нобелевскую премию присудили несправедливо: то биологам за химию дадут, то информатикам за физику. Действительно, Дэвид Бейкер — биоинформатик и биохимик, почти всю жизнь посвятил дизайну белков и предсказанию их третичной структуры. Заслуги Демиса Хассабиса Джона Джампера больше лежат в поле науки о данных, вычислительной биологии и химии, и все они получили Нобелевскую премию за создание инструментов на основе нейронных сетей и их применение. Стоит ли по этому поводу возмущаться общественности? Я бы сказал, что стоит радоваться. Огромное количество кросс-дисциплинарных исследований и тот факт, что нам становится сложно провести четкую черту между физикой, химией, биологией, медициной и информатикой говорит скорее о том, насколько глубоко мы проникли в суть окружающего нас мира, чем об ангажированности Нобелевского комитета. 

Главный вывод, который можно сделать из премий этого года:  Нобелевский комитет и научный мир в целом зафиксировал возникновение новой реальности, в которой нейросети такой же инструмент в руках исследователя как микроскоп или ускоритель частиц.  Раньше у науки были экспериментальные факты и теории, позволяющие интерпретировать действительность и имеющие предсказательную силу. Теперь артефакты науки пополнились моделями машинного обучения, что примечательно, модели — сущности, имеющие предсказательную силу, но при этом неинтерпетируемые. 

Источники для любопытных

https://deepmind.google/discover/blog/demis-hassabis-john-jumper-awarded-nobel-prize-in-chemistry/

https://www.nobelprize.org/prizes/chemistry/2024/press-release/

https://www.nobelprize.org/uploads/2024/10/advanced-chemistryprize2024.pdf

https://github.com/google-deepmind/alphafold

https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/

https://deepmind.google/

https://alphafold.ebi.ac.uk/

https://en.wikipedia.org/wiki/Proteinogenic_amino_acid

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8371605/

https://www.wired.com/story/deepmind-beats-pros-starcraft-another-triumph-bots/

Другие статьи в блоге:

Комментарии (23)


  1. artemmoscow
    27.10.2024 17:16

    Кватернионы — это вышка вышки в высшей математике.  По моему это скорее ближе к базе для математика. Думаю даже много кто из кодеров понимает что это


    1. csl
      27.10.2024 17:16

      1. artemmoscow
        27.10.2024 17:16

        погуглил, в вики написано что размерность может быть 1,2,4, 8

        т.е. не последние


        1. illinav
          27.10.2024 17:16

          Да, я опустил ассоциативность, а октонионы неассоциативны.


      1. artemmoscow
        27.10.2024 17:16

        то что вы пишите это уже скорее уровень профессионального математика. Честно говоря сомневаюсь что один и тот же человек знает теорию категорий и эллиптические функции и одновременно пишет круды по скраму.


        1. Goron_Dekar
          27.10.2024 17:16

          Отнюдь!

          так выглядит любой работающий в индустрии на позиции мидл+ выпускник профильного вуза.

          Вон, даже я, будучи химиком, знаю категории, и примерно представляю о чём эллиптические функции и как их используют и реализуют в том же шифровании, спасибо Хабру. Выпускник ВМК про это должно быть сдавал 2 экзамена и прак.


          1. illinav
            27.10.2024 17:16

            выпускник профильного вуза.

            Выпускник ВМК

            Профильного по программированию?

            Открыл учебные программы бакалавриата «Математические методы обработки информации и принятия решений» и «Системное программирование и компьютерные науки» — теорката не увидел ни среди базовых и вариативных курсов, ни среди уточняющих предметов (по крайней мере, среди первой пары страниц, но это, видимо, вообще какие-то совсем факультативные факультативы). Открыл даже «Фундаментальная информатика и информационные технологии» — тоже ничего про категории (зато есть какие-то «офисные технологии», интересно, что это такое). Рандомно потыкал в магистратуру по «Технологии программирования», «Компиляторные технологии» и ещё несколько (у них у всех очень похожие программы) — тоже не нашёл.

            Мои школьные приятели, пошедшие что на ВМК, что на мехмат, тоже как-то избежали категорий. Да и у меня на достаточно профильном направлении их не было.

            даже я, будучи химиком, знаю категории

            Насколько глубоко?

            Средний школьник (по крайней мере, раньше) мог взять какие-нибудь там производные и иногда даже интегралы, но по сравнению с вузовским курсом анализа есть некоторый нюанс.


            1. Goron_Dekar
              27.10.2024 17:16

              Тоже открыл эти документы.

              Там по 72 лекции каждого анализа и 102 лекции дискретки. Легко можно вставить 3 обзорные лекции по категориям и по 2 по элиптическим кривым. Явно хватает для того, чтобы отлично представлять, о чём эти области математики и где искать чтобы копать в глубину при написании дипломной работы.

              Надо глянуть в вопросы по экзаменам, но мне откровенно лень их искать :)

              Насколько глубоко?

              Я не знаю, приктического применения этим знаниям не находил, а значит оценить не могу. Думаю, недостаточно даже для того, чтобы грамотно сформировать ТЗ.

              Но достаточно для того, чтобы знать, что если бы нас ознакомили с теорией категорий хотябы на уровне странички в википедии, когда объясняли кванты и строймол, мне было бы проще понять про разные базисы и адиобату, при численном решении ур-ния Шреденгера.

              Средний школьник (по крайней мере, раньше) мог взять какие-нибудь там производные и иногда даже интегралы

              и это значило, что он был знаком с инструментом, знал где применяется и какие можно получить от применения плюшки. Ровно то, что требуется от общего образования!


              1. illinav
                27.10.2024 17:16

                Явно хватает для того, чтобы отлично представлять, о чём эти области математики и где искать чтобы копать в глубину при написании дипломной работы.

                А, ну я тогда испанский знаю (и даже знаю, как переводится super huevo!), да и китайский тоже (ну там иероглифы вот видел пару раз).

                Не уверен, что знакомство на уровне «ну эээ там стрелки» и едва тренированное умение отличить эпиморфизм от мономорфизма катит за «знаю категории».

                Но достаточно для того, чтобы знать, что если бы нас ознакомили с теорией категорий хотябы на уровне странички в википедии, когда объясняли кванты и строймол, мне было бы проще понять про разные базисы и адиобату, при численном решении ур-ния Шреденгера.

                Каким образом тут бы вам помогло краткое ознакомление с теоркатом? Ну, то есть, что именно из знакомого вам теорката тут релевантно?


                1. Goron_Dekar
                  27.10.2024 17:16

                  Не уверен, что знакомство на уровне «ну эээ там стрелки» и едва тренированное умение отличить эпиморфизм от мономорфизма катит за «знаю категории».

                  Тогда вообще ничего не катит. Даже Маклейн врядли знает всё.

                  Вопрос не про "знаю категории", а про "знаком с инструментом, знаю где применять, знаю что почитать".


                  1. illinav
                    27.10.2024 17:16

                    Тогда вообще ничего не катит. Даже Маклейн врядли знает всё.

                    ИМХО вопрос несколько менее бинарен, чем «знает всё» против «прочитал первую страницу первой главы».

                    Вопрос не про "знаю категории"

                    Вон, даже я, будучи химиком, знаю категории

                    Ну ладно.


                    1. Goron_Dekar
                      27.10.2024 17:16

                      ИМХО вопрос несколько менее бинарен, чем «знает всё» против «прочитал первую страницу первой главы».

                      Вот полностью согласен. И поэтому даже "прочитал оглавление" уже больше, чем "ничего не знаю про".

                      Ну ладно.

                      Атож!


                      1. illinav
                        27.10.2024 17:16

                        Вот полностью согласен. И поэтому даже "прочитал оглавление" уже больше, чем "ничего не знаю про".

                        Это совсем не то же самое, что ваше исходное «так выглядит любой работающий в индустрии…» в ответ на утверждение про необходимость знания теорката.

                        Так всё же, как бы вам помог теоркат в базисах и адиобатах?


                      1. Goron_Dekar
                        27.10.2024 17:16

                        Так всё же, как бы вам помог теоркат в базисах и адиобатах?

                        В основном обобщение операций симметрии и переходные процессы как морфизмы.

                        Учился более 15 лет назад, помню моё восприятие этих лекций с трудом, но к тому моменту у меня уже был опыт кодинга и я выявлял общие операции для разных морфизмов. Но сформулировать этого не мог, не говоря уж про то, чтобы опирировать такими обобщениями на семинарах.


  1. krasilnik_k
    27.10.2024 17:16

    По традиции Нобелевская премия по химии достается биологии!

    Но в этом году Нобелевская премия достается еще ИИ, который они использовали))


  1. DaneSoul
    27.10.2024 17:16

    Небольшое лирическое отступление — а почему в природе нет белковых циклических или ветвящихся структур? Как обыватели мы не знаем (вы если знаете, расскажите в комментариях).

    Оказывается циклические протеины бывают, открыты у бактерий больше 20 лет назад. (https://pubmed.ncbi.nlm.nih.gov/11893510/ , https://pubmed.ncbi.nlm.nih.gov/12837774/)
    В вики есть про циклические пептиды (https://en.wikipedia.org/wiki/Cyclic_peptide). Пептиды с химической точки зрения те же белки, только маленькие.


    1. Goron_Dekar
      27.10.2024 17:16

      Нет, это белки можно с натяжкой назвать "пептидами с химической точки зрения", а объект класса "белок" содержит в себе огромный пласт свойтсв и методов, не имеющих смысл для объекта "пептид".

      Пептиды не имеют, как правило, даже выраженной вторичной структуры, не говоря уж о третичной. Для них нехарактерны такие понятия, как конформация, биоситнез, фолдинг и ПТМ (посттрансляционные модификации), нет гена, нет путей деградации, специфичных для белков. Ведут себя они часто как низкомолекулярные соединения, методы работы с пептидами и с белками радикально разнятся. Синтез производят в реакторах в органических растворителях, очистку и хранение также предпочитают брать из области органической химии, а не из биотехнологии.


      1. DaneSoul
        27.10.2024 17:16

        То что белки более сложно организованы и обладают дополнительными свойствами вытекающими из фолдинга - согласен.
        Что значит нет биосинтеза и нет гена? А как они синтезируются в таком случае в живой клетке (промышленное производство - это отдельный вопрос, тут не моя тема)?
        По поводу терминологии, посмотрите статью по моей первой ссылке https://pubmed.ncbi.nlm.nih.gov/11893510/
        "Circular proteins--no end in sight" - и в названии статьи и в ее описании фигурирует protein, то есть именно белок. Но вот уже в другой статье https://journals.sagepub.com/doi/10.1177/2156587211428077 упомянутые в первой cyclotides называют пептидами. У них там кстати есть вторичная структура и описаны гены.


        1. Goron_Dekar
          27.10.2024 17:16

          В клетке пептиды нарезаются из полипептида-предшественника. И это роднит их с прочими небольшими биомолекулами в клетке. Используется не универсальный механизм биосинтеза, такой, как рибосома или полимераза, делающая полимерную цепь не сильно вдаваясь в состав этого полимера, но продукт-специфичный механизм. Многие пептиды для получения в организме имеют специальную протеазу или регулятор, существующий только для того, чтобы синтезировать этот пептид. Нет такого универсального механизма, который синтезирует пептиды.


    1. pbuzin Автор
      27.10.2024 17:16

      Благодарю за ссылку на статью. Применительно к теме статьи — теперь изучение циклических белковых структур может получить второе дыхание. Как в свое время произошло в химии, когда открыли бензольное кольцо в составе ароматических соединений.


  1. atues
    27.10.2024 17:16

    Коль скоро затронули тему категорий, то позвольте посоветовать совсем недавно переведенную книгу "Восторг абстрактной математики" (https://dmkpress.com/catalog/estestvennye-nauki/978-5-93700-313-3/). Интересное введение в теорию категорий.

    Ну, и, конечно, Б.Милевски "Теория категорий для программистов". Осторожно - примеры на Haskell (шутка). На хабре были переводы отдельных разделов, но можно найти и полный текст. Официально, к сожалению, у нас не переводилась и не издавалась.


    1. csl
      27.10.2024 17:16

      И Aluffi "Algebra: Chapter 0"