DeepMind и Европейский институт биоинформатики опубликовали базу данных из более чем 350 тысяч трехмерных белковых структур, которые предсказала нейросеть AlphaFold. ИИ смог определить примерную трехмерную структуру всех 20 тыс. белков, которые синтезируются в клетках человека. 

Также в базе данных присутствуют протеомы других организмов — рыбок данио, бактерий кишечной палочки, мушек-дрозофил, червей-нематод и дрожжей​. Со временем ученые планируют добавить еще сотни миллионов структур.

Как заявил генеральный директор DeepMind Демис Хассабис, база данных сможет стать ценным ресурсом для разработки новых лекарств и понимания болезней.

Успех использования AlphaFold зависит от того, насколько точны ее прогнозы. Как показали первые испытания нейросети, она способна определять положение аминокислот внутри молекулы белка точностью до атомов. В ходе тестов AlphaFold точно определила структуру более 98,5 процентов белков.

В прошлом году нейросеть стала лидером в соревновании по предсказанию структуры белков Critical Assessment of protein Structure Prediction (CASP), для победы в котором необходимо не менее 95 процентов точности определения местоположения отдельных атомов в белке.

AlphaFold позволила получить структуры белков, связанных с рядом болезней, включая диабет и синдром Вольфрама. В будущем ученые надеются расширить базу и добавить в нее трехмерную структуру всех белков, известных науке, что поможет лучше понимать устройство живых организмов и изучать нарушения в их работе.

Комментарии (9)


  1. stalinets
    26.07.2021 20:55

    Интересно, с этими новостями имеет смысл дальше считать на платформе BOINC проекты типа Rossetta@HOME, Folding@HOME?


    1. Balling
      26.07.2021 21:49

      Нет.


  1. Balling
    26.07.2021 21:47
    +1

    Не всех, а 2/3, остальные требует несколько белков вместе или мембранные белки (хотя последнее работает неплохо, но и первое люди хакнули). И да еще на alphafold.ebi.ac.uk нет белков <16 и > 2700 amino acids, они только есть в полном tarball для homo s. alphafold.ebi.ac.uk/download

    И еще там не все белки, так как используется не полный геном человека, а только GRCh38 patch 13. Полный геном (это только в Мае 2021 сделали) это еще 150 новых белков и 300 похожих на старые. www.ncbi.nlm.nih.gov/assembly/GCA_009914755.3

    И часть белков ошибочны в patch 13.


  1. kometakot
    27.07.2021 07:13

    И что, всё? Решена одна из самых важных целей биоинформатики и теоретической химии? А где салют, выступление генсека ООН, объявление этого дня всемирным праздником?


  1. Georgy9
    27.07.2021 10:55
    -1

    20 тыс. – это только количество генов. Если учитывать транскрипцию со сдвигом рамки, альтернативный сплайсинг, а также посттрансляционную модификацию белков, счет белков в организме человека идет на миллионы. Так что AlphaFold как раз вовремя подоспела.


    1. Balling
      29.07.2021 22:42

      Они используют GRCh. Там все это учтено. Даже антисенс гены: самый ужасный пример это когда одна и та же ДНК в одну сторону один белок, а в другую другой (точно задокументировано 1 место в геноме). И Alphafold их оба собрала. alphafold.ebi.ac.uk/entry/Q9UBP8 и alphafold.ebi.ac.uk/entry/Q9UHG0

      biology.stackexchange.com/questions/45117/can-both-the-overlapping-genes-in-opposite-strands-produce-proteins


      1. Georgy9
        30.07.2021 12:05

        Насколько я понял из ваших примеров, точность предсказаний еще весьма низкая. ДНК тут вообще ни при чем, т.к. окончательная мРНК сильно отличается от непосредственно получаемого транскрипта РНК с ДНК, ведь большинство их подвергаются сплайсингу и прочим "допиливаниям напильником" прежде чем попадут на трансляцию. А вот перекрывающиеся гены на антипараллельных нитях – это чрезвычайно интересный момент, и их не так мало – до 10%:

        https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2335118/ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6746723/

        Если обе нити содержат гены (а ведь есть еще и такое же количество транскрибирующихся управляющих РНК-последовательностей), то нельзя говорить, что изменение одного кодона в гене может быть безвредным (из-за сохранения смысла кодона вследствие вырожденности генетического кода), ведь оно неизбежно повлияет на информацию, содержащуюся на противоположной нити. Так что инженерно-генетические вмешательства несут множество опасностей, которые исследователи не учитывают.


        1. Balling
          31.07.2021 16:24

          Эти 10% (которые еще надо доказать) это случай, когда хотя бы один из этих генов кодирует РНК, я же говорил про белки в обе стороны. А это только 1 доказанный случай. Alphafold пока не может в сборку РНК (ну либо Google и это упустила), есть всякие другие методы для этого. Например, www.nature.com/articles/s41467-021-23555-5

          >подвергаются сплайсингу

          Экзоны и интроны не проблема предсказать, поверьте.

          >оно неизбежно повлияет на информацию, содержащуюся на противоположной нити

          Нет. 1 аминокислота и тем более 1 останок в РНК рибозиме обычно ни на что не влияет, например, если они не в активном центре.

          >Так что инженерно-генетические вмешательства несут множество опасностей, которые исследователи не учитывают.

          У нас в геноме вообще почти боевой ВИЧ есть [HERV-K], который нам геном может перестраивать, а уж что в нейронах происходит… И это всего один ретровирус в нашем геноме, их там дофига. Поверьте, никто не спорит с этим, лол.


  1. Balling
    29.07.2021 22:42

    del