В deep learning за последние 10 лет произошла революция. В этом посте расскажем, почему это важно знать всем, на визуальных примерах, и рассмотрим перспективы на ресерч и внедрение моделей искусственного интеллекта, учитывающие социальный импакт моделей.

В области стратегических игр значимый результат был получен в 2016-2017 году, когда модель меньше чем за 3 дня обучения смогла дойти до уровня чемпиона мира в игре go.

Модель обучалась играя сама с собой и за 3 дня достигла superhuman уровня.
Модель обучалась играя сама с собой и за 3 дня достигла superhuman уровня.

Языковая модель gpt-3.5 показала результаты лучше половины экзаменуемых на большой части экзаменационных тестов. gpt-4 смогла улучшить результаты на тестах, например AP Calculus, с которыми gpt-3.5 справлялась хуже всех экзаменуемых.

Сравнение применения языковых моделей к решению экзаменационных тестов.
Сравнение применения языковых моделей к решению экзаменационных тестов.

Основной буст моделей искусственного интеллекта произошел благодаря увеличению вычислительных ресурсов и количеству используемых для обучения данных. На примерах ниже представлено, как влияет увеличение размера модели для генерации изображений на качество результата.

Промт: A map of the United States made out of sushi. It is on a table next to a glass of red wine.
Промт: A map of the United States made out of sushi. It is on a table next to a glass of red wine.
Промт: A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!
Промт: A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!

Foundational models

Deep learning получил развитие благодаря большим датасетам, развитию gpu. 

Foundational models появились из deep learning благодаря transfer learning между датасетами, и scale через увеличение датасетов и еще большему развитию gpu. Multi-gpu обучение для трансформеров и увеличение датасетов позволило появиться более точному и расширенному внутреннему представлению данных в моделях, а также за последние несколько лет в 10 раз увеличилась пропускная способность и память в gpu.

Как тренируются foundational models - сначала используется self-supervised learning, чтобы создать представление данных, затем с помощью transfer learning модель адаптируется под определенную задачу с меньшим датасетом.

Эти модели имеют потенциал социального импакта, поэтому давайте разберемся в экосистеме, частью которой они являются.

На картинке выше показана экосистема, включающая в себя сбор данных, их обработку для моделей, обучение моделей, адаптацию под определенные задачи, создание приложений на основе моделей.

Данные для обучения - это ресурсы, созданные людьми. Приложения, созданные на основе моделей, также для использования людьми. Поэтому важнейшие элементы безопасности - это курация датасетов и исследование адаптации под разные задачи. 

Читателю на размышление - какие механизмы курации уже применяются в gpt-4 и других больших языковых моделях?

Комментарии (2)


  1. Flux
    31.12.2023 13:56
    +9

    transfer learning между датасетами

    scale через увеличение датасетов

    механизмы курации

    потенциал социального импакта

    Предлагаю вам еще немного потренировать вашу языковую модель, а то генерируются несвязные токены из разных языков а каждый абзац не имеет смысловой связи с другими абзацами и тем более с заголовком текста.
    AGI конечно вряд ли будет достигнут, но до уровня 11 класса точно дотянете при достаточном времени тренировки на Multi-gpu уроках русского языка.


    1. voneskinho Автор
      31.12.2023 13:56

      Если не учитывать язык и структуру, my fault, какие аргументы, что масштабирование потенциально не может вести к более универсальным навыкам?