В deep learning за последние 10 лет произошла революция. В этом посте расскажем, почему это важно знать всем, на визуальных примерах, и рассмотрим перспективы на ресерч и внедрение моделей искусственного интеллекта, учитывающие социальный импакт моделей.
В области стратегических игр значимый результат был получен в 2016-2017 году, когда модель меньше чем за 3 дня обучения смогла дойти до уровня чемпиона мира в игре go.
Языковая модель gpt-3.5 показала результаты лучше половины экзаменуемых на большой части экзаменационных тестов. gpt-4 смогла улучшить результаты на тестах, например AP Calculus, с которыми gpt-3.5 справлялась хуже всех экзаменуемых.
Основной буст моделей искусственного интеллекта произошел благодаря увеличению вычислительных ресурсов и количеству используемых для обучения данных. На примерах ниже представлено, как влияет увеличение размера модели для генерации изображений на качество результата.
Foundational models
Deep learning получил развитие благодаря большим датасетам, развитию gpu.
Foundational models появились из deep learning благодаря transfer learning между датасетами, и scale через увеличение датасетов и еще большему развитию gpu. Multi-gpu обучение для трансформеров и увеличение датасетов позволило появиться более точному и расширенному внутреннему представлению данных в моделях, а также за последние несколько лет в 10 раз увеличилась пропускная способность и память в gpu.
Как тренируются foundational models - сначала используется self-supervised learning, чтобы создать представление данных, затем с помощью transfer learning модель адаптируется под определенную задачу с меньшим датасетом.
Эти модели имеют потенциал социального импакта, поэтому давайте разберемся в экосистеме, частью которой они являются.
На картинке выше показана экосистема, включающая в себя сбор данных, их обработку для моделей, обучение моделей, адаптацию под определенные задачи, создание приложений на основе моделей.
Данные для обучения - это ресурсы, созданные людьми. Приложения, созданные на основе моделей, также для использования людьми. Поэтому важнейшие элементы безопасности - это курация датасетов и исследование адаптации под разные задачи.
Читателю на размышление - какие механизмы курации уже применяются в gpt-4 и других больших языковых моделях?
Flux
Предлагаю вам еще немного потренировать вашу языковую модель, а то генерируются несвязные токены из разных языков а каждый абзац не имеет смысловой связи с другими абзацами и тем более с заголовком текста.
AGI конечно вряд ли будет достигнут, но до уровня 11 класса точно дотянете при достаточном времени тренировки на
Multi-gpuуроках русского языка.voneskinho Автор
Если не учитывать язык и структуру, my fault, какие аргументы, что масштабирование потенциально не может вести к более универсальным навыкам?