IT-компании сейчас создают различные языковые модели, стараясь превзойти друг друга. Одна из таких организаций — корпорация Microsoft. Не так давно она представила модель Phi-2, при этом разработчики утверждают, что она равна или превосходит гораздо более масштабные проекты. Подробности — под катом.

Что это за модель такая от Microsoft?

Называется она Phi-2 и насчитывает около 3 млрд параметров. Если быть точными, то 2,7 млрд. Несмотря на то, что модели других компаний превосходят её по количеству параметров во много раз, Phi-2 может с ними конкурировать. Более того, опережать их по результатам прохождения ряда бенчмарков.

Если говорить о языковых моделях, то бенчмарки позволяют тестировать модели на способность к общим рассуждениям, а также пониманию языка, решению математических задач и генерации кода, причём весьма сложного.

Например, модель от редмондской компании такая же производительная, как Mistral, которая разработана Mistral AI. Она насчитывает свыше 7 млрд параметров. Есть ещё одна — её название Llama-2, создана она Meta Platforms и включает от 7 до 70 млрд параметров в зависимости от версии.

Что касается последней, то в ходе тестов на математические операции модель от Microsoft уступает лишь Llama-2 с 70 млрд параметров. При этом при работе с кодом она обходит большинство конкурентов. Не отстаёт она и в отношении других тестов. В СМИ уже прозвучала мысль, что, наверное, возможности языковых моделей не напрямую зависят от их размеров, раз уж Phi-2 настолько хороша. Но здесь, как всегда, есть нюанс.

Так в чём секрет?

По мнению специалистов, высокая производительность модели напрямую связана с отличным качеством данных, на которых она обучалась. В Microsoft эти данные подбирались для обучения своей модели логике и представлениям о «здравом смысле», что бы это ни значило для машины. Получается, что при минимуме данных авторам проекта удалось достичь максимума возможностей. Кроме того, они смогли добиться высоких показателей без применения метода подкрепления.

При его использовании применяется «ручная» проверка результатов. Если что-то не так, эксперты донастраивают модель самостоятельно. В целом, именно этот метод используется в большинстве проектов. А вот представители Microsoft нашли возможность обойтись без него. Причём модель смогла обучиться нейтральности и отсутствию «токсичности» по сравнению с другими проектами.

Также не использовались и методы инструкционной настройки (instructional tuning), что даёт возможность эффективно минимизировать проявления предвзятости и снижать риск токсичных выходных данных. Всё это делает Phi-2 одной из наиболее безопасных и этичных моделей в сфере ИИ.

Так, Phi-2 обходит по результатам бенчмарков своего прямого конкурента — модель Gemini Nano 2, проект от Google. В неё входит 3,2 млрд параметров. На данный момент эта модель самая производительная, её разработали для работы на смартфонах и других устройствах. Основная задача — «осмысление» текстов, их корректирование и адекватное общение с пользователями.

Стоит отметить, что Phi-2 — лишь один из этапов реализации проекта по созданию малых языковых моделей от корпорации Microsoft. Первая модель этой серии, Phi-1 с 1,3 млрд параметров, вышла ранее в этом году и была нацелена на задачи разработки на языке Python. В сентябре представлена Phi-1.5 с аналогичным количеством параметров, но обученная на новых данных, включая синтетические тексты, созданные с помощью программирования на естественном языке.

По мнению специалистов, модель от Microsoft — новое слово в машинном обучении. Phi-2 предоставляет дополнительные возможности разработчикам и исследователям из разных стран. Также этот проект можно назвать стимулом для развития всей отрасли.

А что у Google?

Корпорация Google совсем недавно представила мультимодальную модель ИИ, которую называет конкурентом GPT-4 от OpenAI. Она умеет обрабатывать текстовую, аудиоинформацию, изображения и видео.

На текущий момент есть три версии Gemini:

Ultra — флагманская модель с максимальными возможностями. Именно она показывает самую высокую производительность в сложных задачах, включая анализ и работу с несколькими модальностями. На её основе планируется запустить продвинутую версию чат-бота Bard Advanced. Ultra будет доступна лишь в 2024 году.

Gemini Pro — версия среднего уровня для более широкого круга задач. Она стала основой Google Bard. Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Чат-бот с Pro-версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Доступ к Pro-версии могут получить корпоративные клиенты Google и разработчики через API на платформах Google Generative AI Studio и Google Cloud Vertex AI начиная с 13 декабря.

Gemini Nano — это наиболее базовая версия, которая предназначена для локального применения на мобильных устройствах. Она будет доступна для пользователей на смартфонах Google Pixel 8.

Основные озвученные разработчиками модели преимущества: большая гибкость Gemini по сравнению с конкурентами, возможность работы с ИИ без подключения к интернету, а также бесплатный доступ к продвинутым функциям (что, вероятно, актуально на время тестирования Gemini).

В целом, моделей становится всё больше, конкуренция выше, так что, возможно, скоро мы увидим ещё одно «новое слово» в ИИ-отрасли.

Комментарии (10)


  1. Nurked
    11.01.2024 17:55
    +1

    Ба, подумать только! Если кормить компьютер правильными данными, он более охотно выдаёт правильные ответы.

    Могу только представить себе использование матмодели, для конденсации данных для обучения более продвинутой мат модели.

    Вспоминается песня написанная GlaDOS Aperture Science Psychoacoustic Laboratories под названием (Defun Botsbuildbots () [Botsbuildbots) ]


  1. EugeneH
    11.01.2024 17:55

    del


  1. EugeneH
    11.01.2024 17:55
    +1

    В статье не хватает ссылки на модель.


  1. MountainGoat
    11.01.2024 17:55

    Я услышал "Наш новый трактор пашет лучше, чем Нива, и лучше, чем их гибрид трактора с самолётом и скороваркой (но наш не летает и не варит)"


  1. EugeneH
    11.01.2024 17:55
    +2

    Погонял немного эту Phi-2, спасибо Майкам, что выложили всё на HF, в отличие от некоторых.

    Что можно сказать?

    Для 2.7B, конечно, хорошие результаты. Но ни о каком сравнении с Llama-2 70B говорить не приходится. Число параметров решает, чудес не бывает.

    В документации указана длина контекста 2048 токенов, но модель как правило сбивается уже в районе 1000, что типично и ожидаемо для микромоделей.

    Неквантованая модель занимает около 9ГБ VRAM, ждём когда добавят поддержку в llama.cpp и выложат квантовыные версии. Чем-то всё-таки притягательна идея крохотных LLM, которые можно запускать на чём угодно.

    Пример ответа на пустой промпт, <endoftext> после ~600 токенов:

    Topic: Mathematics--Logic--Logical Train of Thought
    Once upon a time, in a small town called Mathville, there lived three friends named Alice, Bob, and Carol. They were all passionate about mathematics and loved discussing logical train of thought. One sunny afternoon, they gathered at their favorite coffee shop to have their usual intellectual conversations.
    Alice, who was known for her logical reasoning, started the conversation by saying, "You know, Bob, I always solve math problems faster than you because I have a better understanding of the concepts."
    Bob chuckled and replied, "That's true, Alice. I admire your ability to grasp complex mathematical concepts quickly. It's like you have a natural talent for it."
    Carol, who was listening intently, chimed in, "Speaking of talents, did you know that the famous mathematician, Isaac Newton, was also a skilled musician? He composed beautiful symphonies in his free time."
    Alice nodded and added, "Yes, I've read about that. It's fascinating how people can excel in multiple fields. It just goes to show that our abilities are not limited to one area."
    Bob, intrigued by the conversation, asked, "Do you think it's possible for someone to be a genius in both mathematics and music?"
    Alice pondered for a moment and replied, "Well, it's highly unlikely. While some individuals may have a natural inclination towards both, it requires a significant amount of dedication and practice to excel in both fields."
    Carol, who had been silently listening, finally spoke up, "I believe that passion plays a crucial role in achieving greatness. If someone is truly passionate about something, they will put in the necessary effort to master it."
    Alice nodded in agreement and said, "Absolutely, Carol. Passion fuels our determination and motivates us to overcome challenges. It's what sets apart the average from the extraordinary."
    As their conversation continued, they delved deeper into the world of mathematics, discussing various logical train of thought and problem-solving techniques. They shared their knowledge and insights, each contributing to the intellectual growth of the group.
    Hours passed by, and the sun began to set, casting a warm glow over the coffee shop. Alice, Bob, and Carol bid farewell, promising to meet again soon for another stimulating conversation.
    As they walked out of the coffee shop, their minds filled with new ideas and perspectives, they couldn't help but feel grateful for their shared passion for mathematics and the logical train of thought that brought them together.
    And so, their journey of intellectual exploration continued, fueled by their curiosity and love for the world of numbers and logic.


    1. vassabi
      11.01.2024 17:55
      +1

      ну, 2.7В - это конечно "микромодель", но с другой стороны ее все-таки не позапускаешь "на чем угодно" :)
      кстати, пробовали https://huggingface.co/cloudyu/Mixtral_34Bx2_MoE_60B ?

      У нее неплохой рейтинг и она умеет очень неплохо генерировать и после 10к токенов.


      1. EugeneH
        11.01.2024 17:55
        +1

        Конкретно эту не пробовал, не знал про неё. Спасибо за наводку.

        А вот Mixtral-8x7B не впечатлил. Больше было похоже на просто 7B модель.

        Про что угодно, я имел ввиду, что ужатая в 4 бита модель будет занимать меньше 3 ГБ RAM, и её можно будет запустить и на распберри и на телефоне (не самом новом).

        Конечно, скажи мне кто года 3 назад, что модели размером с GPT-2 будут считаться "микро" и запускаться на кофеварках, я бы не поверил.


        1. vassabi
          11.01.2024 17:55
          +1

          ну микстрали есть разные. Во-вторых - некоторые нейронки плохо работают когда сильно пожаты. (например данный микстраль - лучше запускать на 4 бита и больше)

          кроме Mixtral_34Bx2_MoE_60B еще мне понравилась
          https://huggingface.co/sophosympatheia/Aurora-Nights-70B-v1.0
          она конечно тоже немаленькая (и поэтому медленная на моем железе), но она делает сравнимый вывод даже на 2 битах.

          А так-то да, гоняю сетки 7В - 13В (и иногда пожатые 30В), потому что "небольшие" :D

          (а год тому назад не поверил бы сам себе)


          1. EugeneH
            11.01.2024 17:55

            Ух ты, новая uncensored 70B модель с контекстом на 8к токенов. Это я люблю.

            Вообще семейство Llama-2 вроде бы почти не теряет в качестве генерации при сжатии до q5_k_s. По крайней мере, на бенчмарках разница на уровне погрешности. 4х битные тоже имеют хорошее соотношение цена/качество.


  1. EugeneH
    11.01.2024 17:55

    del