В английском языке, по разным оценкам от 150 до 450 тысяч слов (по данным Google), но GPT-3 знает только 50 000 слов. При этом для нас это совершенно не заметно. В чем здесь секрет? 

GPT фактически работает на подсловах (= токенах) вместо слов.

В качестве примера возьмем слово «экстраординарный», GPT услышит [«экстра», «ординарный»]. Точно так же «гидроэлектростанция» будет звучать как [«гидро», «электро», «странция»].

Это позволяет GPT свободно общаться сохраняя в памяти ограниченный словарный запас.

Это также позволяет ему адаптироваться к новым словам, которые он никогда не видел в процессе обучения.

Например: 

Я: «Что значит trumpified?»

GPT-3: «Термин «trumpified» (трампифицированный) не определен на момент прекращения моих знаний в сентябре 2021 года. Однако, учитывая контекст, если кто-то говорит, что он был «трампифицированным», это может означать, что он стал сторонником или последователь Дональда Трампа и его политических идеологий».

Вообще, процесс обучения ИИ крайне похож на процесс нашего обучения. Здесь достаточно много логики, а не просто работа с готовыми фактами. 

Проверить как это выглядит можно здесь: https://lnkd.in/dSXmc7XE

Комментарии (0)