В английском языке, по разным оценкам от 150 до 450 тысяч слов (по данным Google), но GPT-3 знает только 50 000 слов. При этом для нас это совершенно не заметно. В чем здесь секрет?
GPT фактически работает на подсловах (= токенах) вместо слов.
В качестве примера возьмем слово «экстраординарный», GPT услышит [«экстра», «ординарный»]. Точно так же «гидроэлектростанция» будет звучать как [«гидро», «электро», «странция»].
Это позволяет GPT свободно общаться сохраняя в памяти ограниченный словарный запас.
Это также позволяет ему адаптироваться к новым словам, которые он никогда не видел в процессе обучения.
Например:
Я: «Что значит trumpified?»
GPT-3: «Термин «trumpified» (трампифицированный) не определен на момент прекращения моих знаний в сентябре 2021 года. Однако, учитывая контекст, если кто-то говорит, что он был «трампифицированным», это может означать, что он стал сторонником или последователь Дональда Трампа и его политических идеологий».
Вообще, процесс обучения ИИ крайне похож на процесс нашего обучения. Здесь достаточно много логики, а не просто работа с готовыми фактами.
Проверить как это выглядит можно здесь: https://lnkd.in/dSXmc7XE