Токенизатор ИИ / forpes.ru

Главная
Токенизатор ИИ

Токенизатор ИИ

28.06.2023 10:29

withannad2023 0 324 Источник

В английском языке, по разным оценкам от 150 до 450 тысяч слов (по данным Google), но GPT-3 знает только 50 000 слов. При этом для нас это совершенно не заметно. В чем здесь секрет?

GPT фактически работает на подсловах (= токенах) вместо слов.

В качестве примера возьмем слово «экстраординарный», GPT услышит [«экстра», «ординарный»]. Точно так же «гидроэлектростанция» будет звучать как [«гидро», «электро», «странция»].

Это позволяет GPT свободно общаться сохраняя в памяти ограниченный словарный запас.

Это также позволяет ему адаптироваться к новым словам, которые он никогда не видел в процессе обучения.

Например:

Я: «Что значит trumpified?»

GPT-3: «Термин «trumpified» (трампифицированный) не определен на момент прекращения моих знаний в сентябре 2021 года. Однако, учитывая контекст, если кто-то говорит, что он был «трампифицированным», это может означать, что он стал сторонником или последователь Дональда Трампа и его политических идеологий».

Вообще, процесс обучения ИИ крайне похож на процесс нашего обучения. Здесь достаточно много логики, а не просто работа с готовыми фактами.

Проверить как это выглядит можно здесь: https://lnkd.in/dSXmc7XE

Токенизатор ИИ

Комментарии (0)