П維чему нейро考ети дел思ют так / forpes.ru

Главная
П維чему нейро考ети дел思ют так

П維чему нейро考ети дел思ют так +286

11.06.2026 08:00

inkedsymon 116 62000 Источник

Если вы хоть раз тестировали локальную модель (да и нелокальную тоже) и замечали, как она посреди нормального текста вдруг выдает иероглиф, то заголовок статьи вам не покажется странным. И к концу будет ясно, что именно происходит когда ИИ-шка вам подсовывает иероглифы.

Статью я решил поделить на два уровня. Первая часть (без которой сложно понять вторую) — для тех, кто слышал слово «эмбеддинг», но не трогал его руками: разберем на пальцах и со стрелочками, что модель держит внутри своего цифрового серого вещества, в общем объясню простые вещи простыми словами. Вторая часть — для тех, кому интересно копнуть чуть дальше базы: туда я поместил grokking, фурье-частоты и суперпозицию, и там мы вытащим реальное пространство обученной модели и посмотрим, как оно устроено.

Часть 1. Для тех, кто (трогал траву) слышал слово «эмбеддинг»

Модель не видит букв

Первое, что стоит обозначить: модель не работает с текстом в привычном нам с вами смысле (даже если название «большие языковые модели» заставляет вас думать обратное). Сначала текст режется на токены — на куски из символов. Иногда токен это целое слово, а иногда и полслова. Каждому токену присвоен номер, и дальше внутрь модели идет только последовательность номеров. Даже слова «токен» для нее не существует, зато есть условный токен номер 8421.

Но с номерами тоже не выйдет нормально работать, ведь номер — это просто бессмысленный ярлык: токен 8421 не «больше» и не «лучше» токена 8425. Поэтому каждому токену сопоставляют вектор — список из нескольких десятков или сотен чисел. Вот этот список и называется эмбеддингом.

Вектор — это просто стрелка

Не пугайтесь слова «вектор». Вектор из двух чисел, например (3, 5) — это стрелка из начала координат в точку (3, 5): три базисных (единичных) вектора вправо, и пять вверх.

Вектор из трех чисел — стрелка в пространстве. Вектор из 128 чисел — стрелка в 128-мерном пространстве, вот только его невозможно представить (углеродным формам жизни уж точно, зато кремниевым…), но проводить расчеты с ним в его пространстве все равно можно: есть длина стрелки, есть направление, есть угол между двумя стрелками.

Вот так выглядят векторы чисел в нашей будущей модели, спроецированные на плоскость:

Каждая стрелка соответствует одному числу. Смысл числа теперь в том, куда смотрит стрелка. И вот это «куда смотрит» модель определяет сама.

Откуда у стрелок берется направление

Тут самое важное место первой части. В начале обучения все эти векторы случайные. Каждому токену выдали стрелку, смотрящую в произвольную сторону (чистый шум и никакого смысла). Если в этот момент посмотреть на пространство, это просто облако точек без структуры.

Смысл появляется во время обучения. Модель решает свою задачу, ошибается, и после каждой ошибки чуть-чуть подкручивает векторы, чтобы в следующий раз ошибаться меньше. Миллионы таких подкручиваний, и стрелки (которые были случайными, напоминаю) разворачиваются в осмысленные — для нас и для модели — стороны. Похожие по роли токены начинают смотреть в близкие стороны, а разные — соответственно в разные.

Это главная идея, на которой держится вся тема: модель расставляет точки в пространстве так, чтобы геометрия этого пространства отражала смысл. Близко = похоже, а направление = свойство.

Дальше я покажу это на работающей модели. Если первая часть зашла и хочется глубже, то добро пожаловать в кроличью нору.

NVIDIA L4 в облаке Selectel от 22,61 ₽/час

Для запуска современных языковых и мультимодальных моделей.

Подробнее →

Часть 2. Для тех, кто хочет копнуть поглубже

Эксперимент: учим модель складывать по модулю

Давайте возьмем задачу попроще, чтобы мы смогли препарировать нашу модель. Берем числа от 0 до 52 и учим модель складывать их по кругу. То есть у нас будет круг из 53 делений: дошли до 52, и следующий шаг возвращает в 0. Математики пишут это как (a + b) mod 53, но за значком mod прячется та самая идея циферблата.

Почему именно 53, а не круглые 50 или 100? Потому что 53 — простое число, оно не делится ни на что, кроме себя и единицы. Из-за этого у модели не будет соблазна схитрить и разбить круг на аккуратные половинки или четвертинки.

Сам опыт, о котором идет речь, много раз показывали в англоязычном интернете. Но по-русски, чтобы с кодом и анимацией и разжевано я ничего толкового не нашел, поэтому собрал свое.

Модель я нарочно сделал примитивной: только таблица стрелок из первой части плюс пара слоев, которые перемалывают числа. Никакого внимания и никаких трансформеров для большей наглядности работы модельки. И половину всех пар чисел я показываю модели на обучении, а вторую половину прячу и держу для экзамена.

import numpy as np, torch, torch.nn as nn
import matplotlib.pyplot as plt
from matplotlib import cm

torch.manual_seed(0); np.random.seed(0)

N, DIM, STEPS = 53, 128, 4000
a = np.repeat(np.arange(N), N); b = np.tile(np.arange(N), N)
A = torch.tensor(a); B = torch.tensor(b); Y = torch.tensor((a + b) % N)

idx = np.random.permutation(len(a)); cut = len(a) // 2
tr = torch.tensor(idx[:cut])

class Model(nn.Module):
    def __init__(s):
        super().__init__()
        s.emb = nn.Embedding(N, DIM)
        s.mlp = nn.Sequential(nn.Linear(2*DIM,256), nn.ReLU(),
                              nn.Linear(256,256), nn.ReLU(), nn.Linear(256,N))
        
    def forward(s, a, b):
        return s.mlp(torch.cat([s.emb(a), s.emb(b)], -1))

m = Model()
opt = torch.optim.AdamW(m.parameters(), lr=1e-3, weight_decay=1.0)
lossf = nn.CrossEntropyLoss()

for step in range(STEPS+1):
    loss = lossf(m(A[tr], B[tr]), Y[tr])
    opt.zero_grad(); loss.backward(); opt.step()

E = m.emb.weight.detach().numpy(); X = E - E.mean(0); ns = np.arange(N)

k = max(range(1, N//2+1),
        key=lambda k: np.sum((np.cos(2*np.pi*k*ns/N) @ X)**2) +
                      np.sum((np.sin(2*np.pi*k*ns/N) @ X)**2))

c, s = np.cos(2*np.pi*k*ns/N), np.sin(2*np.pi*k*ns/N)
coef = np.linalg.lstsq(X, np.stack([c, s], 1), rcond=None)[0]
P = X @ coef

plt.style.use("dark_background")
fig, ax = plt.subplots(figsize=(7,7))

ax.plot(P[:,0], P[:,1], color="#3a3a55", lw=.8)
ax.scatter(P[:,0], P[:,1], c=cm.twilight(np.linspace(0,1,N)), s=130)

for i in range(N):
    ax.annotate(str(i), P[i], color="white", fontsize=7, ha="center", va="center")

ax.set_aspect("equal"); ax.set_xticks([]); ax.set_yticks([])
plt.tight_layout(); plt.savefig("ring.png", dpi=130); print("freq k =", k)

Вес weight_decay не для красоты. Без сильной регуляризации модель просто выучит обучающие пары и не станет строить никакую структуру — ей это будет не нужно. Под регуляризацией здесь понимается искусственный штраф за сложность, который притягивает значения внутренних параметров модели к нулю и не дает им бесконтрольно расти.

Регуляризация давит на зубрежку и заставляет искать обобщающее решение. Дело в том, что для запоминания тысяч отдельных фактов модели требуются огромные рандомные веса.

Штраф же принудительно сжимает их, буквально вынуждая систему искать самое компактное и красивое математическое правило. Именно поэтому здесь и проявляется grokking — озарение.

Зубрежка, плато, озарение

Давайте теперь следить за двумя цифрами по ходу обучения:

первая — насколько хорошо модель отвечает на тех парах, что ей показывали;
вторая — насколько хорошо она отвечает на спрятанных парах.

И вот что мы увидим. На показанных парах модель почти сразу отвечает отлично — ну еще бы, она их просто запомнила. А на спрятанных долго не может ничего, тычет наугад, цифра лежит на нуле. Логично: заученное знает, а правил не понимает, поэтому и валится.

А потом идет озарение. Где-то после полутора-двух тысяч шагов цифра на спрятанных парах вдруг резко идет вверх и догоняет показанные.

Вот как все это выглядит:

Никто модели ничего не подсказывал в эту секунду. Она просто достаточно долго крутилась под прессом регуляризации, и в какой-то момент зубрежка надломилась и превратилась в понимание (или просто в grokking).

А что в эту же секунду происходит с эмбеддингом?

Числа складываются в кольцо

Помните, в начале все стрелки смотрели куда попало? Так вот, к моменту озарения числа перестают быть стохастически направлены и встают аккуратным кольцом:

Посмотрите внимательно на порядок. Числа по кругу идут не подряд, а через постоянный шаг, и если соединить их линией, рисуется многоконечная звезда. Модель сама поняла, что числа замкнуты в круг, и разложила их по окружности, потому что на круге складывать проще всего. Сложить два числа теперь значит просто повернуться на два угла и посмотреть, куда мы попали.

Никто не давал модели окружность. Ей вообще не давали геометрии, только пары чисел и правильные ответы. Круг она построила сама, потому что для модульного сложения это вычислительно самое дешевое представление.

Оговорка про частоту

Теперь надо прояснить одну вещь, иначе картинка выйдет приукрашенной. Стрелки у нас обитают не на плоскости, а в пространстве из 128 направлений. А я показываю вам плоскую картинку. Все потому что я взял это многомерное облако и спроецировал его на плоскость. И проекцию я выбрал не случайную, а ту, на которой кольцо видно отчетливее всего.

И тут, прошу внимания — главная мысль второй части. Кольцо не одно. Если аккуратно разобрать на сколько разных кругов модель разложила свои числа, окажется, что кругов сразу несколько, и они вложены друг в друга в одном и том же пространстве.

Один круг с крупным шагом, другой с мелким, третий с еще каким-то. Если уж и спускаться в кроличью нору с часами, то представьте циферблат, на который наложили второй циферблат с другим числом делений, а сверху третий, и все они работают одновременно. Модель считает сложение сразу на всех этих часах параллельно, а потом сводит ответы в один.

У этого тоже есть имя в науке. Разложить сигнал на набор круговых волн разной частоты — это и есть преобразование Фурье, та самая штука, которой раскладывают звук на ноты. Модель, по сути, переоткрыла Фурье сама, никто ее этому не учил. Именно это Nanda и соавторы разобрали в своей работе про grokking.

А на плоской картинке мы видим только один круг, самый громкий. Остальные просто лежат в других проекциях того же пространства, и на одной плоскости их сразу не показать.

Зачем это все, если модель игрушечная

Справедливый вопрос. У нашей крохи 128 направлений на 53 числа — вроде бы вагон места, можно было бы каждому числу выделить отдельную полку и не мучиться. А она все равно не стала, а упаковала числа внахлест в несколько кругов. Запомните этот факт, он сейчас выстрелит.

Теперь давайте подумаем о настоящих, больших LLM-ках. Сколько всего им надо удержать в голове: каждое слово языка, каждый оттенок смысла, грамматику, факты про мир, имена, даты. Этого добра в миллионы раз больше, чем у модели есть направлений в пространстве. Выделить каждому понятию по личной полке физически невозможно.

И что делает модель? Ровно то же, что и наша: кладет несколько смыслов внахлест. Это называют суперпозицией, когда на одном месте лежит сразу несколько вещей, и нужную достаешь по точному адресу.

Отсюда же вытекает и другой факт. Хочется ведь ткнуть пальцем в один нейрон модели и сказать: вот этот отвечает за белки, а вот тот за глаголы — а не выйдет. Тот же самый нейрон у вас будет отвечать и за белки, и заодно за что-нибудь про юридические тексты, и еще за пару вещей, между собой никак не связанных, которые модель просто сложила на одну полку из экономии. Распутать этот клубок обратно — тема для отдельной статьи.

А вывод простой и он переносится с нашей игрушки на любую серьезную модель. У нее (в смысле, у серьезной модели) смыслов всегда больше, чем измерений в пространстве, поэтому она держит их внахлест, а различает по тому, куда смотрит вектор.

Возвращаемся к иероглифам

Вот теперь, со всем этим багажом, понятно, чем опасен недоученный токен. Это кусочек, который в словаре модели есть, но в текстах, на которых ее учили, почти не попадался. Так бывает с редкими иероглифами и обрывками юникода, когда корпус собран из кучи языков вперемешку. Раз примеров почти не было, модель не получила сигнала, куда его двигать, и его стрелка так и осталась торчать там, где ее бросили в самом начале.

Пока этот токен не всплывает, все тихо. Но вспомните, как модель вообще выбирает следующий кусочек текста: она прикидывает вероятности сразу для всего словаря и тянет жребий.

Обычно правильный кусочек забирает себе почти всю вероятность, и жребий честно выпадает на него. А вот на стыке языков или в каком-нибудь редком, кривом контексте модель плывет, вероятности размазываются тонким слоем по множеству вариантов — и в этом хвосте оказывается наш иероглиф. Достаточно одного неудачного броска жребия, чтобы он вылез наружу прямо посреди текста. А дальше хуже: модель видит его уже как часть написанного и может с этого места поехать, и дальше.

Комментарии (116)

411
11.06.2026 08:12
#30096993
Нет никаких нейросетей, есть только очень много китайцев, которые генерят ответ на той стороне. Отсюда и иероглифы.
1. Visualynx
  11.06.2026 08:12
  #30097267
  Молчи, лаовай
1. AC_74
  11.06.2026 08:12
  #30097433
  За хороший ответ дают миску риса, пять минут с кошкой-женой и чувство гордости за партию.
  1. nickolaym
    11.06.2026 08:12
    #30098045
    Возможно, что чувство гордости за партию гоминьдан. Мы ведь не можем уверенно утверждать, что это континетнальные китайцы.
    
    vadimr
    11.06.2026 08:12
    #30098111
    Ну слово "П維чему" точно выдаёт гоминьдан :) Дело раскрыто!
    
    (иероглиф wei в традиционном написании)
    
    AlexeyK77
    11.06.2026 08:12
    #30098193
    за раскрытие гоминьдановского шпиона, ваш лимит на кошко-жену увеличен до часа!
    С успехом вас, товарищ!
    
    Moog_Prodigy
    11.06.2026 08:12
    #30098694
    А потом удивляются, откуда 2 миллиарда...
    
    Я скорее недоумеваю, откуда столько шпионов. И как эта кошко-жена успевает?
    
    Wesha
    11.06.2026 08:12
    #30099122
    И как эта кошко-жена успевает?
    
    (Заговорщическим шёпотом:) Их там двое!
    
    MTyrz
    11.06.2026 08:12
    #30104400
    Так лимит же увеличен, а не кошко-жена. Когда ваша очередь подойдет, тогда и используете.
    
    vdudouyt
    11.06.2026 08:12
    #30098492
    Это если считать, что обязательно китайцы - в языке одной соседней страны известной своими автомобилями все эти 3 иероглифа так же имеются ))
1. AWE64
  11.06.2026 08:12
  #30098366
  так и есть. машина бы выдавала ответ сразу, а эти печатают как человек. кого надурить пытаются???
1. nataku
  11.06.2026 08:12
  #30100384
  AI - Asian Intelligence
1. dartraiden
  11.06.2026 08:12
  #30102964
  Теперь понятно и то, почему DeepSeek не может ответить о событиях на площади Тяньаньмэнь. Китайцы просто не знают, что там произошло.
  1. Wesha
    11.06.2026 08:12
    #30103906
    Китайцы просто не знают, что там произошло.
    
    Да ладно, не льстите себе — Вы тоже не знаете.

AcckiyGerman
11.06.2026 08:12
#30097305
Как раз вчера на сложном вопросе Qwen правдоподобную чушь генерировал и парочку иероглифов среди текста выдал. Я подумал что он просто на китайском думает, но после этой статьи понимаю, что это как раз показатель неуверенности сети в том, о чём она пишет.

Запрос: найди исторические легенды связанные с городом Weinsberg (74189) в Германии

Отлично. Давайте найдем исторические легенды, связанные с Вайнсбергом. Название Weinsberg сразу вызывает самую известную немецкую легенду — Легенда о Вайнсбергском мосте («Sage vom Weinsberger Gänsemarsch») — также известную как «Прыжок через Рейн» (Rheinsprung).

Легенда: В 1140 году, во время борьбы между Генрихом Львом (Генрихом Хохенштауфеном) и королем Конрадом III, город Вайнсберг, верный Гогенштауфенам, был осажден войсками союзников Генриха Льва. Когда城破在即，城里的妇女问她们的丈夫：“Will ihr die Frauen auch verlieren?” (Неужели вы хотите потерять и наших женщин?). Мужчины ответили: “Und was solln wir mit den Frauen anfangen?” (Что мы будем делать с женщинами?). Женщины сказали: “Lasst uns die Ströck finden” (Дайте нам найти лазейки). В результате женской хитрости все женщины города были отпущены. Когда победители захватили город, женщины с криком «Gänsemarsch!» (гусиным маршем!) бежали к мосту, заставляя союзников думать, что это группа гусей. Когда они добежали до края долины, одна женщина (Ида фон Вайнсберг) бросилась вниз и на другом краю долины, спасаясь от погони.

Чушь, но не полная. Weinsberg это реальный город, который действительно был осаждён Конрадом III в 1140 и там случилось интересное событие (информация с википедии):

Предание гласит, что король Конрад III (1140), раздраженный упорным сопротивлением осаждаемого им Вайнсберга, приговорил к смерти все мужское население и только женщинам позволил свободно оставить город, взяв с собой то, что они смогут унести на себе. Женщины вынесли на спинах своих мужей и таким образом спасли их.

С большой вероятностью вы даже видели пересказ этой легенды в известной серии рекламных роликов банка Империал в 90х.

Очевидно, что эта история попадала в массив текстов для обучения модели, но от реальности осталась только тень (очень немного векторов, в отличии от Конрада III который в куче текстов на википедии есть, и хорошо прописался в векторах) и модели приходиться галлюцинировать всё остальное на низких вероятностях, что и проявляется в появлении иероглифов, судя по статье.

В общем хороший маркер чуши в копилку, спасибо.
1. Medeyko
  11.06.2026 08:12
  #30097777
  И иероглифы - тоже не полная чушь. " 城破在即，城里的妇女问她们的丈夫" переводится Яндекс.Переводчиком как "город был готов взорваться, и женщины в городе спросили своих мужей".
  1. vadimr
    11.06.2026 08:12
    #30097977
    А сломался Qwen, возможно, на том, что в этом контексте нелегко принять решение, как перевести 妇女 – как просто женщин (стилистически уместно) или как замужних женщин (точно по смыслу слова и ситуации).
1. sashape89
  11.06.2026 08:12
  #30100762
  Qwen надо довольно настойчиво повторять, чтобы отвечал на русском, иначе он так и хочет родной китайский в массы нести. Но что-то мне подсказывает, что статья немного про другое.

e5004c
11.06.2026 08:12
#30097321
Тоже замечал, иероглиф у меня вылез один раз, в основном вставляет английские буквы в русский, и чаще всего это делает клод, у чатагпт не замечал. Спасибо за обоснование! Но китайский след, мне тоже не дает покоя, хоть я бы легче поверил в индийский.
1. ksbes
  11.06.2026 08:12
  #30097441
  Китайских “редких иероглифов” намного больше чем любых других “редких символов” в алфавитах. В индусском всего с полсотни, ну с сотню символов можно накопать против десятков тысяч китайских.
  1. equeim
    11.06.2026 08:12
    #30099446
    Потому что китайская письменность не фонетическая, это не алфавит.
1. AC_74
  11.06.2026 08:12
  #30097443
  У меня Codex сломал чат недавно так, в сложной теме, где нужно было разобраться... И очень долгий чат, когда шанс получить ответ на английском или с иероглифами, без учёта промпта и инструкции растёт
1. SlimShaggy
  11.06.2026 08:12
  #30097459
  Обычно общаюсь с моделями на английском и не разу не видел иероглифов ни у Клода, ни у ChagGPT. А вот у китайских моделей и Perplexity (который вероятно под капотом использует китайские модели) частенько вылезают.
  1. Gasnopf
    11.06.2026 08:12
    #30098356
    Чатгпт в первых версиях тоже регулярно улетал в галлюцинации с арабской вязью, просто они быстрее всех допилили рлхф и затюнили модель
1. unclejocker
  11.06.2026 08:12
  #30097505
  Мне дипсик в Китае вообще на чистом китайском все время отвечал, на каком языке вопрос не задам. "Я же вижу что ты местный!". Приходилось все время писать "отвечай на русском".
  1. MountainGoat
    11.06.2026 08:12
    #30097985
    Если речь про вебинтерфейс, то там же целая портянка к вашему запросу приклеивается. И вполне возможно, что язык этой портянки зависит от GeoIP запроса.
    
    Стоп, а чего гадать то...
    
    Зашёл в чат с Французского IP, затем с Российского. Задал один и тот же вопрос: "Q=IR2?" Получил ответ на английском и на русском.
    
    Так что да, с точки зрения модели вы перед вашим вопросом пять минут трындели на качественном китайском, так что сомнений нет, что вы местный.
    
    unclejocker
    11.06.2026 08:12
    #30098023
    Да это очевидно.
    
    Moog_Prodigy
    11.06.2026 08:12
    #30098766
    Но все же, что бы там не приклеивалось, и дипсик и квен - обе китайские. Квен частенько сыпет иероглифами (особенно в ризонинге, там вся портянка может быть на китайском), а дипсик ооочень редко. Разница примерно в тысячу раз, прикинул.
    
    Самое веселое, зачастую это происходит прям как в заголовке статьи. Вроде бы и есть иероглифы, вроде бы не знаешь китайского, а читаешь нормально. Как в той обучалке, когда русский текст понемногу перемежается английскими словами или слогами, и чем дальше читаешь, тем больше английских слов и меньше русского. Вместо английских слов можно хоть клинопись подставить. Подход вполне рабочий.
    
    С локальными моделями та же ситуация, причем чем меньше модель, тем более она склонна срываться на иероглифы, англ текст, или нечто типа эсперанто.
    
    dvvarna
    11.06.2026 08:12
    #30099154
    У меня Qwen на долгих чатах часто в рассуждениях переходит на китайский, но отвечает на русском.
    
    Altair2021
    11.06.2026 08:12
    #30102484
    У дипсика другая проблема -- он часто самопроизвольно сваливается в китайский при ответе, независимо от того, на русском или английском запрос. Заметил, что триггером почти всегда являются результаты поиска на китайском. Причём что 3.2 этим страдал, что v4 страдает
1. APetrMP
  11.06.2026 08:12
  #30097643
  Интересно! Пришла мысль: а все ли буквы в русских сгенерированных текстах - "кириллица"? не проскочит ли в слове "мама" латинская "а"?
  1. kryvichh
    11.06.2026 08:12
    #30098504
    Маловероятно. Скорее мелкая квантованная модель вставит слово "mom" в русский текст. Поэтому и такой текст как в заголовке у автора вряд ли увидите, со вставленными отдельными иероглифами. Но вот вставки целых слов или фрагментов (окончание, корень) на китайском или английском - вполне.
  1. dsrk_dev
    11.06.2026 08:12
    #30098876
    Не проскочит, потому что токенизатор бьет слова не на буквы, а на смысловые куски, в ангийском языке одно слово это 1-2 токена, в русском из-за родов/спряжений побольше, но это всё ещё несколько буков.
    Кейс с кривимы токенизаторами не знающими про русский рассматривать не будем.
    Ровно из-за этого кстати БЯМ так сложно считать колво букв в словах
    
    APetrMP
    11.06.2026 08:12
    #30098968
    Оно как бы и так... Но я встречал ситуации (сгенерированные изображения), когда типа слово на вывеске состоит из осмысленного русского корня и бессмысленного суффикса. Почему бы суффиксу не быть "иероглифом". А когда они еще и неотличимы визуально, то тем более. Отсюда и предположение о том, что подобное могло бы случиться в текстах. Но это так, объяснение происхождения гипотезы.
  1. rPman
    11.06.2026 08:12
    #30100616
    llm-ки в теории могут вместо пробела вставлять   символ unicode
    
    я как то видел в статье от яндекса на хабре, вся покрыта неразрывными пробелами, наверное боятся что их контент украдут, и помечают так

arslankarimov079
11.06.2026 08:12
#30097499
Я сначала думал, что это баг конкретной модели или кривой промпт

Del137
11.06.2026 08:12
#30097595
А у меня так обычно глючит квен или дипсик, думал их артефакты, а оно вон как, спасибо!

vadimr
11.06.2026 08:12
#30097607
В отличие от вашего заголовка, китайские нейросети обычно выдают осмысленные иероглифы. Вы же вот считаете для себя возможным на полном серьёзе писать в русском тексте про grokking. Просто китайский язык у нас пока знают меньше, чем английский.

Часто встречается, например, в выдаче модальный глагол 是，которому вследствие широты понятия нет прямого аналога в русском языке. Или, допустим, у русских людей вообще не бывает эмоции 高兴，как таковой (условно это уважительная радость), а потому и русского названия для неё. И таких примеров бесчисленно много, прямой перевод с китайского языка на индоевропейские крайне сложен.

В общем, нормальный русско-китайский суржик, иногда даже встречаются в нём меткие термины. Модель лепит русские приставки и суффиксы с окончаниями к китайским корням. В русской диаспоре в Китае легко такое же услышите среди живых людей.
1. leslie500
  11.06.2026 08:12
  #30097935
  Поддерживаю. Когда попадались иероглифы, и я не мог понять их значение по контексту, переводчик давал подходящее по смыслу слово. Однако Deepseek давно так не чудит, видимо, совершенствуется.
1. MountainGoat
  11.06.2026 08:12
  #30098041
  “请赐予此男子一猫为妻！”
  
  Давным давно экспериментировал с полудохлыми 8B моделями. При превышенной температуре пара из них начинала вставлять немецкие словечки. Полез в историю - и правда в цепочке дообучений были немцы.
  1. Metotron0
    11.06.2026 08:12
    #30098518
    При превышенной температуре пара
    
    Я сперва подумал, что про пар высокой температуры — это какой-то сленг.
    
    cruiseranonymous
    11.06.2026 08:12
    #30099096
    Да даже не особо сленг - просто из совсем другой области, не нейросеточной. Но как понятие - существует.
    
    aol-nnov
    11.06.2026 08:12
    #30101004
    у вас с @cruiseranonymous токенизатор слабенький просто )))
    
    При превышенной температуре пара из них
    
    попробуйте распарсить “два сапога пара” и результат парсинга прилепить к исходной фразе. будете немало удивлены
    
    Metotron0
    11.06.2026 08:12
    #30103484
    Я читаю последовательно. Также я знаю, что люди иногда ошибаются, а иногда за них пишет автодополнение. Поэтому, дочитав до "начинала вставлять", я остановился и начал прикдывать, может быть, там "из них начинало вставлять" или "их начинало вставлять" или "из них начиала выявлять", или "из них начинала [любое другое слово на в..ть]".
    Представьте, что температура пара — это такой сленг, описывающий нейросети. Я же знаю, что у них есть какая-то температура, хоть и не знаю, что это такое. Может быть, уже есть что-то, что называют паром, температуру которого можно регулировать. И вот, если температура пара превышена, то из нейросетей начинают валить немецкие словечки.
    
    Не каждый айтишник разбирается в настройках нейросетей. Я знаю про то, что есть набор входных числовых значений, есть скрытые слои с множителями и функцией активации, могут быть bias-значения, которые просто отдают какое-то постоянное значение. Но я не знаю, что из этого называют температурой, не следил за этим, потому что у меня уровень математики не профильный, а они довольно быстро от простых сеток вида "на сколько процентов это кошка?" ушли в каки-то там автоэнкодеры и прочее, куда нужно прямо научно погружаться, чтобы понимать.
    
    Darkness_Paladin
    11.06.2026 08:12
    #30103922
    Я читаю последовательно.
    
    Все читают последовательно, даже азиаты. Но в русском может языке слов меняться порядок, поэтому парсить предложение нужно только после того, как вы его полностью прочитали в буфер.
    
    Впрочем, автор фразы тут ошибся: здесь при наличии составного подлежащего ("пара из них"), обстоятельственный оборот ("при превышенной температуре") следовало отделить от него запятой, чтобы разрушить случайно получившееся на их стыке словосочетание "температура пара".
    
    Metotron0
    11.06.2026 08:12
    #30107254
    У меня эвристика не бесконечной вложенности, и если окажется, что в предложении два, а то и три ошибочно написанных слова, то я не смогу исправить все сразу, потому что количество вариантов, которые нужно будет одновременно перебирать, резко вырастет, поэтому мне удобно последовательно искать вариации слов, которые на мой взгляд написаны с ошибкой или ломают смысл, чтобы потом, починив переднюю часть, двигаться дальше, а оттуда уже, если смыл слова потеряется, можно вернуться обратно к первой ошибке и переделать её под другой смысл, как и получилось с паром, но сперва всё же пришлось долго подумать над ним.
    
    Это всё было одно предложение. Интересно, оно взелет в ваш буфер?
    
    Darkness_Paladin
    11.06.2026 08:12
    #30107652
    Это всё было одно предложение.
    
    Нет. Это ШЕСТЬ простых предложений, склеенных в одно сложносоставное. Во времена толстого, умение так делать считалось среди графоманов и любителей их творчества признаком хорошей грамотности и большого ума, но сейчас такое считается почти неприличным.
1. EvilTeacher
  11.06.2026 08:12
  #30098286
  Ну а геометрию у нас знают (и понимают) намного мешьше (и хуже), чем китайский язык.... Упорное стремление называть окружность кругом хорошо это демонстрирует.
  1. Darkness_Paladin
    11.06.2026 08:12
    #30098866
    Окружность -- это воображаемая фигура, почти нигде, кроме учебников, не существующая. Если вы возьмёте циркуль и воспользуетесь им по назначению -- на бумаге у вас получится не окружность, а символизирующий её круг.
    
    Тут терминологическая проблема. В специальном геометрическом языке "круг" -- это часть плоскости, ограниченная окружностью, а "окружность" -- это замкнутая линия шириной в одну точку (то есть БЕЗ ширины), все точки которой лежат на одинаковом расстоянии от центра -- а в "общеупотребительном языке" слова "окружность" вообще нет, кругом может называться и круг, и диск, и окружность, и даже сплющенный цилиндр (гуглить "круг сыра").
    
    PereslavlFoto
    11.06.2026 08:12
    #30100472
    Вот не надо так. Потому что — круг сыра находится в плоскости сыра. А плоскость сыра, разумеется, толстая.
1. Gasnopf
  11.06.2026 08:12
  #30098382
  Помню как деды на форумах воевали за "маршрутизатор" вместо роутера. В итоге все равно все говорят роутер, профессиональный сленг сам фильтрует удобное
  1. vtal007
    11.06.2026 08:12
    #30098502
    Ну, маршрутизатор это нечто "общее, задающий маршрут". На должность похоже :) - а роутер - это роутер
    
    кстати, в английском кажется читается иначе
    
    особо наверно забавно носителям языка узнавать, как в русский язык проникают английские слова, с иным прочтением, иным смыслом
    
    vadimr
    11.06.2026 08:12
    #30098526
    В официальной русской документации роутер принято переводить именно как "маршрутизатор". Даже гугль так переводит.
    
    vtal007
    11.06.2026 08:12
    #30098566
    в чеке на мышь из какого-то сетевого магазина тоже писалось "манипулятор типа мышь"
    
    этот канцелярит нормально для официоза, но не для реальной жизни
    
    p.s достал коробку еще не распечатывал, от роутера хуавей Ax1 lite - пишут "роутер" на коробке. Но что с них взять - китайцы
    
    vadimr
    11.06.2026 08:12
    #30098636
    Да китайцы вообще не парятся. Они и 华为（"процветание через действие" ) пишут на русском как Huawei, хотя, как говорится, "хорошую вещь хуавеем не назовут", и латиница в русском – совсем не то же самое, что пиньинь в китайском.
    
    dartraiden
    11.06.2026 08:12
    #30103014
    В быту при слове "маршрутизатор" представляется что-то такое корпоративное, большое с рядами портов. То есть, свич.
    
    А "роутер" это такое небольшое, домашнее, с вайфаем.
    
    Metotron0
    11.06.2026 08:12
    #30103502
    Это Wi-Fi-роутер, а есть ведь и проводной. Я довольно долго использовал связку точки доступа и проводного роутера. Так сложилось.
    
    Metotron0
    11.06.2026 08:12
    #30098528
    кстати, в английском кажется читается иначе
    
    https://translate.google.com/?sl=en&tl=ru&text=router&op=translate
    
    Я бы не сказал, что сильно иначе, но в русском ютубе от некоторых порой слышу "раутер" и "рутер". Видимо, обучались на разных диалектах.
    
    vtal007
    11.06.2026 08:12
    #30098616
    я послушал.. ну это хз какой акцент там женщина произносит что-то вроде "рыитя"
    
    в яндексе произносит явно "рыытя" именно двойное ыы
    
    https://yandex.ru/search/?from=chromesearch&clid=2224314&text=translate&lr=213
    
    Хотя транскрипция вроде руутэ? [ˈruːtə]
    
    у нас заимствовано "как прочитали, так и говорим"
    
    Metotron0
    11.06.2026 08:12
    #30098674
    А я в яндексе слышу рАутр, с английскими р, без колебаний кончика языка, вообще не слышу ы.
    
    Blizzaga
    11.06.2026 08:12
    #30099772
    /ə/ — это не "э", а шва, примерно так произносятся чаще всего (но не всегда) в русском безударные "а" и "о" (как в окончании слова "корова", например). "Router" в британском произносится через "у", в американском — через "ау". Поэтому правильно и "раутер", и "рутер" (окончание "-er" традиционно всегда записывается как "эр" или "ер", несмотря на то, что в британском прозносится как шва; в американском тоже формально шва, но для нас больше похоже по звучанию на "эр" из-за "американского" "р", который произносится не отдельно, а сливается с шва).
    
    Inskin
    11.06.2026 08:12
    #30100394
    Вот кстати интересно notebook vs laptop. Наш ноутбук таки лэптоп у них, а их ноутбук у нас - записная книжка.
    
    AcckiyGerman
    11.06.2026 08:12
    #30100834
    А Laptop в русском был бы “наколенник”, “сверху коленей”, а Desktop - настольник.
    
    P.S. а немецкий Handy, все больше популярный и в англоязычных странах - ручник?!
    
    P.P.S. Вася хватит в ручник втыкать, сядь за настольник и сделай домашку!
  1. hremlin
    11.06.2026 08:12
    #30100658
    Роу-тер тупо гораздо проще произнести, чем марш-рути-за-тор
    
    Metotron0
    11.06.2026 08:12
    #30103508
    А что на счёт "андройд"? Тоже на звуке "и" экономят? Представитель монголойдной расы обнаружил упавший астеройд со следами алкалойдов.
    
    Но, блин, попробуй только написать "биткойн" — заклюют.
1. dbidb
  11.06.2026 08:12
  #30098524
  Английские слова она тоже вставляет вполне осмысленные (т.е. по сути прямой перевод подразумеваемых русских слов), хотя и непонятно зачем, там нет какой-то принципиальной разницы в смыслах и они не относятся к словам, которые можно встретить в реальном русскоязычном тексте. И что характерно, если попросить её их не использовать, прекратит :D
  
  Статья как-то не объясняет этот момент, на мой взгляд.
  1. Darkness_Paladin
    11.06.2026 08:12
    #30098892
    хотя и непонятно зачем, там нет какой-то принципиальной разницы в смыслах
    
    Не путайте ЛЛМ с человеком. Человек вставляет в речь иностранные слова, когда считает, что такое слово в данном контексте более точно передаёт смысл (чизкейк, в принципе, вполне себе ватрушка -- но чизкейк это совершенно определённый вид ватрушки, а не любая ватрушка вообще) -- а ЛЛМ вставляет слова на других языках просто потому, что не видит между словом на языке-1 и словом на языке-2 принципиальной разницы в сложившемся контексте.
1. Darkness_Paladin
  11.06.2026 08:12
  #30098796
  Или, допустим, у русских людей вообще не бывает эмоции 高兴，как таковой (условно это уважительная радость)
  
  Люди разных этносов и рас много чем различаются, но не эмоциями. Эмоции у всех гоминид, в т.ч. у хомосапиенсов, одинаковы.
  
  Другой вопрос, что у людей определённой народности может не быть специального слова для какой-то сложной-вторичной эмоции, если культура этой народности не выделяет эту эмоцию как что-то особое.
  
  Если на то пошлО, то у нас и для любви к жене, любви к пирожкам и любви к родине всего одно название, хотя мы отлично понимаем, что это прям совсем-совсем разные эмоции )))
  
  Я не знаю, что такое "эмоция 高兴", но абсолютно уверен -- у нас такая эмоция тоже может быть, просто мы не заморочились придумать для неё специальное название.
  1. vadimr
    11.06.2026 08:12
    #30098852
    Мне кажется, тут идёт спор о терминологии. Аппаратно, так сказать, русский человек, вполне способен испытывать гаосин. Но социальных предпосылок для этого нет, так как нет в целом конфунцианского понимания сыновней почтительности по отношению к социально старшим. Поэтому такая ситуация, когда искренняя радость от встречи с человеком сочетается с приятным волнением от того, что он обратил на тебя внимание с реальной или вежливо предполагаемой высоты своего положения (а именно так я понимаю ситуацию 高兴）для нашего общества нехарактерна.
    
    Во всяком случае, DeepSeek уверенно разъяснял, что русские эмоцией 高兴 не обладают.
    
    Во времена самого Конфуция, кстати, слова 高兴 ещё не было, он пишет о просто "радости" 乐。
    
    Кстати, в китайском языке используются разные слова для любви к Родине (热爱, "горячая любовь") и любви к вышестоящему руководителю (爱戴, "любовь наверх").
    
    MTyrz
    11.06.2026 08:12
    #30104434
    искренняя радость от встречи с человеком сочетается с приятным волнением от того, что он обратил на тебя внимание с реальной или вежливо предполагаемой высоты своего положения
    
    Мне посчастливилось быть лично знакомым с %person_name% и я искренне рад каждой нашей встрече
    
    Все есть; никто нас, лаоваев, этой эмоцией не обделял ;)
  1. vesper-bot
    11.06.2026 08:12
    #30100678
    Я не знаю, что такое “эмоция 高兴”, но абсолютно уверен – у нас такая эмоция тоже может быть, просто мы не заморочились придумать для неё специальное название.
    
    “Лизоблюдство” это называется, правда это не эмоция, а стиль поведения в целом.
    
    vadimr
    11.06.2026 08:12
    #30102752
    Эмоции напрямую не связаны с поведением, они во многом социально обусловлены. Скажем, убийство или секс с несовершеннолетним вызывают совершенно разные эмоции у современного и у древнего человека, хотя действия одни и те же.
    
    Darkness_Paladin
    11.06.2026 08:12
    #30103942
    Скажем, убийство или секс с несовершеннолетним вызывают совершенно разные эмоции у современного и у древнего человека, хотя действия одни и те же.
    
    Не действия одни и те же, а только события.
    
    Действие -- это не только акт в материальном мире, но его оценка. Материально нет никакой разницы, стреляете вы по врагам на войне или по соседям с перепою, трупы получатся совершенно одинаковые -- а вот оценки этих действий, как вами, так и окружающими, будут очень разными.
    
    Эмоции напрямую не связаны с поведением, они во многом социально обусловлены.
    
    Лучше сказать так: Эмоции -- это ОЦЕНКИ. Через эмоции ваше "бессознательное" информирует вас о своих оценках людей, предметов, явлений и событий.
    
    Разумеется, "бессознательное" вполне умеет обучаться -- поэтому да, НЕКОТОРЫЕ эмоции косвенно связаны с социальными обычаями и нормами.
  1. qvvah
    11.06.2026 08:12
    #30100776
    Базовые эмоции у большинства людей одинаковы - по разным оценкам, их от 4 до 7. А вот более сложные эмоции человек испытывать учится у своего окружения - они зависят от воспитания, культуры и, как вы написали, от словаря.
    
    Darkness_Paladin
    11.06.2026 08:12
    #30100870
    Нет. Эмоции -- это самый глубокий слой разума и сознания, более-менее одинаковый у всех гоминид, в т.ч. людей. Учится человек не "испытывать эмоции", это абсолютно невозможно, а осознавать и демонстрировать их.
    
    PereslavlFoto
    11.06.2026 08:12
    #30102060
    осознавать
    
    Верно! И вот один человек осознаёт только радость, а другой человек раздельно осознаёт радость от встречи с собакой, радость от встречи с сестрой, радость от встречи с детьми и радость от долгожданной встречи с уважаемым господином начальником отдела.
    
    MTyrz
    11.06.2026 08:12
    #30104452
    Учится человек не “испытывать эмоции”, это абсолютно невозможно, а осознавать и демонстрировать их.
    
    Э, нет.
    
    Человек именно что учится испытывать эмоции. Принципиально важное добавление: по тому или иному поводу. Сами эмоции да, скорее заложены (тут можно дискутировано, но то такое). А вот связка “повод - эмоция” точно требует изучения. Поэтому при разном обучении один и тот же повод вызывает у разных людей очень разные эмоции.
    
    Darkness_Paladin
    11.06.2026 08:12
    #30104684
    Э, нет.
    
    Все возможные эмоции изначально заложены в наш мозг, так сказать, "на аппаратном уровне" -- и учиться их испытывать человеку не нужно.
    
    Другой вопрос, что воспитание, мировоззрение и жизненный опыт влияют на то, как мозг оценит ситуацию и какие эмоции решит включить.
    
    Если уж мы тут говорим о китайской “эмоции 高兴” -- я, например, действительно не способен её испытывать -- не потому что я не китаец, а потому что в моём мировоззрении никого, кто "выше" меня, существовать просто не может, все люди в этом плане равны. Эмоция где-то в голове у меня есть, но нет триггеров, которые могли бы её включить.
    
    А вот связка “повод - эмоция” точно требует изучения. Поэтому при разном обучении один и тот же повод вызывает у разных людей очень разные эмоции.
    
    А вот это верно.
    
    MTyrz
    11.06.2026 08:12
    #30104830
    Ну: а я что пишу? ;)

dsrk_dev
11.06.2026 08:12
#30097617
Тут ещё сильно влияет квантизация. Чем меньше вариаций у вектора, тем вероятнее модель его перепутает
1. aldekotan
  11.06.2026 08:12
  #30098404
  Вероятнее всего. Дипсик в веб версии в какой-то момент стал сыпать китайскими иероглифами через слово, вероятно сказалось стремление сэкономить на бесплатных юзерах. В тот же момент упало и качество размышлений и объём ответов. Потом сыпание иероглифами пофиксили, а качество размышлений осталось на плюс-минус том же уровне.

Maksitco
11.06.2026 08:12
#30097993
Года 4 не вспоминал слово вектора...

Ранее ловил такие иероглифы в дипсике (1-2 года назад примерно), после перешёл на перплексити, где подобного не было пока что.
1. aldekotan
  11.06.2026 08:12
  #30098408
  Аналогично с дипсиком. После выхода V3.1, кажется, пошла такая петрушка. Потом иероглифы пофиксили, но качество выдачи уже не поднималось

amogusgggy
11.06.2026 08:12
#30098001
Такое еще частенько у ллм проявляется при jailbreak, особенно у kimi и claude. А так, как правило, чем сильнее квантована модель, тем чаще будут всплывать такие артефакты

surefire
11.06.2026 08:12
#30098029
Я заметил на локальных моделях в llama.cpp, что penalties (repeat-penalty, presence-penalty) усиливают этот эффект, особенно в режиме мышления. Так как модель может много раз в разных вариантах перебирать ответы или части ответа, а пенальти препятствуют повторениям, то модель начинает выбирать токены из других языков.

У себя полностью убрал penalties из семлеров и пока ответы выглядят чище.
1. Gasnopf
  11.06.2026 08:12
  #30098406
  Логично, ты штрафуешь модель за вывод нормальных слов, которые она уже юзала - ей приходится лезть на самое дно словаря за экзотикой

AnruKitataze
11.06.2026 08:12
#30098240
Подушню - аКшуАлЛи, они не далают так, как в заголовке. Они целые слова заменяют на такие же целые китайские (и не только) слова, которые идеально подходят по смыслу и по причинам, которые хорошо описаны в статье.

Вывод: учить 中文!

Спасибо за статью.

Gasnopf
11.06.2026 08:12
#30098330
Для базового понимания эмбеддингов пример с часами неплох. Но в проде проблема с редкими токенами лечится нормальной температурой и настройкой пенальти, а не философскими рассуждениями про фурье

ToxaBes
11.06.2026 08:12
#30098532
Спасибо за статью! Простое и наглядное объяснение упаковки смысла в векторное пространство.

Кольцо не одно. Если аккуратно разобрать на сколько разных кругов модель разложила свои числа, окажется, что кругов сразу несколько, и они вложены друг в друга в одном и том же пространстве.

Почему-то всегда представлял их вложенными сферами.

fermentum
11.06.2026 08:12
#30098580
Мистраль, бывало, на трех языках за раз отвечала. А свежая gemma-4 12b в 0,1% спонтанно переключается на украинский и местами подменяет русские буквы на суржик. При этом, квант вполне себе q8 был, но, видимо, в угоду новым функциям уплотнили блок знаний русского. Жаль, gemma-3 такого себе не позволяла.

Komrus
11.06.2026 08:12
#30098786
на стыке языков или в каком-нибудь редком, кривом контексте модель плывет, вероятности размазываются тонким слоем по множеству вариантов

А почему стандартное поведение нейросети в такой момент - не останавливаети её? "Ну, не знаю", пусть скажет. "Меня такому ещё не научили..."

Низкая вероятность - маркер для останова. Или это противоречит каким-то другим принципам?
1. Wesha
  11.06.2026 08:12
  #30099136
  А почему стандартное поведение нейросети в такой момент - не останавливаети её? "Ну, не знаю", пусть скажет. "Меня такому ещё не научили..."
  
  Потому что такого слона гораздо сложнее продать.
  1. DaneSoul
    11.06.2026 08:12
    #30099426
    Очень спорный момент.
    ИМХО, слона который честно говорит что что-то не знает продать намного легче, чем того, который в случае незнания придумывает чушь и тем самым доставляет проблем тому кто у него консультировался.
    
    Wesha
    11.06.2026 08:12
    #30099546
    в случае незнания придумывает чушь и тем самым доставляет проблем тому кто у него консультировался.
    
    К моменту появления проблем уже поздняк метаться — контракт подписан, предоплата внесена.

Anton_Timofeev
11.06.2026 08:12
#30099468
Можно тупо пессимизировать маской выходные логиты токенов не на латинице и кириллице. Только это все токены надо просмотреть предварительно, и в готовую модель слой добавить.

kujoro
11.06.2026 08:12
#30100128
у меня грок такое выдавал

хотя даже локальная гемма4 таким грешит