25 лет в Google: интервью с Ноамом Шазиром и Джеффом Дином, разработчиками Gemini / forpes.ru

Главная
25 лет в Google: интервью с Ноамом Шазиром и Джеффом Дином, разработчиками Gemini

25 лет в Google: интервью с Ноамом Шазиром и Джеффом Дином, разработчиками Gemini +8

16.02.2025 12:44

dmitrifriend 29 2300 Источник

Это не просто юбилей, а целая эпоха. Когда Джефф Дин и Ноам Шазир присоединились к компании, её можно было назвать стартапом (ну, почти). Сегодня же они работают над самыми продвинутыми технологиями искусственного интеллекта, определяющими будущее всей индустрии. Чем они занимались за это время? Разрабатывали фундаментальные системы, без которых современный интернет выглядел бы иначе: MapReduce, BigTable, TensorFlow... и это только верхушка айсберга. Их текущая миссия — развивать Gemini (не так давно известный как Bard) — амбициозный проект Google DeepMind, который стремится объединить лучшее из мира поисковых технологий и генеративного ИИ.

В интервью Дваркешу Пателю Джефф и Ноам делятся своими наблюдениями о росте компании, о том, как изменились вычисления за последние десятилетия и почему успех современных моделей ИИ — это не просто магия больших данных, а результат тщательно выстроенной архитектуры и аппаратных решений. Спойлер: закон Мура уже не тот.

Дваркеш Патель: Вы оба работаете в Google уже четверть века или около того. В начале пути, наверное, было ощущение, что вы понимаете, как устроена вся компания. В какой момент это чувство исчезло, был ли какой‑то конкретный момент?

Ноам Шазир: Я пришёл в конце 2000-го, и у нас была традиция — каждому новичку назначали наставника. Я не знал вообще ничего, просто спрашивал у наставника, а он знал всё. Кстати, им оказался Джефф. Дело было не в том, что все в Google знали всё, — просто Джефф знал, потому что он практически сам это всё и написал.

Джефф Дин: Правда в том, что по мере роста компании ты проходишь через несколько фаз. Когда я пришёл, нас было всего 25 или 26 человек. Ты знал всех по именам — даже когда команда начала расти, можно было следить, кто приходит. Потом наступает момент, когда ты уже не запоминаешь всех по именам, но всё ещё держишь в голове, кто чем занимается в разработке. Потом ты перестаёшь отслеживать даже это, но хотя бы понимаешь, какие проекты ведутся. А потом компания становится настолько большой, что тебе приходит письмо: «Проект „Утконос“ запускается в пятницу» — и ты думаешь: что за проект «Утконос»?

Дваркеш Патель: Как за последние два‑три десятилетия изменился закон Мура с точки зрения проектирования новых систем и оценки их реалистичности? Какие ограничения остаются? Что теперь возможно, чего раньше было совершенно нереально сделать?

Джефф Дин: За последние двадцать лет ситуация сильно изменилась: если раньше можно было просто подождать и через восемнадцать месяцев получить в разы более мощное железо, ничего для этого не делая, то теперь всё не так просто. Рост вычислительных мощностей на базе обычных CPU уже не столь впечатляющий: техпроцессы совершенствуются медленнее, цикл их обновления увеличился с двух до трёх лет, а архитектурные улучшения многопоточных процессоров больше не дают того прироста, к которому мы привыкли.

Зато появилось множество специализированных вычислительных устройств: ускорители для машинного обучения, тензорные процессоры (TPU), высокоэффективные GPU, ориентированные на ML‑задачи. Именно они позволяют получать максимальную производительность и эффективность при работе с современными вычислениями.

Ноам Шазир: Сейчас складывается ощущение, что алгоритмы идут вслед за железом. Вычисления стали очень дешёвыми, а вот передача данных — наоборот, значительно дороже. По сути, взлёт глубокого обучения произошёл именно благодаря этой динамике. Теперь можно строить архитектуры, которые сводятся к матричным умножениям — это вычисления сложности O(N³), при этом объём передаваемых данных ограничивается O(N²).

Джефф Дин: И ключевой момент в том, что переход к аппаратной архитектуре, ориентированной на такие вычисления, стал решающим шагом. Раньше у нас были только CPU и GPU, которые не особо подходили для задач глубинного обучения. Тогда мы начали разрабатывать TPU в Google — фактически это просто специализированные машины для вычислений линейной алгебры с пониженной точностью. И как только у тебя появляется такое железо, логично строить на нём соответствующие алгоритмы.

Ноам Шазир: В этом, по сути, весь смысл поиска скрытых возможностей. Ларри Пейдж, кажется, часто повторял: «Наши вторые по величине затраты — это налоги, а первые — это упущенные возможности». (Если он так не говорил, значит, я уже много лет неправильно его цитирую.) Суть в том, чтобы правильно оценить, какие ресурсы у тебя есть и чего ты недополучаешь. В данном случае, например, у нас были чипы, на которых размещалось слишком мало вычислительных блоков. Почему бы не заполнить их арифметическими модулями? Тогда можно было бы выполнять вычисления на порядки быстрее. А дальше возникает вопрос: что ещё должно измениться? Алгоритмы, потоки данных, структура вычислений — всё это тоже придётся перестраивать.

Джефф Дин: При этом вычисления можно делать с пониженной точностью, а это значит, что на чипе можно уместить ещё больше арифметических блоков.

Дваркеш Патель: Какие компромиссы вы учитываете при проектировании новых поколений TPU, чтобы лучше адаптировать их к алгоритмам?

Джефф Дин: Один из ключевых трендов — это работа над квантованием и моделями с ещё более низкой точностью вычислений. Когда мы разрабатывали TPUv1, мы даже не были уверены, что сможем выполнять инференс с 8-битными целыми числами, но у нас были некоторые обнадёживающие результаты, и мы решили: «Ладно, строим весь чип под эту задачу».

Со временем выяснилось, что снижать разрядность можно не только для инференса, но и для обучения моделей. Сейчас уже используют INT4 или FP4, что двадцать лет назад для специалистов по суперкомпьютерам прозвучало бы как сумасшествие. Тогда все настаивали: «Нам нужны только 64-битные числа с плавающей запятой», а теперь некоторые умудряются квантовать модели до двух бит, а то и вовсе до одного. Думаю, этот тренд будет только набирать обороты.

Когда алгоритмы заговорили

Дваркеш Патель: На разных этапах вашей карьеры вы работали над вещами, которые удивительно похожи на то, что мы сегодня используем в генеративном ИИ. Джефф, в 1990 году ты написал дипломную работу о методе обратного распространения ошибки. А в 2007-м — и это я понял только во время подготовки к интервью — вы с командой обучили языковую модель на 2 триллионах токенов, используя N‑граммы. Расскажи, что тогда было у вас в голове? Вы осознавали, к чему это может привести?

Джефф Дин: Я впервые столкнулся с нейросетями в одном из разделов курса по параллельным вычислениям на последнем курсе. Мне нужно было написать диплом, и я предложил профессору: «Было бы интересно сделать что‑то с нейросетями». В итоге мы решили, что я реализую несколько вариантов параллельного обучения нейросетей с обратным распространением ошибки. Это было в 1990 году. В своей работе я назвал их как‑то забавно, вроде «разбиение по паттернам», но на самом деле это были модельная и параметрическая параллелизация. Я запускал их на 32-процессорной машине Hypercube.

Один метод предполагал разбиение примеров на пакеты, где каждый процессор работал со своей копией модели; в другом примеры передавались по конвейеру между процессорами, у каждого из которых был свой фрагмент модели. Я сравнил оба метода.

Меня очень увлекла сама идея нейросетей, потому что казалось, что это правильная абстракция. Они могли решать крошечные задачи, которые тогдашние методы просто не брали. Я, конечно, был наивным — думал, что 32 процессора хватит, чтобы тренировать мощные нейросети, но на практике выяснилось, что нам нужно в миллион раз больше вычислительных ресурсов, чтобы они начали работать на серьёзных задачах. И только в 2008–2010 годах, когда мощности заметно выросли благодаря закону Мура, стало возможным использовать нейросети на практике. Именно тогда я снова всерьёз заинтересовался этой темой.

Дваркеш Патель: Когда вы осваивали языковые модели, у вас было понимание, что если сделать их сложнее — вместо 5 слов анализировать 100 или 1000, — то из этого может появиться нечто, похожее на интеллект? В какой момент пришло это осознание?

Ноам Шазир: Нет, я не думаю, что у меня когда‑либо было ощущение, что N‑граммные модели станут искусственным интеллектом. В то время многие были увлечены лишь байесовскими сетями, это казалось перспективным направлением.

Но когда появились ранние нейросетевые языковые модели, стало понятно, что в них есть что‑то магическое: они действительно работали. И одновременно это казалось одной из самых увлекательных задач в мире — с одной стороны, очень просто сформулированной («Дай мне вероятностное распределение следующего слова»), а с другой — содержащей бесконечное количество обучающих данных. Весь текст в интернете — это триллионы примеров для самообучения.

Нейросети, кошки и великое озарение

Дваркеш Патель: В истории науки есть интересная дискуссия: насколько неизбежны великие идеи? Они просто витают в воздухе и кто‑то обязательно их реализует или всё же это результат случайного озарения, неожиданного взгляда на проблему? В этом случае если мы можем так логично выстроить путь, значит ли это, что всё происходило неизбежно?

Ноам Шазир: Да, есть ощущение, что это действительно было в воздухе. Были идеи вроде «нейросетевой машины Тьюринга», концепции внимания, механизмы хранения и извлечения данных в нейросетях, которые позволяли моделям фокусироваться на важной информации. Так что, с одной стороны, идеи уже существовали, но с другой — всегда нужна команда, которая возьмёт и сделает это.

Джефф Дин: Я думаю, что многие идеи действительно частично «висят в воздухе». Есть несколько разрозненных исследовательских направлений, и когда ты решаешь новую задачу, то, прищурившись, можешь разглядеть что‑то полезное в каждом из них. Ты черпаешь вдохновение в известных концепциях, но при этом обязательно есть что‑то, что пока не решено. И именно сочетание существующих идей и чего‑то нового приводит к прорыву, к результату, которого раньше просто не существовало.

Дваркеш Патель: Были ли у вас моменты, когда вы занимались исследованием, придумали идею — и вдруг осознали: «Чёрт возьми, не могу поверить, что это сработало»?

Джефф Дин: Один из таких моментов был в ранние годы команды Brain. Тогда мы думали: «А что если построить инфраструктуру, которая позволит обучать действительно огромные нейросети?» В наших дата‑центрах ещё не было GPU, мы работали только с процессорами, но зато умели заставлять их эффективно взаимодействовать.

Мы создали систему, которая позволяла тренировать крупные модели с использованием как параллелизма модели, так и параллелизма данных. В рамках эксперимента мы запустили обучение на 10 миллионах случайных кадров с YouTube. Это было полностью безнадзорное обучение: сеть пыталась самостоятельно выявлять закономерности, формируя представления на основе высокоуровневых признаков.

Мы запустили обучение на 2000 компьютерах с 16 000 процессорных ядер, и спустя какое‑то время модель начала выделять устойчивые паттерны: например, один из нейронов явно реагировал на изображения кошек — хотя никто не объяснял сети, что такое кошка. Но видимо, в обучающих данных оказалось достаточно снимков с кошачьими мордами, чтобы нейрон разобрался и начал включаться только на таких изображениях.

Точно так же возникли нейроны, активирующиеся на человеческие лица или, например, на силуэты людей, идущих спиной. Это был мощный результат: система сама, без учителя, формировала сложные абстрактные представления. А затем, когда мы протестировали её на задачах с учителем в конкурсе ImageNet на 20 000 категорий, модель показала прорывной результат — улучшение точности на 60% по сравнению с предыдущими подходами.

На тот момент наша нейросеть была примерно в 50 раз крупнее всех, что обучались до неё, и работала значительно лучше. Тогда я понял: масштабирование действительно работает, это было хорошей идеей, и нам точно стоит двигаться в этом направлении дальше.

Как научить ИИ думать масштабно

Дваркеш Патель: В поиске Google содержится весь индекс интернета, но сам поиск остаётся поверхностным; в то же время у языковых моделей ограниченный контекст, но они действительно способны «думать». Это почти магия — обучение в контексте, когда модель осмысляет то, что анализирует. Как вы представляете объединение технологий Google‑поиска и контекстного обучения?

Джефф Дин: Хороший вопрос, я уже много размышлял на эту тему. Одна из проблем современных моделей — они действительно мощные, но иногда выдают ошибки, галлюцинируют или путаются в фактах. Отчасти это связано с тем, что они обучены на десятках триллионов токенов и вся эта информация перемешана внутри сотен миллиардов параметров: из‑за этого модель порой искажает данные — она помнит их в общем виде, но может ошибаться, например, с датами.

Зато информация, которая попадает в контекстное окно модели в момент запроса, остаётся кристально чёткой: это связано с тем, что у трансформеров есть мощный механизм внимания. Модель может выделять важные части текста, видео, аудио — любые данные, которые она анализирует в реальном времени.

Сейчас наши модели уже способны работать с миллионами токенов контекста — это эквивалент сотен страниц PDF‑документа, 50 научных статей, часов видеозаписей или десятков часов аудио, а иногда и всего этого вместе. Конечно, впечатляюще, но представляете, если бы модель могла анализировать триллионы токенов? Она могла бы охватывать весь интернет и моментально находить нужную информацию. Или скажем, полностью учитывать все ваши личные данные: почту, документы, фотографии — разумеется, с вашего разрешения. Тогда при запросе она могла бы использовать всю эту информацию, чтобы дать действительно персонализированный и полезный ответ.

Но это колоссальная вычислительная задача: наивный алгоритм внимания в трансформерах имеет квадратичную сложность, и даже сейчас мы с трудом заставляем его работать с миллионами токенов. Просто увеличить объём до триллионов — невозможно, это не масштабируется. Значит, нам нужны новые алгоритмические приближения, которые позволят модели осмысленно работать с огромными объёмами данных. Например, представьте, если разработчик мог бы видеть в контексте исходный код нескольких репозиториев.

Ноам Шазир: Прекрасная особенность параметров модели в том, что они довольно эффективно запоминают факты; можно сказать, что на один параметр приходится примерно один факт или что‑то в этом роде. А вот если информация находится в контексте, то на каждом уровне модели появляются ключи и значения, в итоге один токен может занимать килобайты или даже мегабайты памяти.

Джефф Дин: Берёшь одно слово — и оно раздувается до 10 килобайт.

Ноам Шазир: Сейчас идёт много работы над тем, как минимизировать этот объём: какие слова и данные действительно нужны в контексте, как эффективнее извлекать отдельные куски информации.

Где проходят границы масштабируемости

Дваркеш Патель: Есть один момент, который, возможно, не все осознают. Все понимают, что увеличение модели в 100 раз требует в 100 раз больше вычислительных ресурсов, и потому переход, скажем, от Gemini 2 к Gemini 3 многим кажется экспоненциально усложняющейся задачей. Но при этом часто упускают из виду другой важный фактор: Gemini 3 не просто масштабируется, а разрабатывает новые архитектурные решения, тестирует их, находит эффективные алгоритмы и таким образом делает процесс обучения следующего поколения проще и быстрее. Как далеко можно зайти в этом цикле обратной связи?

Джефф Дин: Думаю, важно понимать, что прогресс в разработке новых поколений моделей обусловлен не только улучшением аппаратного обеспечения и увеличением масштаба, но в равной степени — а возможно, даже в большей — значительными алгоритмическими прорывами, изменениями в архитектуре моделей, а также оптимизацией состава обучающих данных. Именно эти факторы делают модель эффективнее при тех же вычислительных затратах. Если мы сумеем автоматизировать процесс поиска и проверки новых идей, это значительно ускорит их внедрение в практическое обучение новых поколений моделей.

Фактически именно так мы сейчас работаем: большая команда талантливых специалистов по машинному обучению изучает множество концепций, отбирает те, что показывают перспективные результаты на малых масштабах, тестирует их на средних, а затем переносит лучшие решения в крупные экспериментальные модели. Если этот процесс можно ускорить в 100 раз за счёт автоматизированного поиска идей и более целенаправленного вмешательства исследователей, вместо того чтобы они вручную контролировали сотни экспериментов, — это будет огромным шагом вперёд.

Дваркеш Патель: А есть ли фундаментальные ограничения, мешающие масштабировать вычисления на этапе вывода? Можно ли просто линейно увеличивать мощности, накидывая в 100 или 1000 раз больше ресурсов, и получать на выходе пропорционально более качественные ответы? Или это задача, которую мы уже практически решили?

Джефф Дин: В наших экспериментах мы уже видим примеры, когда увеличение вычислений при выводе действительно улучшает качество ответов: если выделить на обработку в 10 раз больше ресурсов, чем обычно, можно добиться заметно лучших результатов, и это важное направление. Но нас интересует не просто линейное улучшение, а более высокий коэффициент эффективности — если мы тратим в 10 раз больше вычислительных мощностей, хотелось бы, чтобы и качество ответа росло гораздо сильнее, чем сейчас. Это вопрос поиска новых алгоритмов, новых подходов и оптимального распределения ресурсов.

Мне очень нравится статья Рича Саттона «Горький урок»: в ней, если кратко, говорится, что можно пробовать самые разные подходы, но в итоге два самых мощных инструмента — это обучение и поиск. Если эти методы можно эффективно масштабировать алгоритмически или вычислительно, то они зачастую дают лучший результат, чем любые другие стратегии, независимо от задачи.

Поиск должен стать неотъемлемой частью повышения качества работы модели на этапе вывода. Например, можно запускать несколько стратегий решения проблемы, анализировать их — и, если один вариант оказался неудачным, продолжать разработку другого, более перспективного.

Дваркеш Патель: Может ли подобный поиск решений выполняться асинхронно? Насколько тогда изменятся требования к размерам вычислительных центров и инфраструктуре в целом?

Ноам Шазир: Вычисления на этапе вывода будут становиться всё более важными, к тому же они могут быть значительно эффективнее, чем при обучении. В целом трансформеры во время обучения могут работать с последовательностью как с батчем, но на этапе вывода не всё так просто: генерация идёт по одному токену за раз, что ограничивает возможности параллелизации. Поэтому возможно, что для вывода потребуется специализированное оборудование и оптимизированные алгоритмы, заточенные под задачу.

Джефф Дин: Хороший пример алгоритмического улучшения — это так называемые модели‑зарисовщики. Здесь используется небольшая языковая модель, которая при декодировании генерирует сразу четыре токена. Затем эти токены передаются в основную, более мощную модель, которая оценивает их и решает, какие принять.

Допустим, большая модель соглашается с первыми тремя токенами. В этом случае можно просто продвинуться вперёд, что фактически превращает однотокенную генерацию в параллельную обработку сразу четырёх токенов. Такие подходы позволяют увеличить эффективность вывода, устраняя узкое место в виде последовательной генерации по одному токену за раз.

Распределённое машинное обучение

Дваркеш Патель: Сейчас активно обсуждается, что мощности даже атомных электростанций уже работают на пределе, когда речь идёт о снабжении одного вычислительного центра. Нужно ли нам собирать в одном месте 2 гигаватта, 5 гигаватт, больше — или же можно распределять нагрузку по разным центрам обработки данных и при этом эффективно обучать модели? Меняет ли новая парадигма масштабирования вычислений на этапе вывода наши подходы к распределённому обучению?

Джефф Дин: Мы уже работаем в этом направлении и поддерживаем концепцию многодатацентрового обучения. В техническом отчёте о Gemini 1.5 мы упоминали, что использовали несколько мегаполисов, распределяя вычисления между разными регионами. Между дата‑центрами установлено соединение с высокой пропускной способностью, но значительной задержкой, однако для обучения это не проблема: обучение больших моделей интересно тем, что каждый шаг обычно занимает несколько секунд, поэтому задержка в 50 миллисекунд не играет большой роли.

Ноам Шазир: Пока удаётся синхронизировать все параметры модели между дата‑центрами и собирать градиенты в пределах одного шага обучения, проблем не возникает.

Джефф Дин: У нас накоплен большой опыт в этом направлении, начиная ещё с первых лет работы Brain Team: тогда мы использовали медленные CPU и вынуждены были прибегать к асинхронному обучению, чтобы масштабировать процесс. Каждая копия модели выполняла локальные вычисления, отправляла обновления градиентов в центральную систему, где они асинхронно применялись, в то же время другие копии модели делали то же самое.

Это приводит к тому, что параметры модели могут слегка дрожать, что вызывает у теоретиков сомнения в строгих математических гарантиях. Но как показывает практика, этот подход вполне рабочий.

Ноам Шазир: Как же приятно было перейти от асинхронного режима к синхронному... Теперь эксперименты можно воспроизводить, а не зависеть от того, запущен ли на той же машине веб‑краулер. Так что работать на TPU‑подах мне куда комфортнее.

Джефф Дин: Мы перешли от асинхронного обучения на CPU к полностью синхронному благодаря тому, что у нас появились сверхбыстрые TPU‑чипы и поды. Между чипами внутри одного пода — колоссальная пропускная способность. А если нужно выйти за эти рамки, у нас есть отличные сети дата‑центров и даже межгородские соединения, позволяющие объединять множество TPU‑подов в разных регионах в рамках крупнейших обучающих запусков — и делать это полностью синхронно.

Как сказал Ноам, пока градиенты накапливаются и параметры передаются между регионами достаточно быстро относительно шага обучения, всё идёт идеально, но по мере масштабирования, возможно, нам придётся вводить чуть больше асинхронности. Пока что наши исследователи в области машинного обучения очень довольны тем, как далеко удалось продвинуться с синхронным обучением, — просто потому, что это более понятная ментальная модель: тогда алгоритм борется только с задачей, а не с асинхронностью, которая усложняет процесс.

Ноам Шазир: Чем больше масштаб, тем больше факторов, которые работают против тебя. Проблема в том, что ты не всегда понимаешь, что именно тебе мешает: может, ты слишком агрессивно сжал данные где‑то в процессе? Или возможно, дело в самих данных?

Джефф Дин: А может, это твоя коварная машина MUQQ17, которая хитроумно выставляет седьмой бит экспоненты у всех твоих градиентов?

Ноам Шазир: Точно. И из‑за этого всё начинает работать чуть хуже, но ты даже не сразу понимаешь, что что‑то пошло не так.

Джефф Дин: Это, вообще, одна из сложностей с нейросетями — они невероятно устойчивы к шуму. У тебя может быть куча ошибок в настройках, но они как‑то адаптируются, учатся их обходить и продолжают работать.

Ноам Шазир: Ты можешь даже не знать, что у тебя баг в коде. Чаще всего он вообще ни на что не влияет. Иногда он ухудшает модель, а иногда — делает её лучше: и вот тогда ты открываешь что‑то новое, потому что просто никогда не проверял этот конкретный баг в условиях большого масштаба.

Баланс между сложностью и эффективностью

Дваркеш Патель: Как на практике выглядит процесс отладки и расшифровки работы модели? У вас есть факторы, которые улучшают модель, и есть те, которые её ухудшают; вот вы приходите на работу завтра — как понять, какие из них наиболее значимы?

Ноам Шазир: На небольших масштабах ты просто проводишь много экспериментов. Часть исследований посвящена тому, чтобы изолированно разрабатывать новые идеи, искать улучшения или прорывы. Для этого нужна понятная, простая кодовая база, которую можно легко форкнуть, модифицировать и тестировать, плюс надёжные базовые метрики.

В идеале я хочу проснуться утром, придумать идею, за день её запрограммировать, запустить эксперименты и уже к вечеру получить первые результаты: вот это сработало, а вот это нет. И это вполне реально, если держать кодовую базу в порядке и не перегружать процесс.

Джефф Дин: Тогда эксперимент занимает час‑два, а не две недели.

Ноам Шазир: Это один уровень исследований. А затем начинается масштабирование: когда нужно собрать все улучшения вместе и проверить, как они работают в больших моделях, в сложных системах.

Джефф Дин: Тут важно понимать, как они взаимодействуют: вроде бы кажется, что улучшения независимы друг от друга, но потом оказывается, что, скажем, оптимизация обработки видеоданных каким‑то образом влияет на обновление параметров модели. И возможно, это сильнее выражено именно в видео, а не в других типах данных. Такие неожиданные взаимосвязи всплывают постоянно, поэтому важно регулярно проводить эксперименты, где ты комбинируешь все улучшения и проверяешь, действительно ли они работают вместе. А если что‑то не сочетается, разбираться почему.

Дваркеш Патель: Во‑первых, как часто оказывается, что улучшения не работают вместе? Это редкое явление или случается постоянно?

Ноам Шазир: В половине случаев.

Джефф Дин: Да, большинство идей даже не доходят до стадии объединения, потому что на ранних этапах эксперименты показывают слабые результаты или не дают заметного прироста по сравнению с базовой моделью. Поэтому сначала проверяются улучшения по отдельности.

Когда мы видим, что некоторые из них действительно перспективны, мы включаем их в общий стек и пробуем комбинировать с другими успешными изменениями. Потом запускаем эксперименты — и тут нередко выясняется, что вместе они работают не так хорошо, как по отдельности. Тогда приходится разбираться почему.

Ноам Шазир: При этом всегда есть баланс: хочется, чтобы система оставалась как можно более чистой и понятной, потому что избыточная сложность кода и алгоритмических решений замедляет работу, увеличивает риски, добавляет неопределённости. Но при этом хочется, чтобы итоговая модель была максимально мощной. И конечно, каждый исследователь желает, чтобы именно его находки вошли в финальный вариант. Так что вызовы есть, но мы неплохо справляемся.

Бесконечная петля обратной связи

Дваркеш Патель: Вернёмся к вопросу о том, что с каждым новым поколением модели становятся лучше за счёт алгоритмических улучшений, даже если исключить аппаратные факторы. Должен ли мир, и вы в частности, задумываться об этом серьёзнее?

Есть один сценарий, при котором развитие ИИ занимает десятилетия, идёт плавно, шаг за шагом. Если где‑то допущена ошибка, её можно спокойно исправить — это некритично, потому что новая версия модели всего лишь немного лучше предыдущей. Но есть и другой сценарий, где система входит в мощную петлю обратной связи, и тогда два года между Gemini 4 и Gemini 5 могут стать самыми важными в истории человечества. Потому что в этот период мы можем перейти от модели, которая на уровне хорошего исследователя, к сверхчеловеческому интеллекту. Насколько, по‑вашему, этот второй сценарий реалистичен? И если он возможен, изменяется ваш подход к созданию все более мощных систем?

Ноам Шазир: Я уже перестал убираться в гараже, потому что жду, когда это сделают роботы. Так что, думаю, я больше склоняюсь ко второму сценарию — нас ждёт мощное ускорение.

Джефф Дин: Я считаю, что очень важно осознавать, что происходит и какие тренды задают направление. На данный момент модели действительно становятся значительно лучше с каждым новым поколением, и пока я не вижу причин, почему этот процесс должен замедлиться в ближайшие несколько итераций.

Это значит, что модели через два‑три поколения будут способны на куда большее. Возьмём тот же пример: если сейчас модель может разбить сложную задачу на 10 подзадач и решить их правильно в 80% случаев, то вскоре она сможет разложить уже очень сложную задачу на 100 или даже 1000 шагов и выполнить их с 90-процентной точностью. Это колоссальный скачок в возможностях ИИ.

Но при этом мы осознаём и риски: модели могут использоваться для дезинформации, для автоматизированных кибератак. Именно поэтому мы вкладываем много усилий в то, чтобы создать надёжные механизмы защиты, лучше понимать границы возможностей моделей и управлять их применением. В Google мы серьёзно относимся к этим вопросам, и у нас есть чёткое видение того, как правильно двигаться в этом направлении. Наши принципы ответственного ИИ — это хорошая концепция, которая помогает находить баланс между развитием мощных систем и их безопасностью, делая так, чтобы они не использовались во вред.

Дваркеш Патель: Если посмотреть на этот период истории человечества с высоты, меня поражает вот что. Если мы живём в мире, где, допустим, вы неудачно провели посттренировку Gemini 3, из‑за чего он начал распространять дезинформацию, — это серьёзная ошибка, но её можно исправить, правда? Вы просто корректируете посттренировку — и проблема решена.

А теперь представим сценарий с мощной петлёй обратной связи, где рост интеллекта ускоряется. Ошибка уже не просто в том, что модель генерирует неточные факты, — ошибка в том, что система, ставшая катализатором этого взрывного роста, изначально оказалась несбалансированной. Она не пытается писать код так, как вы ожидаете, а вместо этого начинает оптимизироваться под какую‑то другую цель.

И вот этот процесс занимает всего несколько лет, возможно даже меньше. В результате на выходе мы получаем интеллект, который сравним или даже превосходит уровень Джеффа Дина или Ноама Шазира. В такой ситуации масштаб ошибки будет совсем другим — её уже не так просто исправить.

Ноам Шазир: Чем мощнее становятся системы, тем осторожнее нужно быть в их разработке.

Джефф Дин: Я бы сказал так: в этом вопросе есть два крайних взгляда. Один — «Боже мой, эти системы скоро превзойдут людей во всём и мы окажемся в полном подчинении!». Другой — «Эти технологии просто великолепны, и нам вообще не о чем беспокоиться». Я нахожусь где‑то посередине. Я был соавтором статьи «Рука ИИ на пульсе человечества», в которой, среди прочего, обсуждается, что оба этих взгляда склоняются к позиции невмешательства, мол, ИИ сам будет развиваться в том направлении, в котором ему суждено. Но на самом деле у нас есть все возможности, чтобы направлять этот процесс: мы можем управлять тем, как ИИ внедряется в мир, добиваясь максимальной пользы в ключевых сферах — образовании, медицине и других областях, где его потенциал может принести огромную пользу.

И конечно, мы должны так же осознанно отводить его от сценариев, в которых машины получают бесконтрольную власть. Тут нужны и технические ограничения, и продуманные механизмы регулирования. Задача, по сути, инженерная: как спроектировать системы, которые будут надёжными и безопасными? В каком‑то смысле она похожа на то, как мы раньше подходили к разработке критически важного программного обеспечения.

Ноам Шазир: Хорошая новость в том, что анализировать текст проще, чем его генерировать. Поэтому я считаю, что способность языковых моделей анализировать собственные ответы, выявлять проблемные или опасные моменты и есть ключ к решению множества вопросов контроля.

Мы активно занимаемся вопросами безопасности, в Google сейчас работает команда действительно блестящих специалистов, которые сосредоточены именно на этом. И задача будет становиться всё более важной — как с точки зрения пользы для людей, так и с точки зрения бизнеса. Во многих случаях ограничения на развёртывание ИИ связаны именно с безопасностью, а значит, обеспечение безопасности становится критически важным направлением работы.

Непрерывное обучение и полное переобучение

Дваркеш Патель: Вы часто говорите о концепции непрерывного обучения — идеи, что модель может улучшаться со временем, вместо того чтобы каждый раз начинать с нуля. Есть ли принципиальные препятствия для этого? Ведь теоретически модель можно просто дообучать снова и снова.

Джефф Дин: Мне всегда нравилась идея разрежённых моделей, потому что разные части модели должны быть хороши в разных задачах. У нас есть модель Gemini 1.5 Pro (кстати, в нашем агрегаторе нейросетей тоже) и другие архитектуры в стиле mixture of experts, где определённые части модели активируются для одних токенов, а для других остаются неактивными: например, одна часть специализируется на математике, другая — на распознавании изображений с кошками. Это позволяет создать мощную модель, которая при этом остаётся достаточно эффективной в инференсе: она имеет огромный потенциал, но в каждый момент времени задействуется только небольшая её часть.

Однако у этого подхода есть ограничения. Сейчас модель всё ещё строится по достаточно жёсткой и однообразной структуре: все эксперты одинакового размера, а их пути быстро сливаются обратно в общую сеть. То есть у нас нет ситуации, где, например, математическая ветка модели развивается отдельно от ветки, отвечающей за обработку изображений.

Мне кажется, архитектура моделей должна быть более органичной. Кроме того, было бы здорово, если бы разные части модели можно было дообучать независимо. Сейчас мы обучаем модель как единое целое, тщательно подбирая алгоритмы и состав обучающего набора данных, но всегда сталкиваемся с компромиссами: например, если мы добавим больше мультиязычных данных, это может уменьшить долю кода в обучении, что сделает модель лучше в обработке языков, но хуже в программировании, и наоборот.

Данный подход дал бы ещё и важное преимущество с точки зрения инженерии: вместо огромной, монолитной системы, которую нужно обучать целиком, мы могли бы разбить процесс на более управляемые части, что позволило бы сотням команд по всему миру работать над улучшением конкретных аспектов модели, внося свой вклад в её развитие. В целом так и выглядит форма непрерывного обучения.

Ноам Шазир: Было бы просто идеально: можно соединять модели, как конструктор, заменять отдельные части, вставляя их в другие, или просто подсоединить «пожарный шланг», выкачать всю информацию из одной модели и залить её в другую. Хотя здесь есть и противоположный интерес — научный: мы по‑прежнему на этапе стремительного прогресса, и если мы хотим проводить чёткие эксперименты и понимать, что именно даёт лучшие результаты, проще обучать модели с нуля, чтобы можно было чисто сравнивать один полный цикл обучения с другим. Не так увлекательно, но зато помогает быстрее понять, в каком направлении двигаться.

Джефф Дин: Возможно, получится совместить эти подходы за счёт модульности и версионности: например, у нас есть зафиксированная версия модели, но мы берём отдельный модуль, скажем интерпретацию Haskell, и дообучаем его, сравнивая с предыдущей версией.

Ноам Шазир: Кстати, так могут ускориться научные исследования: если усовершенствование модели обходится дешевле, чем обучение с нуля, можно сделать процесс экспериментов значительно более быстрым и доступным.

Джефф Дин: Я уже давно обдумываю эту концепцию и описывал её в Pathways, и мы действительно создаём для этого инфраструктуру. Pathways как раз и рассчитана на работу с такими гибкими, разветвлёнными моделями, где разные компоненты могут обновляться асинхронно. Мы используем Pathways для обучения моделей Gemini, но пока ещё не задействовали некоторые из её возможностей. Может, стоит попробовать?

Ноам Шазир: Бывали случаи, когда подходы, подобные тому, как были устроены TPU‑поды, оказались просто гениальным решением. Не знаю, кто это придумал, но результат впечатляет. Вся низкоуровневая программная и аппаратная архитектура идеально сбалансирована: мощное специализированное оборудование, тороидальная топология, а также оптимизированные коллективные операции с рассылкой результата, которые, кажется, пришли из суперкомпьютеров, но оказались именно тем, что нужно для распределённого обучения глубоких нейросетей.

Ключ к оптимальному инференсу

Дваркеш Патель: Допустим, появляется новая, более эффективная архитектура. Вы просто берёте каждый модуль и дистиллируете его в эту новую архитектуру — так модель будет постепенно улучшаться?

Джефф Дин: Думаю, дистилляция — действительно полезный инструмент, потому что она позволяет преобразовать модель из одной архитектурной формы в другую. Обычно её применяют, чтобы взять мощную, но громоздкую модель и создать из неё компактную версию, которую можно эффективно использовать с низкими задержками инференса.

Но этот процесс можно рассматривать и на уровне отдельных модулей. Например, у каждого модуля может быть несколько представлений: крупная, мощная версия и более компактная, которая постоянно обучается на основе первой. Когда маленькая версия достигает достаточной точности, большую можно удалить, освободив параметры для новых данных и знаний. Затем процесс повторяется. Если такой механизм параллельно работает в тысяче мест внутри модульной модели, он, скорее всего, будет довольно эффективным.

Дваркеш Патель: Это может быть способом масштабирования инференса: маршрутизатор решает, какую версию модели использовать.

В открытых исследованиях часто упоминается, что в моделях mixture of experts трудно понять, за что отвечает каждый эксперт. Если использовать ваш подход, как можно обеспечить прозрачную и понятную модульность?

Ноам Шазир: На самом деле, по моему опыту, эксперты довольно легко анализировать. В первой статье о mixture of experts эксперты можно было просто изучить напрямую, чтобы увидеть, как это работает. Мы же брали, скажем, тысячу‑две экспертов — один из них специализируется на словах, относящихся к цилиндрическим объектам...

Джефф Дин: А этот отлично разбирается в датах, временные показатели его конёк.

Ноам Шазир: Совершенно очевидная специализация. При этом для работы всей системы на лету не требуется человеческое понимание того, как именно это устроено, — есть обученный маршрутизатор, который сам распределяет задачи между экспертами.

Джефф Дин: Тут важно отметить, что в исследовательской среде много внимания уделяется интерпретируемости моделей — попыткам разобраться, что именно происходит внутри них. Специализация отдельных экспертов — частный случай этой более широкой проблемы. Мне очень нравятся работы моего бывшего стажёра, Криса Олы, и других исследователей из Anthropic: они обучили разрежённый автокодировщик и смогли выяснить, за что отвечает тот или иной нейрон в большой языковой модели. Например, обнаружили нейрон «Золотые Ворота», который активируется при обсуждении моста в Сан‑Франциско.

Думаю, то же самое можно проделать и с экспертами, и с другими уровнями модели, получив довольно интерпретируемые результаты. Вопрос лишь в том, насколько это вообще необходимо: если модель работает хорошо, нам, возможно, и не нужно знать, что делает каждый конкретный нейрон в Gemini. Ведь одна из главных прелестей глубокого обучения в том, что нам не требуется вручную прописывать все возможные особенности — система сама выявляет закономерности и эффективно с ними справляется.

Дваркеш Патель: Если сейчас у вас есть модель с десятками или сотнями миллиардов параметров, её можно запустить всего на нескольких GPU. А в системе, где каждый отдельный запрос проходит лишь через небольшую часть всех параметров, но вся модель должна быть загружена в память, инфраструктура, в которую Google вложилась, — с TPU, работающими в кластерах по сотни и тысячи чипов, — оказывается невероятно ценной, верно?

Ноам Шазир: Да, даже для существующих версий mixture of experts вам всё равно нужно держать всю модель в памяти. Есть распространённое заблуждение, будто главный плюс MoE — это то, что неиспользуемые эксперты вообще не задействуются и можно не загружать их веса. Но на практике всё не так: дело в том, что для эффективной работы таких систем нужно обрабатывать очень большие батчи независимых запросов. Поэтому нельзя сказать, что в конкретный момент времени модель либо обращается к эксперту, либо нет.

Если бы это было так, тогда при каждом обращении к конкретному эксперту он бы работал на батче размером 1, что чудовищно неэффективно: современное оборудование оптимизировано под огромные вычислительные интенсивности, а запускать процесс на одном элементе — это просто неиспользуемый потенциал. На деле в каждый момент времени система видит все эксперты, но при этом отправляет каждому из них лишь небольшую часть батча.

Джефф Дин: При этом у каждого эксперта остаётся свой собственный батч, который он обрабатывает. Чтобы модель работала сбалансированно, современные реализации делают эксперты примерно одинаковыми по вычислительным затратам: так можно равномерно распределять нагрузку и поддерживать высокую эффективность во время инференса, даже на больших батчах.

Но в будущем, думаю, мы увидим эксперты с вычислительной сложностью, различающейся в сотни или тысячи раз: часть путей могут проходить через множество слоёв, другие вообще ограничиваться одним‑единственным или использовать пропускные соединения.

Где взять данные, если они уже есть?

Дваркеш Патель: Как бы вы охарактеризовали, чего не хватает современным методам дистилляции?

Джефф Дин: Мне кажется, во время предобучения нам не хватает более продвинутых техник обучения. Не уверен, что текущие методы позволяют извлекать максимум пользы из каждого токена. Возможно, модели стоило бы задумываться куда глубже над некоторыми словами. Например, когда в данных встречается фраза ответ следующий:, модель могла бы на этапе обучения затратить гораздо больше вычислений, чем при обработке слова‑артикля.

Ноам Шазир: Должен быть способ извлекать больше знаний из тех же данных — заставлять модель учиться и в прямом, и в обратном направлении.

Джефф Дин: И во всех возможных вариациях. Можно скрывать одни части данных, другие оставлять, заставлять модель восстанавливать пропущенную информацию. В компьютерном зрении такой подход давно применяется: берут изображение, закрывают его фрагменты и обучают модель угадывать, что на картинке. Например, научить её определять объект, если видна только верхняя часть изображения или нижний левый угол: задача усложняются, но результаты более качественные. Думаю, аналогичный подход можно применить и к тексту или коду, заставляя модели работать активнее.

Ноам Шазир: В компьютерном зрении просто не хватало размеченных данных, вот им и пришлось придумать такие методики.

Джефф Дин: И в итоге они создали отличные техники. Например, дропаут изначально придумали для обработки изображений, но в текстовых моделях он почти не используется. А ведь это способ избежать переобучения — провести, скажем, 100 эпох на всех текстовых данных, используя дропаут, и добиться более эффективного обучения. Потребуются огромные вычислительные мощности, но зато мы получим значительно более сильные модели. Так что, когда говорят, что «мы почти исчерпали текстовые данные», я в это не особо верю — думаю, из уже существующих текстов можно извлечь гораздо больше знаний, чем кажется.

Ноам Шазир: Ну, человек за жизнь видит около миллиарда токенов.

Джефф Дин: И при этом умеет делать массу крутых вещей.

Дваркеш Патель: Здесь можно провести аналогию с modus ponens и modus tollens. С одной стороны, если LLM‑моделям ещё далеко до людей по эффективности усвоения данных, значит, у нас есть потенциал для масштабного улучшения — просто если мы научим их обучаться так же, как люди. С другой стороны, может быть, они вообще учатся совсем по‑другому, разница в порядке величин слишком велика. Как вам кажется, что нужно, чтобы модели достигли той же эффективности обучения, что и человек?

Джефф Дин: Думаю, нам стоит переосмыслить саму цель обучения. Прогнозирование следующего токена на основе предыдущих — это не совсем тот способ, которым обучаются люди. В чём‑то он схож с человеческим процессом, но всё же принципиально отличается. Например, человек может прочитать целую главу книги, а затем попытаться ответить на вопросы в конце — и это уже совсем другой механизм обучения. Кроме того, модели почти не учатся на визуальных данных. Да, видео уже используется в обучении, но мы даже близко не подошли к тому, чтобы полноценно задействовать весь визуальный поток информации.

Ну и конечно, люди извлекают из данных гораздо больше, чем нынешние модели: одна из причин высокой эффективности человеческого обучения в том, что мы сами исследуем мир. Мы совершаем действия, наблюдаем их последствия и учимся на этом. Даже младенцы учат физику, роняя предметы на пол и изучая, как они падают. Попробуй научить модель гравитации, если она просто смотрит на статичные данные... Так что если бы модель могла не просто пассивно потреблять информацию, а взаимодействовать с окружающей средой, это дало бы ей совершенно иной уровень обучения.

Дваркеш Патель: То есть Gato — наше будущее?

Джефф Дин: Что‑то подобное, где модель и наблюдает, и действует, а затем анализирует последствия, определённо кажется перспективным направлением.

Ноам Шазир: Люди могут учиться даже без какого‑либо внешнего ввода, просто с помощью мысленных экспериментов. Эйнштейн, например, многому научился именно так. Ньютон вообще ушёл в карантин, ему яблоко на голову упало — и вот тебе теория гравитации. Или возьмём математику: там же нет никакого внешнего обучения, а знания всё равно накапливаются. Или шахматы: достаточно просто позволить модели играть сама с собой, и она научится. Именно так DeepMind обучала свои шахматные ИИ — им хватило только правил игры.

Так что, вероятно, можно придумать массу способов обучения без внешних данных, причём сразу в нужных нам областях. Конечно, в некоторых случаях без реального опыта не обойтись, но в других, возможно, модель может просто разговаривать сама с собой и становиться умнее.

Как находить себя в каждой новой теме

Дваркеш Патель: Мы обсудили некоторые из ваших проектов за последние 25 лет — и это были самые разные области: от поиска и индексирования до распределённых систем, аппаратного обеспечения, алгоритмов ИИ. И это только вершина айсберга — стоит взглянуть на ваши профили в Google Scholar, и список окажется бесконечным. В чём секрет такой карьеры, которая не просто продолжается десятилетиями, но и охватывает столько разных направлений? Как вам удаётся сочетать глубину и широту знаний?

Джефф Дин: Мне всегда было интересно узнавать что‑то новое, и один из лучших способов делать это — внимательно следить за тем, что происходит в науке, общаться с коллегами, читать свежие исследования и понимать, как меняется научный ландшафт. Важно уметь задаваться вопросами вроде: «А что если применить методы обучения с подкреплением в проектировании чипов?» или «Как ИИ может помочь в медицине?». Я, например, много общался с врачами, чтобы разобраться, в каких аспектах ИИ действительно может принести пользу. Иногда оказывается, что в одной сфере он малоэффективен, а в другой — способен совершить прорыв.

Ещё один ключевой момент — работа в команде с людьми, чьи знания дополняют твои. Когда ты сотрудничаешь с коллегами из смежных областей, вместе можно добиться того, что в одиночку оказалось бы невозможным. Постепенно их экспертиза передаётся тебе, твоя им, и в результате ты становишься гораздо более универсальным инженером‑исследователем, способным решать всё более сложные задачи. Возможность учиться на протяжении всей карьеры — это то, что я действительно ценю. Я получаю огромное удовольствие от погружения в новые области и от того, какие возможности открываются благодаря этому.

Кажется, в мире высоких технологий всё циклично: сначала что‑то тормозит, потом это ускоряют, потом оно начинает перегреваться, а потом кто‑то говорит «А давайте попробуем иначе» — и вот уже новый стандарт индустрии. Но самое интересное не в этом, а в том, как люди ухитряются находить элегантные решения в местах, где, казалось бы, уже всё выбито до последнего нанометра.

И всё же, несмотря на продвинутые архитектуры, оптимизации и тонкую настройку, остаётся ощущение, что где‑то внутри каждой модели всё ещё живёт маленький хаос, который иногда выдаёт что‑то совершенно неожиданное. То ли баг, то ли фича, то ли просто очередной повод задуматься, как оно вообще работает. Благодарю за прочтение, делитесь мыслями в комментариях (-:

Комментарии (29)

kryvichh
16.02.2025 14:29
#27928556
Ноам Шазир - так это тот чувак, которого Google за $2.7 млрд выкупил.
1. Wesha
  16.02.2025 14:29
  #27930294
  Не «его», а его стартап.

sidorovmax
16.02.2025 14:29
#27928674
Носятся придурочные с высосанным из пальца "законом" как с писаной торбой.
1. Hardcoin
  16.02.2025 14:29
  #27928686
  Это всё, что вы вынесли из интервью с парой невероятно умных людей?
  1. hoaken0
    16.02.2025 14:29
    #27928930
    Невероятно умных людей, которые создали невероятно тупую Gemini?
    
    Hardcoin
    16.02.2025 14:29
    #27929018
    Пошутить вам не удалось.
    
    Wesha
    16.02.2025 14:29
    #27930298
    Да, это ведь вовсе и не шутка.
    
    ru1z
    16.02.2025 14:29
    #27929918
    Дык какое там отличие то? С позиции случайного пользователя: чатгпт тоже не образец ума (самым платным не пользовался), дипсик как-то особенно бодро привирает (заметить бывает непросто, наверное как-то можно теплоту настраивать, но он "висит", пользовать долго и так не получается) и про ум в его случае говорить неудобно, qwen показался где-то на уровне гемини, клодом не пользовался, может он и самый умный. Опять-таки с точки зрения случайного пользователя, все чаты неплохо пишут рандомные тексты ни о чем, но для того, чтобы получить что-то осмысленное, нужен пользователь, который понимает что он хочет получить и неплохо знает ограничения нейронок (которых много). А если сравнивать по разным подмоделям, то гемини вроде есть и флеш, и про, и спортлото...

CBET_TbMbI
16.02.2025 14:29
#27928862
Одна из немногих статей про практические аспекты "как делают топовые нейросети". Нутром чую, что она полезна для тех, кто этим занимается или планирует заняться. Но заголовок про Мура вводит в заблуждение.

sobeskiller
16.02.2025 14:29
#27928880
Засиделись на одном месте, закостенели, не развиваются... /s

kryvichh
16.02.2025 14:29
#27929008
Есть несколько очень важных моментов. Например,

Ноам Шазир: Ну, человек за жизнь видит около миллиарда токенов.

Джефф Дин: И при этом умеет делать массу крутых вещей.

Это говорит о том, что механическое скармливание нейросети гигабайтов информации, в несколько заходов (эпох) по кругу -- не самый эффективный метод обучения. А как правильно?

человек может прочитать целую главу книги, а затем попытаться ответить на вопросы в конце — и это уже совсем другой механизм обучения.

Например вот так. Обучаем модель на главе книги, задаём контрольные вопросы. Если ответы правильные -- идём к следующей главе. Есть неправильные -- повторяем неусвоенный материал, и по кругу.

В процессе можно задавать вопросы из предыдущих глав и контролировать запоминание.

И так можно организовать обучение в любой неизвестной модели области знаний: от нейрофизиологии до белорусского языка. По лучшим учебникам в каждой области, по главам, по вопросам. Уверен, это будет гораздо эффективнее тупого прогона бесконечного количества материалов из разных непроверенных источников. Ведь обучение аспиранта на случайно надёрганных в Интернете текстах или беседах в X не сделает его профессором в своей области.

Важно, что такое обучение тоже легко автоматизируется, если во время ответов на вопросы обучающая модель будет иметь доступ к учебнику, а обучаемая -- нет.

Ещё обратил внимание, как разительно отличается эта беседа от интервью с создателем DeepSeek. Хотя тут от журналиста многое зависит: какие вопросы, такие и ответы.
1. ednersky
  16.02.2025 14:29
  #27929104
  Это говорит о том, что механическое скармливание нейросети гигабайтов информации, в несколько заходов (эпох) по кругу -- не самый эффективный метод обучения. А как правильно?
  
  а может быть, что человеческий мозг условно говоря частично "предобучен" (эволюцией) и именно поэтому способен обучаться меньшим числом токенов?
  
  Возможно именно здесь и лежит объяснение, почему вот этот человек склонен к науке, а вон тот - к спорту. У них просто так сложились синапсы
  1. kryvichh
    16.02.2025 14:29
    #27929212
    В нашем мозгу от рождения заложены базовые инстинкты - дышать, есть, спать, замереть при опасности, и наоборот реветь если ребёнок проголодался, звать маму. Но это не требуется для постижения наук. Всёму остальному, начиная от умения говорить, читать, считать, логически думать - мы обучаемся в процессе жизни.
    
    ednersky
    16.02.2025 14:29
    #27929278
    Учимся - я ж разве спорю? Вот только скорость обучения у всех разная, и здесь можно говорить о предрасположенности. А что такое предрасположенность, если не соответствие начального состояния нейронов таргет-модели?
    
    Как устроены компнейронные сети? Берём N нейронов (упрощённо) и у каждого вес и сдвиг присваиваем равным RANDOM, затем обучаем.
    Что такое предрасположенность? Это когда 100500 RANDOM стоят в близком к требуемому значении. Но вероятность такого крайне низка. А вот понятиями "предобученная модель" вполне оперируют.
    
    соответственно м.б. в мозгу общий RANDOM влияет на то чему модель предобучена и получается предрасположенность к изучению одного (и непредрасположенность к другому)?
    
    rsashka
    16.02.2025 14:29
    #27929304
    В процессе обучения у реального мозга изменяются не только веса, но и сами связи между нейронами, а это означает, что при обучении перестраивается сама архитектура сети.
    
    ednersky
    16.02.2025 14:29
    #27931012
    здесь я не вижу противоречия со сказанным мной.
    
    однако информацию о том, что в процессе обучения в мозгу меняется число синапсов слышу впервые.
    
    Не поделитесь ссылкой на материал, где это подробно расписывается?
    
    rsashka
    16.02.2025 14:29
    #27932178
    однако информацию о том, что в процессе обучения в мозгу меняется число синапсов слышу впервые.
    
    И я тоже в первые об этом слышу. Ведь я писал про количество связей между нейронами, а не про количество нейронов.
    
    ednersky
    16.02.2025 14:29
    #27932302
    Связь между нейронами определяется синапсами. Если Вы утверждаете, что количество связей при обучении меняется, то это значит что количество синапсов меняется.
    
    Ну, или я что-то недопонял в Вашем объяснении.
    
    rsashka
    16.02.2025 14:29
    #27932400
    Синаптогенез
    
    ednersky
    16.02.2025 14:29
    #27932842
    Спасибо
    
    karmael
    16.02.2025 14:29
    #27935318
    у человека нет инстинктов, а то что вы называете, - это рефлексы
    
    kryvichh
    16.02.2025 14:29
    #27938512
    Можно заменить в сообщении "инстинкты" на "рефлексы", чтобы избежать спорной концепции.
    
    karmael
    16.02.2025 14:29
    #27938548
    она не спорная, она единственно верная. человек по мере эволюции избавился от врожденных паттернов поведения, Вы не высиживаете камень похожий на яйцо, потому что он похож на яйцо, и вас отключает от аппарата принятия решений
1. CBET_TbMbI
  16.02.2025 14:29
  #27929206
  Ну, человек за жизнь видит около миллиарда токенов.
  
  Вот, кстати, вообше не верю. Они за токены буквы посчитали?
  
  А теперь пусть посчитают пиксели в лице палочек и колбочек в сетчатке. Которые могут различать изменения по несколько десятков в секунду. Даже если учесть размытие того, что не в фокусе, отброс того, что мозг считает не важным, и запаздывание реакции и прочее, то всё равно миллиард должен набраться на несколько минут. Но это то, что достигает сознания. Полный объём информации со зрения может быть по миллиарду токенов за долю секунды. Просто мозг их фильтрует и до сознания доходит доля процента.
  1. kryvichh
    16.02.2025 14:29
    #27929228
    Мы так снова ударимся в философию, неинтересно эти круги наматывать. Могу лишь сказать: слепой от рождения либо глухой от рождения человек обладает интеллектом, может учится и постигать разные науки и профессии слушая/читая книги, обучаясь с учителем. Зрение и слух не являются определяющими каналами для развития интеллекта, хотя и важные.
    
    CBET_TbMbI
    16.02.2025 14:29
    #27929334
    Далеко не сразу он обладает интеллектом. Ребёнка до 2-3-4 лет тяжело назвать разумным. А до года он и вовсе беспомощный. Насчёт слепых можно сказать, что органов чувств у человека много. И может ли человек получить разум, если отключатся все из них, я сильно сомневаюсь.
    
    karmael
    16.02.2025 14:29
    #27935328
    https://ru.wikipedia.org/wiki/Одичавшие_дети
1. gfiopl8
  16.02.2025 14:29
  #27929954
  Человек за жизнь видит намного больше чем миллиард токенов. Картинки, звуки и вообще все сигналы от всех нервов тоже можно токенизировать. Токены даже в ллм это не только слова и буквы.
1. Wesha
  16.02.2025 14:29
  #27930302
  Синтез ещё. «Если курдюмка делает их одного бокрика восемь крокозябликов, а петуська из трёх крокозябликов делает два мардыга, то сколько мардыгов можно получить, имея шесть бокриков?» (И чтобы без подсказок!!!)