«Теперь мы уверены, что знаем, как построить AGI в том виде, в каком мы традиционно его понимали… Сейчас это звучит как научная фантастика, и даже говорить об этом как-то безумно. Все в порядке — мы уже были там раньше и не против оказаться там снова.»
Такой пост 6 января Альтман опубликовал в своем блоге. Интересно, что перед этим он даже сказал, что AGI будет при Трампе, то есть до января 2029 года. Может показаться, что он готовится к очередному раунду приема пожертвований на GPU, и это приглашение сделать пожертвование побольше. Я уверен, что это не так.
Человечество нашло дорогу, по которой можно дальше и дальше улучшать качество моделей, и мы не видим здесь никакого предела. Про эту дорогу знает Альтман, и скоро узнаете вы.
Кто я такой? Я — Сева, сейчас руковожу внедрением разных LLM в Поиске Яндекса, 8 лет занимаюсь искусственным интеллектом. Раньше я не любил термин «искусственный интеллект», в нем как будто очень много робо-терминаторской фигни. Всегда говорил, что занимаюсь машинным обучением. Нынче уже не модно машинное обучение, сейчас говорю, что делаю ИИ, работа при этом не поменялась :) Полюбил.
В этой статье вы узнаете по каким трем фундаментальным законам живет искусственный интеллект и как OpenAI и другие компании планируют достичь этого самого AGI.
Даже Альтман не знает, что такое AGI
В каком это традиционным смысле Альтман понимает AGI? Давайте дадим парочку определений, убрав колдовство, мистификацию и научную фантастику.
Искусственный интеллект — это алгоритм, которые решает задачу, которую раньше мог решать только интеллект человека (определение из «Большой российской энциклопедии»). Кто-то любит здесь говорить про сознание, чувства и прочие вещи. Я, как практик, люблю говорить только о возможностях, которые эта штука дает. С точки зрения практики, ИИ бывает двух видов.
Слабый ИИ. Это интеллект, который решает какую-то узкую конкретную задачу. Это любые шахматные программы, беспилотные автомобили, рекомендательные и поисковые системы и т.д. Короче, почти весь ИИ, который вы знаете — вид слабого ИИ. В этом виде ИИ мы уже получили в конкретных задачах результаты, превосходящие любого человека. Например, приложение в моем не самом новом айфоне обыграет любого чемпиона мира по шахматам. Интересно, что шахматисты сначала расстраивались, а потом смирились и используют теперь ИИ для обучения: он помогает им находить нетривиальные ходы, продумывать позиции. Короче говоря, слабый ИИ мы делать научились.
Сильный ИИ. Его я буду называть AGI или Artificial general intelligence. Это интеллект, который решает сразу все задачи, которые мог решать человек. Вообще все. ChatGPT как раз всколыхнул фантазии в соцсетях, потому что модель умела в задачи, которые ей явно не подавали в обучающее множество. Модель каким-то образом обобщается, умеет делать то, что никогда раньше не видела в обучении. Здесь то и пошли разговоры про AGI.
Разумно сделать какую-то градацию для AGI, чтобы отслеживать прогресс наступления всеобщего блаженства. В статье от DeepMind предложили такое: давайте уберем все задачи, связанные с физическим миром, зафиксируем как-то максимально широкий список интеллектуальных задач в разных областях и введем такую градацию:
Уровень 1. ИИ решает любую задачу из этого списка также, как человек, который совсем не эксперт в теме задачи (по мнению авторов, мы находимся тут)
Уровень 2 ИИ решает любую задачу из этого списка не хуже, чем лучшие 50% специалистов в области
… каждый новый уровень наращивает этот процент ...
Уровень 5 ИИ решает любую задачу из этого списка лучше любого человека — это ASI, он же Artificial Superintelligence, он же Сверх Интеллект.
Давайте считать, что наш “реалистичный AGI” — это уровень 2: хотим чтобы ИИ был медианным специалистом по всем областям. Интересно, что сам Альтман давал похожее определение: «AGI — это система искусственного интеллекта, которая может делать то, что делают очень квалифицированные люди на важных работах».
Основной вопрос, что это за работы такие, по которым соревноваться с человеком? Он стоит у вас, но явно не у Альтмана: он уж как-нибудь подберет список работ, чтобы по ним победить человека и назвать это AGI. У кого линейка, тот и главный.
Забавно, что когда OpenAI стала коммерческой компанией, они секретным образом ввели свое новое определение AGI: «AGI — это момент, когда модели OpenAI принесут минимум 100 миллиардов долларов прибыли». Такую прибыль примерно Apple генерирует за год. О времена, о нравы!
Как мы будем строить AGI
Известно всего 2 варианта научного познания: теория и эксперимент.
Я утверждаю, что теория в искусственном интеллекте практически отсутствует.
Многие думают, что ИИ-модели придумывают ученые-теоретики-математики. Они сидят со скомканным куском бумаги, грызут карандаш и иногда свои ногти, придумывая новую модель. В реальности модели придумывают инженеры, когда проводят кучу экспериментов на огромных кластерах, которые строили другие инженеры.
Почему так происходит? Мы все быстро бежим, теория за нами не поспевает. Для теории нужны какие-то предположения об архитектуре модели, на распределение данных, методе обучения, а это все меняется через пару месяцев. Так и живем.
Я не видел ни одной практически полезной теории, которая хоть как-то объясняла, что нужно делать, чтобы вырастить качество модели. Никаких теорем о том, как правильно выбирать гиперпараметры при обучении 30 слойного трансформера. Все передается из уст в уста (из статьи к статье), где в отдельном разделе авторы моделей пишут, с помощью какого колдовства они это получили. Хорошим тоном будет еще выложить код, потому что в обучении столько нюансов, что воспроизвести статью может быть не под силу.
Когда мы работаем с ИИ единственное, на что можно положиться — на эмпирику.
С точки зрения эмпирики, прогресс ИИ двигает всего 3 закона.
Закон Мура
Закон масштабирования обучения
Закон масштабирования предсказания
Давайте про каждый подробнее.
Закон Мура
Стоимость вычислений экспоненциально падает со временем. Можно посмотреть по историческим данным и вывести точную формулу, но нам важен только тренд. Закон эмпирический, никакой теории нет, но мы этот тренд наблюдаем уже сотню лет. Нашел в паблике цитат такую: «1 раз — случайность, 2 раза — совпадение, 3 раза — закономерность, 4 раза — закон!». 100 лет — это тогда точно закон.
Модель GPT2, которая была невероятным прорывом 5 лет назад, сейчас может воспроизвести любой студент с бюджетом в 30$. Через несколько лет я то же самое напишу, но уже для GPT3.
Закон масштабирования обучения
У него нет конкретного имени или формулировки, его много раз замечали и в покере, и в шахматах, и вот теперь в ИИ. Одна из самых известных работ на эту тему Kaplan, et al, 2020. Закон говорит, что ошибка модели зависит от трех величин: C - сколько вычислений вы использовали для обучения, D - размер датасета, N - сколько параметров в модели. Теперь самое важное: эта зависимость офигеть какая точная.
Внизу графики из статьи, вы можете заметить, как хорошо все точки кладутся на одну ровную линию (обе оси при этом логарифмические). Наклон этой линии определяет, как модель хороша при масштабировании - чем выше наклон, тем проще растить качество.
Как закон получен? Ровно так, как вы ожидали: эмпирически. Обучали кучу раз разные LLM, ставили точку на график, удивлялись происходящему.
Все 3 величины, понятно, зависимы — нельзя просто сделать триллионную модель и обучаться на одном примере. Каждый график получен в предположении, что другие величины неограничены. Например, когда смотрим зависимость от размера модели, считаем, что у нас бесконечно много данных и вычислений.
Что меня поражает и должно поражать вас: это очень ровная прямая. Я таких ровных прямых не видел, когда делал лабораторные по физике (возможно, конечно, дело во мне). Именно эта прямая вселяет уверенность, что мы понимаем, как двигаться в сторону AGI.
Про закон масштабирование сам Альтман сказал следующее:
Самое важное знание, обнаруженное в моей жизни, заключалось в том, что масштабирование моделей ИИ приводит к невероятным и предсказуемым улучшениям интеллекта. У меня был странный опыт, когда я рассказывал об этом другим людям, пытаясь уговорить этих людей дать нам деньги.
Лучше и не скажешь.
C ростом параметров/данных/GPU растут все возможные метрики на различных задачах: перевод становится точнее, ответы на вопросы корректнее, задачи по математике начинают решаться. Даже текст, который генерирует модель все сложнее и сложнее отличить от текста написанного человеком.
Все архитектуры можно и нужно масштабировать. Неважно, у вас сверточная сеть, рекуррентная LSTM-сеть или трансформер. Но все они масштабируются по-разному. Так как вычисления дешевеют, нужно брать ту архитектуру, которая масштабируется максимально хорошо. За это как раз отвечает наклон прямой в законе масштабирования. Чем больше наклон — тем эффективнее архитектура масштабируется, а значит, при добавлении параметров, данных и мощностей будет скорее расти.
Это все мы уже давно видели в задачах компьютерного зрения.
Сверточные сети — огромный прорыв в машинном обучении. Архитектура, которая уничтожила всех своих предшественников в задачах компьютерного зрения. За счет чего? За счет удачных предположений, которые оказались невероятно полезны и позволили эффективно учить такие модели на миллионах изображениях.
А что будет если изображений станет на 2 порядка больше? Не миллион, не десять миллионов, а триста миллионов? Будут ли сверточные сети самым эффективным решением, или есть более удачная архитектура, у которой лучше константа законов масштабирования? Да, есть: VIT, или Vision Transformer. Та же архитектура, что для обработки текстов, но теперь и для изображений.
До 2021 года не получалась обучить трансформеры на изображениях, чтобы побить сверточную архитектуру. В статье 2021 сопротивление сверточных сетей было сломлено. Думаю, вы догадались, как авторам это удалось — они залили более универсальную архитектуру данными и железом.
На небольших объемах данных сверточные сети обыгрывают трансформеры, но они не так быстро растут в качестве, если данные (а значит и вычислительные мощности) начинаем подливать. Все за счет лучшего масштабирования у трансформеров. И так будет с каждым.
Не случайно во всех задачах возникает именно трансформер: это действительно универсальная архитектура, которая очень очень хорошо обучается. Трансформерами даже временные ряды предсказывают вместо классической ARIMA, на них строят рекомендательные системы вместо классической матричной факторизации. Андрей Карпатый даже как-то назвал трансформер дифференцируемым компьютером, потому что он может аппроксимировать очень сложные зависимости и очень легко обучается.
Это крепко поняли ребята из OpenAI в 2019 году, когда сделали GPT2. Поняли одни из первых, поставили на это и не ошиблись — все по законам стартапов. Дальше были GPT3, ChatGPT, GPT4 и титул самой передовой компании в мире. Сейчас этот закон поняли уже все участники рынка: Google, Amazon, Илон Маск и прочие вваливают огромные деньги в кластера для обучения моделей.
Google ворвался в гонку с опозданием примерно в полтора года от OpenAI, но у него есть огромный бизнес, деньги из которого можно тратить на кластера. Google инвестирует в новые кластера миллиарды долларов, а его модели иногда уже обходят OpenAI на публичных тестах.
Amazon стал обучать свои LLM, которые пока отстают от OpenAI, но это скорее вопрос времени, учитывая финансовые возможности компании. Amazon же проинвестировал 8 миллиардов долларов в Anthropic и теперь вместе делают гига кластер для своих LLM. Anthropic, кстати, первым смог научить LLM работать напрямую через компьютер, решая кучу рутинных задач пользователей.
Маск в рекордные даже для самого себя 122 дня собрал самый большой в мире кластер из 100 тысяч H100 На нем уже обучили Grok3. Ждем выхода, должна быть сравнима по метрикам с GPT-4o. Вообщем, конкурентов у ребят из OpenAI прибавилось.
В итоге этого всего, OpenAI потерял 16% рынка корпоративного LLM, а Anthropic нарастил свою долю на 12%. В 2025 конкуренция будет еще серьезнее, разрыв в технологии будет сокращаться. Закон масштабирования обучения наконец поняли абсолютно все.
Закон масштабирования предсказания
Илья Суцкевер, один из основателей OpenAI, на конференции NIPS обрадовал нас, что сытые годы прошли — масштабировать обучение и получать качество больше не получится. Почему? У нас закончились текстовые данные. Почему кончились данные, а не деньги? Закон Мура, который мы обсуждали ранее, работает — железо дешевеет, а данные мы с такой скоростью не успеваем производить.
LLM учатся на данных из интернета, а интернет у нас один (внезапно) и полон мусора. Коллеги из Epoch Ai провели оценку и прикинули, что всего 20% данных интернета пригодны для обучения. В зависимости от роста потребления, мы потратим все текстовые данные между 2025 и 2028 годах. Больше данных нет. Еще и в этом смысле данные — это нефть: у нас они есть, они двигают человечество, но запасы иссякают. Да, помимо текстовых данных у нас еще есть картинки/видео/аудио, но пока мы еще не научились извлекать так эффективно информацию, как для текстовых данных.
Существует наивное правило — на следующее поколение моделей (GPT5 и подобные) нужно в 100 раз больше всего. Больше данных, больше модели, больше вычислений. Следующее поколение моделей еще получит буст в качестве от масштабирования, благо дата-центры успешно строятся, да и данные еще остались. Но вот с GPT6 и далее будет трудно. Нам нужно масштабироваться как-то дальше, без масштабирования обучения. Благо у OpenAI и тут нашелся ответ.
Что делать, если уже не можете нарастить мощности для обучения моделей? Правильно, растить мощности для предсказания модели. Это умно называют растить test-time compute.
До этого мы всегда требовали от модели моментального ответа: она должна была сразу же с первого символа своего предсказания давать правильный ответ. Вы можете сразу же, с чистого листа, написать эссе, презентацию, программный код? Или вам надо сначала крепко подумать? Вот, LLM тоже надо.
В OpenAI показали, что этот подход дает невероятный прирост в метриках. Модель o1 из коробки начала рассуждать перед ответом на вопрос. O1 показала потрясающие результаты в сложных задачах, вроде математики и программирования, наголову обойдя всех предшественников, но отвечать она стала дольше, и пользоваться ей стало сильно дороже.
Как работает o1? OpenAI, конечно, не говорит, но мы попробуем догадаться.
Идея, что можно масштабировать вычисления в моменте предсказания не нова. Ровно также работают шахматные программы, перебирая варианты перед новым ходом. Так уже делали для нейросетей, но не для LLM, а для игры в GO. Помните AlphaGo Zero? Нейронная сеть, которая в тысячи раз меньше современных LLM, обучалась на собственных партиях и научилась играть в Го лучше любого из людей.
Что многие не знают. Если бы AlphaGo Zero не думала долго перед каждым ходом, а пыталась сразу дать ответ, она не смогла бы побить людей в го. AlphaGo сначала делает вероятностную оценку, как можно сходить, а потом запускает алгоритм Monte Carlo Tree Search. Алгоритм оценивает вероятные результаты после розыгрыша каждого хода и оценивает успешность разных ходов. Понятно, такой алгоритм требует вычислений, только уже не во время обучения модели, а во время предсказания.
Noam Brown, один из главных исследователей в OpenAI и создателей o1 модели, говорил о таком правиле: чтобы получить 120 очков Elo в го, нужно либо в 2 раза увеличить вычисления на обучения, либо в 2 раза увеличить вычисления на предсказание. Вот чтобы из состояния 3000 Elo (модель совсем без поиска) дойти до 5000 Elo, вам нужно на обучение потратить в 100 тысяч раз больше вычислений. После какого-то уровня, масштабировать обучение уже экономически будет невозможно, поэтому придется масштабировать предсказание.
Важно понять: технически вы можете растить обучение дальше, качество будет расти, просто экономически это глупо. Масштабирование модели = масштабирование обучения умноженное на масштабирование предсказания.
Как бы нам такое завести не для игр, а для LLM. Начнем с самого наивного варианта.
В статье со смешным названием Large Language Monkeys заставляли опенсорс модель DeepSeek-Coder-V2 генерировать сотни ответов на каждую задачку по программированию, а затем проверяли решение только у того кандидата, кто прошел все unit тесты. Таким жадным наращиванием вычислений не самая мощная опенсорс модель побила самую мощную на тот момент GPT-4o.
Главная хитрость этого метода: в программировании просто верифицировать решения. Когда вы выдаете разные решения, очень просто прикинуть по тестам, рабочее оно или совсем хлам. Например, для генерации сочинений так уже сделать не получится.
Из этого простого метода мы поняли, что для масштабирования предсказания LLM нам нужно ровно два компонента. Первый компонент — за счет чего мы будем растить вычисления. В статье просто генерировалась куча вариантов ответа на один вопрос. Второй компонент - как мы поймем, что мы идем в правильном направлении. В статье были unit тесты, но они есть не всегда и не всегда все покрывают.
Начнем с первого компонента. Когда человеку надо крепко подумать, он не придумывает 100 решений, а потом выбирает между ними. Он рассуждает. Кажется, что решение сложной задачи через рассуждения, чем-то похоже на игру в го. У вас есть итоговая цель (решение задачи) и логические ходы, которые вы можете делать. В этом смысле рассуждение это ничто иное как поиск. Ровно такой же поиск, который мы делали в го с помощью Monte Carlo Tree Search. Только там мы находили ход, который приблизит нас к победе в игре, а теперь надо найти мысль, которая решит задачу. Нащупали идею, да?
Теперь второй компонент. Рассуждений можно придумать бесконечно много. Нужно уметь как-то проверять, какие рассуждения правильные, а какие нет. И делать это не только юнит тестами для программирования, нужен общий подход для всех задач. И нам не очень хочется генерировать миллиард вариантов рассуждений и все их тестировать, как в статье — это очень дорого. Нужно проверять не в самом конце, когда уже готов финальный ответ, а в моменте генерации нового логического шага. Так ваша задача сильно упростится — не нужно тратить силы на цепочку рассуждений, когда уже после двух шагов понятно, что мы куда-то идем не туда. Во всех играх такой верификатор есть: если вам прилетит мат в 2 хода, то пошли вы слабо. Значит, нам надо создать такой верификатор. Тогда можем просто запустить какой-то алгоритм поиска и найти самый хороший логический ход.
Думаю, теперь то вы точно нащупали, к чему все идет.
В 2023 году OpenAI выпускает статью Let’s Verify Step by Step, в которой они строят верификатор и учат модель рассуждать. Думаю, что это статья предвестник o1, вышедшей в 2024. Статья фокусируется на решении математических задач. В статье промптом заставили модель рассуждать шаг за шагом, а затем каждый шаг рассуждения рассуждения разметили разметчиками - приближает ли он к решению проблемы или он вообще ошибочный.
В итоге разметили датасет PRM800K, в котором 800 тысяч таких размеченных логических шагов. На этом датасете обучили верификатор, который предсказывает корректность каждого шага рассуждений. Когда такой верификатор есть, мы уже можем выбрать решение, у которого нет никаких логических ошибок. Все ровно как в играх. Такой метод позволяет на 25% поднять точность решения математических задач.
Теперь все будут масштабировать также. Примерно таким же образом, как мы с вами обсудили, уже делают опенсорсные решение. Модели в облаке, конечно, будут стоить сильно дороже…
Конечно, такой сложный поиск требует дополнительных ресурсов. OpenAI в ананосе o1 показал график, как растет качество модели при масштабировании по двум осям: обучения и предсказания.
Теперь вы понимаете, почему такой дикий прирост происходит именно для программирования и математики. Там очень понятно, как строить верификатор.
Спустя всего 3 месяца после релиза o1 вышла модель o3 (решили сразу замахнуться на o3, чтобы избежать конфликта с британской телеком компанией o2). Здесь про AGI шутить перестали даже скептики.
O3 смогла побить человека на задачах, которые 5 лет не могли покориться машинам - визуальным головоломкам. Такой набор задач предложили в статье в 2019 году и назвали ARC-AGI. Автор определял AGI как способность осваивать новые навыки, которых ранее не было в обучающем множестве. Поэтому ARC-AGI так сложно давался моделям. Каждая задача в этом наборе уникальная — она отдельно разрабатывалась и все задачи тестируют разные аспекты интеллекта. Сама проверочная выборка, разумеется, нигде не была опубликована.
GPT3 в 2020 году решал ровно 0 таких задач. GPT-4o в 2024 году решал целых 5%.
Среднестатистический человек решает 75% задач. O1, немного подумав, решал уже 31% задач. O3, крепко крепко подумав, правильно решает 88% задач.
Крепкое думанье стоит денег. Пока модель рассуждает, она пишет тексты, расходует GPU. Чтобы сделать предсказание модели o3 на на одном примере из ARC-AGI, OpenAI тратила 1000 долларов. Для сравнения, сам автор соревнования говорит, что ему люди решали эти же самые задачки по 5 долларов за штуку. Пока выглядит, что ИИ дороже людей, но думаю, мы сможем чуть-чуть оптимизировать.
Конечно, побить человека на ARC-AGI не значит, что o3 это AGI. Об этом говорят и сами авторы соревнования. Это просто очень сложный бенчмарк, который спроектирован таким образом, что прошлые поколения моделей не могли с ним справиться. Мы научились эффективно (1000 долларов за пример, ха-ха) масштабировать предсказание модели. Тем самым, смогли решать те задачи, которые год назад нам казались нереальными. Кстати, авторы ARC-AGI, они уже выпустили анонс, что готовят новый крепкий орешек для моделей — ARC-AGI-2, в котором модели смогут решить ну максимум 30% задач. Выпустят то они выпустят, но не думаю, что с таким прогрессом он продержится больше года.
Что важно: o3 вышло спустя всего 3 месяца после релиза o1 и уничтожила o1 по метрикам. Мы только начали масштабировать предсказания, только завели самые первые алгоритмы - у нас огромное поле непаханное для экспериментов. В 2025 году нас ждет огромное множество рассуждающих моделей.
Масштабированием обучения мы занимаемся несколько лет и там прогресс явно медленнее идет: GPT-5 мы 2 года ждем и инвесторы уже беспокоятся...
Заключение
Я легко умещу основную идею в один абзац. Даже немного стало обидно, что идея не так велика, как мне казалось изначально.
Выберите правильные алгоритмы, которые вы можете масштабировать. Дальше масштабируйте обучение модели и масштабируйте предсказание модели. Да, и еще не забывайте про закон Мура — он поможет вам не разориться.
Примерно тоже самое говорил Ричард Саттон в своем Bitter Lesson еще в 2019:
Главное, что следует помнить — великую силу методов, которые продолжают масштабироваться с увеличением вычислений, даже когда доступные вычисления становятся очень большими. Два метода, которые масштабируются произвольно таким образом: это поиск и обучение.
Поиск и обучение. Ровно те два метода, о которых мы рассуждали в статье. Мы мастерски научились масштабировать обучение. Пришло время поиска.
Об авторе
Друзья, спасибо, что дочитали эту статью до конца! Буду рад любым комментариям и замечаниям.
Подписывайтесь на мой телеграм канал, где я рассказываю про самое важное из мира искусственного интеллекта, а главное — как это воплощать на практике.
P.S. Огромное спасибо за редактору Юлии Булгатовой.
Комментарии (77)
cupraer
14.01.2025 04:22GPT3 в 2020 году решал ровно 0 таких задач. GPT-4o в 2024 году решал целых 5%.
Знаете, сколько таких задач за всю свою жизнь решил я? — Угу, мы с GPT3 вровень. И что это доказывает? — Да ничего.
Мы мастерски научились масштабировать обучение.
Да ну? А почему тогда любой пятилетний ребенок может влёгкую поставить любую генеративную модель в тупик своими вопросами за три минуты? Это риторический вопрос: ребенок мыслит, а генеративные модели — это статистически-вероятностное продолжение по известному, всегда им было, и навсегда им останется. Люди поумнее (Хинтон, Лекун и типа того) — понимают, что из Т9 не получить интеллект. Люди поэффективнее — впаривают венчурам, пока не схлопнулось. Ну а есть еще те, кто верит в светлое будущее.
flancer
14.01.2025 04:22Среди тех, кто верит в "светлое будущее", есть и те, которые понимают, что "Т9 на стероидах" - хороший инструмент для решения класса задач. Не AGI, конечно, но тоже ничего так. Что-то типа паровой тяги во времена гужевого транспорта. Понятно, что с лошадью и пятилетний ребёнок управляется, а на машиниста учиться нужно, но...
cupraer
14.01.2025 04:22есть и те, которые понимают, что «Т9 на стероидах» — хороший инструмент для решения класса задач
Разумеется, с этим спорить глупо. Просто этот класс задач практически не пересекается с классом задач, решаемых тем, что мы называем «интеллект». Я никогда не смогу назвать точную дату рождения Пия V, нарисовать поедающего чипсы кота, или написать письмо в налоговую с соблюдением всех нормативов.
Зато «Т9 на стероидах» никогда не сможет решить те задачи, за которые мне платят зарплату (потому что ему тупо негде подсмотреть решение). Так что «банк не торгует пирожками — а я не даю взаймы», всем выгодно.
Wesha
14.01.2025 04:22...но нас заводят в локальный максимум, где все умевшие справляться с лошадью повымерли в виду своей локальной неэффективности, а ИИ упёрся в свой потолок.
doctorclo Автор
14.01.2025 04:22Я не спорю, что несмотря любые бенчмарки, модели глупее 5-летнего ребенка.
Я также не готов спорить, кто «умнее» Лекун или Суцкевер :)
С чем я готов спорить: что на текущая технология плоха, потому что она «т9».
Никто не знает, как работает наш мозг, даже Хинтон. Тот факт, что батут (т9) работает сейчас неоспорим и его будут масштабировать дальше.
cupraer
14.01.2025 04:22А я не говорил, что технология плоха (см. мой комментарий выше). Я говорил, что генеративные модели — тупиковая ветка в вопросе создания интеллекта. Мозг работает не так, это уже очевидно. Надо бы по-хорошему признать, что мы построили прекрасный инструмент для суммаризации и даже генерации в смежных областях, и на том успокоиться, попытавшись вместо изнасилования новых мощностей и обогащения нвидии, — придумать что-нибудь еще.
doctorclo Автор
14.01.2025 04:22Нам и не нужно воспроизводить мозг.
Нам нужна технология, которая даст определенную способность.
Чтобы летать над землей не нужно воспроизводить механику птицы.
Достаточно наполнить газом шар :)
cupraer
14.01.2025 04:22Нам и не нужно воспроизводить мозг.
Абсолютно согласен. Да вот незадача: современные генеративные модели — это попытка воспроизвести мозг.
Если в самом начале пути построить агрегат с крыльями, лапками и красной грудкой, — то сколько его газом не наполняй — не взлетит, гад :)
doctorclo Автор
14.01.2025 04:22В генеративных моделях от мозга только название «нейронные сети» :)
Терминология не самая удачная, согласен.
Это математическая модель, ее не развивают так, чтобы она была похожа на мозг.
cupraer
14.01.2025 04:22Я в курсе, как устроены эти модели. И я знаю, как её развивают. Но еще я знаю, из какой теории они выросли, именно поэтому в комментарии выше я написал:
Если в самом начале пути построить агрегат с крыльями, лапками и красной грудкой, — то сколько его газом не наполняй — не взлетит, гад.
event1
14.01.2025 04:22В генеративных моделях от мозга только название «нейронные сети»
Простите, но с этим невозможно согласиться. Весь интернет наполнен этим вашим "искусственным интеллектом" и даже "искусственным обобщённым интеллектом". Да вы и сами сдались и стали "делать ИИ", вместо машобуча. Интеллект, он, как бы, от мозга. И все эти постоянные соревнования с человеком, хоть в го, хоть в логических задачах явно указывают на то, что авторы хотят повторить человеческий мозг, но в электронном виде.
IvanTes1
14.01.2025 04:22Есть разница между "повторить человеческий мозг" и "создать что-то, что сможет выполнять задачи мозга". Взять например искусственное сердце от Техасского института сердца. Оно на настоящее живое сердце абсолютно не похоже - мышц или любого другого механизма сжатия нет, клапанов нет, качает кровь непрерывным потоком без пульса. Но при этом выполняет нужную функцию - гоняет кровь по организму, насыщая ткани кислородом.
Alexey2005
14.01.2025 04:22Нам не нужен человеческий мозг, нам нужна лишь небольшая часть его функциональности. Не сам мозг - а та работа, которую он производит.
Грубо говоря, если мы хотим быстро плавать - нам не нужно строить искусственную рыбу, для начала хватит парусной лодки. Это уже позволит при некоторых условиях преодолевать большие расстояния быстрее большинства рыб и перевозить грузы.
VPryadchenko
14.01.2025 04:22Современные попытки воспроизвести мозг строятся на мультикомпартментных нейронах Ходжкина-Хаксли (емнип), которые имеют ну уж очень мало общего с современными генеративными моделями.
SolutionFound
14.01.2025 04:22почему тогда любой пятилетний ребенок может влёгкую поставить любую генеративную модель в тупик своими вопросами за три минуты?
Дети, развиваясь, "тестируют" мир, а также взрослых - задавая им свои вопросы, основанные на воображении, недопонимании контекста или просто желании проверить границы. При этом пятилетний ребёнок может точно так же легко поставить в тупик любого взрослого. Но это ведь не говорит о глупости взрослого человека, не правда ли? Как это не говорит и о том, что интеллект пятилетнего ребёнка выше взрослого, согласны? Поэтому я нахожу странным использование вами аргумента про ребёнка при обсуждении качества ответов LLM.
Умение отвечать на абсолютно любые вопросы, включая самые абстрактные детские - это, конечно, было бы похвальной способностью нейросети. Но, много ли в этом смысла? Ведь намного важнее способность решать конкретные, полезные задачи реального мира. А с этим LLM стабильно справляются всё лучше и лучше.
cupraer
14.01.2025 04:22Ведь намного важнее способность решать конкретные, полезные задачи реального мира.
Несомненно.
А с этим LLM стабильно справляются всё лучше и лучше.
Эммм… У нас либо миры разные, либо задачи в них.
axion-1
14.01.2025 04:22Пятилетний ребёнок может и меня поставить в тупик своими вопросами. Сам этот факт ещё не значит что ребёнок мыслит лучше меня, хотя и не исключает такую возможность.
Сравнивать T9 с современными LLM это примерно как сравнивать мозг ящерицы и мозг человека. Да, идейный предшественник, но построен на другой архитектуре и возможности отличаются на порядки.
Wizard_of_light
14.01.2025 04:22почему тогда любой пятилетний ребенок может влёгкую поставить любую генеративную модель в тупик своими вопросами за три минуты?
Пятилетний ребёнок вопросами способен поставить в тупик систему произвольной интеллектуальной мощности. В большинстве областей пять-десять обычных последовательно заданных вопросов "почему" выводят нас на передовые рубежи исследований и ставят перед стеной несгрызенного гранита науки.
Люди поумнее (Хинтон, Лекун и типа того) — понимают, что из Т9 не получить интеллект.
Это опять "вы находитесь здесь"-гонка. С появлением нейросетевых трансформеров текстов и изображений внезапно оказалось, что ещё одна область человеческой деятельности может быть автоматизирована. Не, площадка для отступления у нас ещё есть, но на ней как-то уже тесновато стало.
cupraer
14.01.2025 04:22Пятилетний ребёнок вопросами способен поставить в тупик систему произвольной интеллектуальной мощности.
Это прекрасно, клянусь, афоризм — хоть в бронзе отливай :)
ещё одна область человеческой деятельности может быть автоматизирована
Дык это хорошо. Просто не нужно повторять вслед за подлецами слово «интеллект». Те хотя бы деньги из инвесторов сосут, их можно понять. А апологеты задаром такую лютую дичь поддерживают и разгоняют.
на ней [площадке] как-то уже тесновато стало
Пф. Не думаю. В студенчестве мне приходилось строить дома, кирпич класть, то-сё. И я не поленился вежливым обращением, сигаретами и бухлом подкупить печника, который со мной поделился некоторыми своими секретами. И потом я до конца института иногда получал входящие звонки от незнакомых людей, уезжал на недельку-другую в глушь, разбирал старую и клал новую печь за деньги, на которые потом жил месяца три. Я это к тому, что даже очень жадного но ленивого Васю — хорошую печь класть не научить, что уж говорить о бесхарактерном неамбициозном Т9.
OlegMax
14.01.2025 04:22Чет я запутался. Можете для меня расположить в порядке увеличения мощности интеллекта? Спасибо
Слабый AI (определение из статьи)
AGI
Печник
Пятилетний ребенок
RigidStyle
14.01.2025 04:22Вы не поверите, но пятилетний ребенок своими вопросами может поставить за три минуты в тупик кого угодно, а не только ИИ.
Flux
14.01.2025 04:22Это опять "вы находитесь здесь"-гонка.
Это нейрохомякам очень нравится такой аргумент. На деле это ложная аналогия, какой бы правдоподобной не была китайская комната - интеллектом она никогда не станет. Сколько тест-тайм компьюта не влей в LLM - она от этого не станет "рассуждать", как бы не хотелось акционерам "AI" стартапов убедить людей в обратном.
diakin
14.01.2025 04:22интернет у нас один (внезапно) и полон мусора
Ну так есть научная литература - учебники, монографии итд. Она уже полностью освоена?
И если уж говорить об ИИ похожим на человеческий, то надо озаботиться памятью. А то ИИ даже диалог вести не умеет, потому что каждый раз, как первый.
И вообще модель, обученная распознаванию вопросов, должна уметь пользоваться базой знаний, чтобы используя ее формировать ответы. Хотя бы через тот же поиск в интернете )
А то пока получается так"Задание: Ударный вертолет Ка-52 «Аллигатор» Два соосных несущих винта с тремя лопастями в мире магии сражается с драконом взрывы "
"Где два винта? Почему 4 лопасти? Где дракон?? "
Дальше
ОстапаШедеврум понеслоА ведь мог бы поискать картинки в интернете, дообучиться и выдать что более вменяемое.
Как люди делают...doctorclo Автор
14.01.2025 04:22Точно никто не знает.
Для книг есть еще авторское право, с OpenAI тут даже активно судятся
diakin
14.01.2025 04:22Ну есть, но можно же и купить право на использование, как это говорится - "заключить договор с правообладателем". Что всякие УФН и Письма в ЖЭТФ.. будут против если им денег подкинуть? Или издательста научной литературы. Да полно книг полувековой давности в свободном доступе.
Можно замутить свой научный журнал в конце концов
А что там вообще в лицензии пишут, для каких целей можно использовать приобретенные книги?
Куча бумажных книг была списана и ушла в макулатуру в библиотеках. Ну да, конечно, придется роботу руки приделывать, чтобы он мог станицы перелистывать и читать.)))
Ну так все равно потом придется делать )
inkelyad
14.01.2025 04:22то надо озаботиться памятью. А то ИИ даже диалог вести не умеет, потому что каждый раз, как первый.
Память есть. Вот весь этот набор весов - и есть память. И контекст разговора - тоже память. Только другая.
По идее - почти полный эквивалент человеческих долговременной и кратковременной памяти.
Просто у нас вычислительных ресурсов не хватает. По хорошему модель(у каждого пользователя - свою, да еще не по одной штуке) нужно через како-то промежуток разговора отправлять 'поспать'/'обдумать разговор', чтобы производить тренировку - перенос знаний из кратковременной памяти в долговременную.
Впрочем, с некоторой долей натяжки так и происходит. Просто за экземпляр ИИ нужно считать не текущий набор весов, а всю линейку весов или даже всю компанию. И тогда становится очевидно - что вот этот человек-машинный голем очень даже учится и запоминает.
diakin
14.01.2025 04:22нужно через како-то промежуток разговора отправлять 'поспать'/'обдумать разговор', чтобы производить тренировку - перенос знаний из кратковременной памяти в долговременную.
Вот он (ИИ) должен функционировать в непрерывном режиме, когда не занять "беседой", то учиться. Самообучаться. Как люди. "Пока ты спишь - ИИ качается".
Путь берет задачник по физике и решает задачи. Там в конце есть ответы, пусть "верифицирует". "Весь этот набор весов" - это думалка, АЛУ. На вход принимает данные, на выходе выдает ответ. Но фактически это "жесткая логика" - как обучили, так он и работает. А должен уметь самообучаться, менять эти коэффициенты.
То есть нынешний ИИ должен быть встроен в более общую систему.
proxy3d
14.01.2025 04:22Даже близко не аналог кратковременной человеческой. От слова совсем, кратковременная гораздо сложнее чем текущие трансформеры. Так же, как и на долговременную он похож лишь частично. Небольшая часть.
Alexey2005
14.01.2025 04:22Просто у нас вычислительных ресурсов не хватает. По хорошему модель(у каждого пользователя - свою, да еще не по одной штуке) нужно через како-то промежуток разговора отправлять 'поспать'/'обдумать разговор', чтобы производить тренировку - перенос знаний из кратковременной памяти в долговременную.
Можно сделать ещё проще - увеличить размер контекста. Он кстати по мере масштабирования нейронок и так увеличивается. У младшей GPT-1 он был всего 512 токенов, сейчас даже локальные нейронки, запускаемые на одном GPU, запросто берут рубеж в 128 тыс. токенов.
Если продолжить наращивать размер, рано или поздно количество перейдёт в качество: нейронка с контекстом в 500 Гб токенов уже сможет с некоторой натяжкой считаться обладающей абсолютной памятью: выдержит любой размер беседы с человеком, и накидать туда текстов можно очень много, почти неограниченно.
Slavz
14.01.2025 04:22А у меня вот так получилось в ChatGPT.
Изображение Задание: Нарисуй иллюстрацию к книге - Ударный вертолет Ка-52 «Аллигатор» у него два соосных несущих винта с тремя лопастями, Оказавшись в мире магии сражается с со средним драконом, вокруг которого взрываются ракеты.
--
На изображении хаотично направленные плазменные выстрелы, они непонятно кем произведенные и по этому бессмысленные, их надо убрать.
--
Пусть будет: Общий вид над лесом, вертолет против дракона, летят навстречу друг другу, стреляют из-все чего можно, наблюдатель в 500 метрах от точки встречи.Недостатки все еще наблюдаются )))
RigidStyle
14.01.2025 04:22Я думаю основная ошибка в проектировании всемогущего ИИ в том, что его берут и проектируют весь.
Если мы возьмем мешок нейтронов, и они будут взаимодействовать между собой случайным образом, то что то получится. Дальше произойдет обратное распространение ошибки, и как то что то скорректируется. Но из за того, что нейтронов очень много, комбинаций очень много, и все их нельзя оттестировать даже в теории. В итоге остается много "внезапных приколов", которые ИИ иногда отмачивает.
Человек же развивался так, что сразу развилась простейшая система принятия решений (рептильный мозг), а после происходило многократное дообучение с добавлением все новых и новых функций.
Более того, у человека много нейтронных сетей, каждая из которых свою функцию выполняет. ну вроде того, что за нюх одна отвечает, за зрение другая, а за сны третья. И они все работают вместе.
И ИИ стоит так же проектировать. начала простенькую модель, которая не стреляет в ногу себе и разработчику в голову. Потом научить ее видеть котиков, потом слагать стихи, потом строить терминаторов.
doctorclo Автор
14.01.2025 04:22Согласен, нам было бы так проще и спокойнее. Но так почему-то ни у кого не получается. Масштабировать получается, а по шагам выстраивать интеллект - нет.
cupraer
14.01.2025 04:22Мы же все понимаем, что это аргумент «потерял кошелёк вон там, а ищу вот тут под фонарём, потому что тут светлее»?
molnij
14.01.2025 04:22Конечно, но пока метод работает - он работает. К слову, где кошелек потеряли - не очень понятно, но начать искать под фонарем постепенно увеличивая зону поиска во тьму - почему бы и нет?
cupraer
14.01.2025 04:22начать искать под фонарем постепенно увеличивая зону поиска во тьму - почему бы и нет
Не, я ничего против-то не имею, бабло-то вливается в эту воронку без дна не моё, а инвесторское. Просто неплохо помнить, что увеличивая зону поиска вширь — трудно заметить что-то сверху.
acsent1
14.01.2025 04:22Чтобы вширь расти не нужно столько денег. Ибо это просто "доказательсво теорем". Тут нужны светлые головы. Им конечно деньги нужны, но не как датацентру на видекартах
RigidStyle
14.01.2025 04:22Это как раз работает. Например, если модель стейб дифьюжин выдает какую то дичь по токену, то можно ее дообучить, скормив нужный датасат, и переназначив токены под этот датасет, и она перестанет выдавать дичь, и будет выдавать то, что нужно по токену.
Так же можно навесить узконаправленных нейтронных сетей, таких как лора. Или даже "заточить" модель под конкретную задачу через дримбус. И это все работает.
И модели, которые много раз переобучены и дообучены, обычно выдают лучше результат, чем даже самый мощный и тяжеловесный монстр с лучшим датасетом, но который обучен только на этом датасете. Пример - оригинальные модели. Они обучались профессионалами на вручную собранном датасете.
Пользовательские же модели выдают в разы лучшие результаты, просто потому, что были дообучены много раз.
not-allowed-here
14.01.2025 04:22а что мешает выстраивать по шагам не всю нейросеть, а группу нейросетей т.е первая нейросеть генерирует ввод для второй, та для третьей и каждая со своей отличной специализацией....
отдельный вопрос - а на сколько оптимальнее будет дробление задачи - с генерацией существенно меньшими, но гораздо более специализированными нейросетями?
также через данный механизм можно реализовать подмешивание данных - отдельная группа нейросетей верифицирует запрос, разделяет его и определяет отсутствие данных в обучающем датасете и формирует запросы на дополнительную информацию - и добавляет её к запросу расширяя его и конкретизируя его. Тоже самое при верификации ответа который надо как-то оценивать и верифицировать с целью удержания его в рамках неких формальных границ - та же защита от всякого мало приемлемого контента в ответах.
Идею отдаю в обмен на бесплатный доступ к таким нейросетям - доля шутки...
UPD: я бы еще задумался о неком внутреннем языке для нейросетей, т.к. "натуральный" язык для работы в условиях обмена данными между нейросетями неудобен и требует существенных доп. затрат на обработку.
Alexey2005
14.01.2025 04:22отдельный вопрос - а на сколько оптимальнее будет дробление задачи - с генерацией существенно меньшими, но гораздо более специализированными нейросетями?
Этот подход называется Mixture of Experts (MoE). Можно даже обучать весь ансамбль одновременно, чтобы нейронки сами распределились в ходе перелопачивания датасета, кто на чём будет специализироваться.
Увы, оказалось, что при том же суммарном размере ансамбля сетей (общее количество весов) MoE демонстрирует значительно худший результат, нежели стандартные dense-нейронки, которые обучались на максимально широком классе задач. И качество их ответов совсем проседает, если на вход попадает нетривиальная задача (т.е. они хуже генерализуются, плохо перенося полученный опыт на другие области знаний).
а что мешает выстраивать по шагам не всю нейросеть, а группу нейросетей т.е первая нейросеть генерирует ввод для второй, та для третьей и каждая со своей отличной специализацией....
И чем это будет отличаться от нынешней ситуации, когда нейронка - пачка однотипных трансформерных блоков, и выход каждого предыдущего слоя попадает на вход последующего? Тем, что можно обучать не всю пачку, а слой за слоем? Ну так тоже пробовали, вычислительных ресурсов для достижения сравнимого результата уходит на порядки больше, чем при обучении всей пачки разом.
Vytian
14.01.2025 04:22Послушайте, но Каплан и Ко же явно понимали, что пишут, когда скромно называли закономерности степенными. У вас (них) же по осям логарифмы величин. А местами вообще лин-лог. Логарифм - это обратное от экспоненты, если что.
Я, конечно, понимаю, что щас не думать, щас трясти надо, и затыкать рот инвесторам любой требухой. Но кроме зависимостей, есть ещё и константы. При них. И 10 порядков по требуемому compute на 3 раза в точности... это уже даже не издевательство. На вашем жульническом сверхэкспоненциальном законе Мура десять порядков -- это тридцать лет в самой быстрой его, т.е. закона, части. (Мур, как Вы прекрасно знаете, это про число элементов на чипе, то бишь функциональном блоке. Как это связано с деньгами - бог весть. Но пусть.)
Не надо так, Сева, здесь не только портфельные инвесторы сидят.
То что мы наблюдаем -- это эффект низкой базы, и тяжелейшего непонимания у
фхтагнафаанга, куда инвестировать шальное бабло, которое на него свалилось, и источник которого иссяк.Я даже немножго конспирологически подозреваю, что они придумали чатгопоту, чтоб спросить у него, куда инвестировпть терабаксы, и чатгопота ответило, что в чатгопоту.
А если серьезно, надо качать датасеты. Сенсоры, сенсоры, сенсоры, неструктурированные данные, это вот всё.. Ну и ещё порядков 50+/-20 мощностей хранения и обработки под это дело. И вот тогда уже придет Спаситель.
doctorclo Автор
14.01.2025 04:22Не очень понял комментарий, если честно.
Оси у Каплана логарифмические. То что в них линия, в нормальных осях степенной закон. Что это меняет?
Зря вы думаете, что фанг тупой, почему-то они смогли построить миллиардные компании :) бабло, кстати, не кончилось.
inkelyad
14.01.2025 04:22А если серьезно, надо качать датасеты.
И учителей. Вот буквально - n-ное количество людей-преподователей сидит и учит в режиме непрерывного диалога, с подкидыванием задачек, проверкой решений, спрашиванием (и заглатыванием в 'мозги', если есть техническая возможность) "как рассуждал?" и дальнейшим "не, так не надо, а надо так".
Вот точно так же как человеческого специалиста учат. Много лет.ivan_ilushenko
14.01.2025 04:22По сути так сейчас и работает. Сначала формируют структуру модели, заливая ее сырыми данными из Интернета, а затем делают RLHF - т.е. буквально (опуская технические детали с reward моделью) сидят с AI и рассказывают ему, как себя надо вести, а как не надо.
Первый этап можно условно соотнести с этапом "рождения и развития интеллекта", а второй с образованием.
Вот все и пытаются "родить" LLM с максимальным количеством потенциального IQ, заливая его вычислениями, т.к. с этапом образования все плюс-минус понятно.
Меня тут беспокоят только две вещи:
Какими бы прямыми не были логарифмические графики, в реальном мире все прямые в любых законах приходят к насыщению. Те же вычислительные мощности нельзя скалировать бесконечно, рано или поздно физика скажет "Стоп". Когда это произойдет непонятно, но произойдет обязательно. Мб завтра, и тогда на этой прямой AGI мы получить не сможем. Это риск.
Естественный интеллект пока требует радикально меньше вычислительных мощностей, чем искусственный. Эта оптимизация обеспечила нам выживание, но она несет определенные последствия - мы сильно проигрываем в скорости вычислений и качестве памяти. Так может надо не пытаться сделать то, что уже сделано, а улучшить имеющееся? Аугментировать естественный интеллект, взяв лучшее из двух миров. Здесь, правда, встает куча проблем - мораль, безопасность, технологии, но, кажется, потенциальный профит здесь тоже значительно выше.
inkelyad
14.01.2025 04:22По сути так сейчас и работает. Сначала формируют структуру модели, заливая ее сырыми данными из Интернета, а затем делают RLHF - т.е. буквально (опуская технические детали с reward моделью) сидят с AI и рассказывают ему, как себя надо вести, а как не надо.
Вот так сидят специалисты (не пользователи, которым ответы нужны) по всем 'влитым' областям знаний и 'рассказывают'? Что-то не верится как-то.
Это таки все похоже на самообучение 'авось после миллиарда книг просветление наступит'. Удивительно, что действительно наступает.
ivan_ilushenko
14.01.2025 04:22Технически все несколько сложнее, но в общих чертах да: берем предобученную LLM, смотрим ее ответы и говорим ей, что вот тут вот хороший ответ, а вот так отвечать не надо.
https://habr.com/ru/articles/755904/
LLM сразу после предобучения на сырых данных довольно "дикая", и никакого просветления там нет. Чтобы с ней можно было общаться в режиме чата (или в любом другом режиме, который нужен) все же прикладываются дополнительные усилия, в т.ч. с ручной разметкой специалистами.
T968
14.01.2025 04:22На самом деле он сказал - дайте ещё денег.
И это плохой сигнал, значит их у него мало.
dv0ich
14.01.2025 04:22Выглядит как "если мы сделаем очень-очень-очень большую дровяную печь - в ней начнутся ядерные реакции".
Не начнутся.
sfinks777
14.01.2025 04:22Если рассматривать космические масштабы топки, то теоретически начнутся. Если ожидать, что в центре "вязанки дров" начнется термоядерная реакция под влиянием гравитации самих дров... Вопрос только где взять столько "дерева". И где взять то знание о действительном наличии этого качественного скачка без теоретических изысканий, только на практике.
LordNoName
14.01.2025 04:22Ну тут можно поспорить)
Если сделать печь прямо большой, скажем больше 0.1 массы солнца, то она начнёт сжиматься под своим же гравитационным полем
А из-за этого произойдёт сильный нагрев, и если вдруг материал печи содержит достаточно водорода, то вполне себе возникнет термоядерный синтез, пока водород не выгорит
Light2046
14.01.2025 04:22"если мы сделаем очень-очень-очень большую дровяную печь - в ней начнутся ядерные реакции".
Не начнутся.
С человеком это сработало. Человеческий мозг принципиально не отличается от мозга неразумных млекопитающих. У человека просто увеличен в размерах неокортекс, но принципиальная структура точно такая же.
event1
14.01.2025 04:22У кита и слона мозг несколько больше человеческого. И неокортекс больше. Видимо, всё-таки, принципиальная структура отличается.
Light2046
14.01.2025 04:22Коэффициент неокортекса у вида — это отношение размера неокортекса к остальной части мозга. Считается, что высокий коэффициент неокортекса коррелирует с рядом социальных переменных, таких как размер группы и сложность социального брачного поведения. [ 27 ] У людей неокортекс занимает большую долю от общего объема мозгового вещества по сравнению с другими млекопитающими.
https://en.wikipedia.org/wiki/Neocortex
event1
14.01.2025 04:22Отношение размеров — это уже структура. Абсолютный размер мозга всё ещё больше у слона. Если же говорить о нейронах именно коры, то и тут человек далеко не на первом месте: у чёрного дельфина нейронов коры более чем в два раза больше. Другие китообразные сравнимы с человеком. В общем, дело именно в структуре, т.е. в том в какой части и в каком количестве и качестве присутствуют нейроны, а совсем не просто в размере мозга.
Alexey2005
14.01.2025 04:22Мало того, у ворона мозг в 30 раз легче чем у шимпанзе, а неокортекс вообще отсутствует, но тем не менее по интеллекту они сравнимы. И это при намного меньшем энергопотреблении (на единицу объёма мозг ворона потребляет втрое меньше глюкозы, чем мозг шимпанзе).
Так что правильная архитектура решает.
Chanser
14.01.2025 04:22Успехи человечества в области ML безусловно вызывают восторг и уважение и ужасают скоростью своего развития.
Но всю статью не покидала одна мысль, попробую сформулировать.
У нас есть "сильно эволюционировавший Т9": генеративный трансформер (ChatGPT - Generative Pretrained Transformer).
Также у нас есть понятие интеллект, и есть понятие ИИ: искусственный интеллект (и его подвиды: слабый, сильный, общий).
Мысль заключается вот в чем: правильно ли мы поступаем, когда называем генеративный трансформер искусственным интеллектом? Причем не просто ИИ, а с претензией на сильный (общий) ИИ?
Поясню.
Во-первых, само понятие человеческого интеллекта, насколько мне известно, не имеет четкого сформировавшегося определения. Есть некоторые признаки: способности к обученинию, осознанию, запоминанию, восприятию, решению абстрактных задач с помощью абстрактных концепций, и т.д.
Во-вторых, понятие ИИ в целом, и конкретных его градаций особенно, еще более размыто.
В-третьих, как отмечается в статье, скоро наступит момент, когда (новых) материалов для обучения GPT не останется. Представим ситуацию: все знания человечества уничтожены, Александрийская библиотека сожжена. Сможет ли человек научится (в общем смысле) без утерянных знаний, восстановить их? Думаю да. Сможет ли A(G)I научиться без знаний-материалов? Предполагаю что нет.
В общем, есть ощущение что ИИ (общим ИИ) назвали не то. Засунули в фантик от Сникерса ирис Кис-кис так сказать. Понятно, почему Сэму Альтману и прочим OpenAI это выгодно, но кажется разумным высказать некоторые сомнения, пускай они и окажутся ложными.
Не воспримите как критику статьи или темы, хотелось бы вместе порассуждать на тему.Alexey2005
14.01.2025 04:22Да какая разница, как его называют? Не нужно уподобляться тем недалёким людям (преимущественно гуманитарной направленности), которые считают, что название важнее сути проекта, и что дав "правильное" название можно достичь каких-то научных прорывов. После чего вместо реального дела начинают коммитить в CoC.md, заставляя тех, кто занят чем-то реально полезным, тратить уйму ценного времени на бесконечные переименования.
И при этом искренне верят, что двигают прогресс, хотя на самом деле наоборот вредят.
Chanser
14.01.2025 04:22Разница в том, что это похоже на подмену понятий. А мы тут, надеюсь, любим точность в любых проявлениях.
За интеллект обидно, знаете ли)
Не совсем понял пассаж про гуманитариев и code of conduct, но думаю вы неправильно поняли мой посыл. Я всячески за развитие ИИ в любом виде и против переименования master в main (угадал?)ncix
14.01.2025 04:22Разница в том, что это похоже на подмену понятий.
Можно было бы согласиться, но раз понятие "интеллект" расплывчато (как вы сами пишите), какая тут может быть подмена?
Chanser
14.01.2025 04:22Отчасти соглашусь.
Но, хоть у понятия интелеллект и нет однозначного общепризнанного определения, у него есть набор качеств, которые мы ожидаем от него увидеть. А-ля утиная типизация.
Исходя из этого, можно ли называть генеративный трансформер (искусственным) интеллектом, если ему присущи не все качества последнего (не все интерфейсы реализованы так сказать)?
Alexey2005
14.01.2025 04:22против переименования master в main (угадал?)
Угадали. На то, чтобы переименовать "неправильно" названную вещь и приучить всех людей говорить "правильно", нужно потратить немало сил и средств - тем больше, чем сильнее распространился исходный термин.
При этом практический выхлоп от избавления от такой "подмены понятий" близок к нулю, и уж точно не окупает затраты на переименование, которое таким образом является чистейшим вредительством.
Вся наука полна таких "неправильных" названий. Например, никого же не смущает, что слово "атом" переводится на русский как "неделимый". Или название "элементарная частица", большинство из которых ни разу не элементарно и тоже обладает сложной структурой. Или "цвета" и "ароматы" у кварков.
Но вот исторически сложилось, что названы они именно так. Менять нет смысла.
Chanser
14.01.2025 04:22Аргументы про устоявшиеся понятия и ненужные трудозатраты - справедливые.
Возможно стоит дать, пока мы в начале пути, и не все еще до конца устоялось, более четкие определения градациям ИИ, более соотносящиеся с общим понятием интеллект?
К слабому ИИ вопросов нет, а вот для сильного ИИ из критериев есть только "решение задач" и "модели OpenAI принесут минимум 100 миллиардов долларов прибыли", что конечно смешно, но, ИМХО, маловато) (не 100 млрд маловато, критериев)
proxy3d
14.01.2025 04:22Я понимаю, слепой энтузиазм и непонимание, как ведут себя различные зоны мозга, позволяет мечтать. Ни сколько не приуменьшаю LLM, так же как интернет, и множество других достижений. Но пока там до AGI далеко. Ведь тогда и поисковик можно в назвать в какой то мере AGI, в нем есть вся информация и он ее выдает по запросу, но в более хаотичном виде.
А так, полный игнор работы мозга, нейробиологии, речи, вокализации, почему именно так работает и тд.
Пересмотрел все лекции ребят Яндекс по сеткам. Не увидел ни одной попытки понять, разобраться почему так работает. Нельзя оторвать тему llm от мозга. Язык и последовательности сформировались так не из вакуума. Они изначально были завязаны на биологии, будь то кол-во слов на паузах, или построение речи.
Возьмём для примера трансформеры:
Механизм внимания, это модулятор работающий подобно лобным долям, который под действием важной информации (например, дофамина, норадреналина) усиливает или ослабевает связи на глобальных и локальных маршрутах. Где кортизол играет роль переключателя между локальными и глобальными маршрутами. Тоже происходит в ллм, только на сегодня очень упрощённо. И подобные механизмы есть на разных участках.
Byte per encoding - коснусоидное и синусоидное кодирование позиции "слова" в ллм, тоже самое делает мозг через Альфа, бета, гамма ритмы после зоны Брока. Схожее делает unigramm, только через закон Ципфа на более абстрактном уровне.
Само подобие - в теорию хаоса, так как нейроны являются странными аттракторами и их производные тоже должны обладать само подобием на верхнем уровне.
И многое другое. Вы можете хоть скормить абсолютно все данные вселенные, но получите на выходе отличный поисковик способный быстро обобщать данные. Вы понимаете, что в текущих архитектурах нет ни локальных глобальных маршрутов на уровне модели, ни реализации архитектуры абстрагирования, ни реализации архитектуры отделения себя от остального (теменная зона), ни ведение хронологических цепочек текущих событий (гиппокамп), ни удержание и связь текущего контекста и общих данных (механизм внимания префронтальная кора), ни связи событий (энторинальная кора).
Да что уж там, где нормальная реализация хотя бы слуховой коры, которая способна слышать в шумной части. Хотя там то изучено все.
acc0unt
14.01.2025 04:22Есть два подхода к решению сложных задач такого типа: пытаться понять, как решать задачу, и пытаться понять, как закидать задачу вычислительной мощностью.
Злая ирония в том, что второй подход всегда работает лучше первого.
В 90-х очень много людей бились над задачей распознавания речи. Психоакустика, лингвистика - куча профильных специалистов с глубоким пониманием вопроса пытались создать систему, способную распознавать речь человеческую.
А в 20-х мы берём ведро вычислительной мощности, и собираем Whisper. И этот Whisper уделывает все те попытки из 90-х всухую. Профильные знания оказались бесполезны на фоне способности взять в миллион раз больше вычислительной мощности, и всадить всю эту мощность в задачу.
То же самое сейчас происходит в ИИ в целом. Все попытки понять и воспроизвести мозг человека всухую проигрывают системам, которые топят задачи ИИ в вычислительной мощности.
proxy3d
14.01.2025 04:22Да, Whisper с одной стороны уделывает. С другой, когда я смотрю исследования психоакустики, лингвистики и других, я вижу несколько проблем
1) попытка просто в лоб реализоват биологические вещи. Например тот же Синтез речи — Сорокин В.Н, где идет попытка описать работу голосового тракта через поршни и прочие вещи, чтобы воспроизвести вибрации голосовых связок.
2) исследования, которые чаще всего можно выкинуть. Как например исследования влияния формант на эмоции или изучение фонем. Ни кто не полез глубже. Нейробиологам это не так интересно, а те кто изучают уровень абстракции выше не лезут глубже.
Например, не так давно анализировал речь на низком уровне и выяснилось что никаких фонем нет, это неправильное толкование. Точнее звуки есть, но не такие как принято в фонемах. например звук МА, ЛА, как и отдельные М, Л и т.д. В фонемах их нет. А многие в нейронках до сих пор пытаются использовать фонемы, и это зло.
Про эмоции вообще молчу. Там добрую часть научных статей можно смело выкинуть в мусор, так как при проверке оказывается, что описанное в них притянуто за уши.
Но почему важно разбирать на уровне биологии? Потому что тот же Whisper очень паршиво работает в реальных условиях. Он не способен справляться с шумами, качественно следить на конкретным спикеров и т.д. В нем реализована лишь часть биологии. И безусловно ASR можно значительно улучшить, как раз за счет того что мы знаешь о работе слуха. А он на сегодня изучен прекрасно, вплоть до какие типы нейронов (а каждый вид можно сопоставить с топологией сеток) в слоях слуховой коры и в каком слое. Как они связаны. Как изначально происходит обработка звука слухом, как разные зоны помогают уловить все это, убрать шумы и т.д.
И почему то этого я как раз не вижу. Я не вижу, чтобы реально кто то использовал в своих работах эти знания.
Alexey2005
14.01.2025 04:22И безусловно ASR можно значительно улучшить, как раз за счет того что мы знаешь о работе слуха
Да, можно. Это действительно сработает. Вот только пока ваши спецы этим занимаются, вычислительные мощности ещё подрастут. И кто-нибудь, вложив абсолютно смешную сумму по сравнению с той, что вы просадили на спецов и их исследования, получит результат, который положит вашу улучшенную модель на обе лопатки. Тупо за счёт увеличенной ещё на три порядка вычислительной мощности.
Всё же прочитайте "The Bitter Lesson", её не просто так упоминают в обсуждениях практически каждой подобной заметки. Ведь там как раз подробно рассмотрено, как предложенный вами подход раз за разом жёстко фейлился. Да, это кажется ужасно несправедливым (почему же годы исследований и множество умнейших людей опять вдрызг проиграли какому-то болвану с подходом "ввалим больше вычислительных ресурсов?!), но к сожалению раз за разом (начиная с середины 50-х) всё происходит именно так.
ManulVRN
14.01.2025 04:22Приведу пример машинного перевода. Десятилетиями работали структуральные лингвисты и прочие теоретики, Чомски со товарищи и их коллеги из других стран, ожидалось, что они создадут математическую теорию перевода, программисты закодируют эту математику и все содрогнутся от счастья. Я думаю, многие помнят, как работали тогдашние программы машинного перевода, их перлы часто приводились на юмористических сайтах. Что мы имеем? Нейросети все сожрали.
decucumber
14.01.2025 04:22Какая чудесная статья и какие прекрасные комментарии.
То что человечество "ничего" не знает как работает мозг, немного не верно.
Знает, многое, но не всё и не всегда точно.
Во-первых наш мозг в любое время всегда загружен на все 100% одной единственной задачей. Мониторингом состояния всех органов, тканей и жидкостей. Даже в фазе "сна" мозг активно работает, а освободившиеся ресурсы направляет на собственную диагностику, о чём была недавняя статья тут на хабре.
Во-вторых. Все ресурсы которыми человек располагает во время умственных упражнений, утилизируюется на все 100% в течении "всей фазы бодорствования". То есть сколько мозг смог выделить на обдумывание, столько же и будет расходовано. Полное количество нейронов, синапсов, аксонов, питательных веществ, и времени эксплуатации.
В-третьих. Человеческая память строго не поделена на "кратковременную" и "долговременную". Память представляет собой неприрывный динамический процесс по перезаписыванию блоков данных на освободившиеся от основной задачи нейроны. Соответственно, люди кто долго и много помнят просто способный оперативно подключать механизм перезаписывания. У некоторых механизм иногда стопорится " на воспроизведении" нескольких композиций. "Волга впадает в Каспийское море"В-четвертых человеческий мозг при всех его возможностях имеет существенные ограничения по запоминанию. Ограничения следующие. Без длительной тренировки ни один человек не способен запомнить какое точное время было, когда происходило конкретное событие, хотя биологические часы во время бодорствования примерно точно определяют время. Также без длительной тренировки человек не способен запоминать звуки, ароматы и вкус. Хотя также имеет "прошитый" алгоритм по определению вредной пищи и питья. Не все, но большинство имеют встроенные способности по опознанию признаков протухшего мяса. Не то чтоб человек этому быстро обучается, и это тоже есть, сколько имеет ряд "вечно записываемых" блоков информации. К подобным "вечно записанным" относятся информация и о воспроизведению потомства. Не всю информацию что и как делать, но определенный скрипт "прошит в биосе" у всех.
Далее. Для описания явления человеческий мозг использует одновременно в синхронном режиме проекцию так называемых "слоёв". Грубое представление это на каждой грани октаэдра или иной фигуры появляется одно слово и вся фигура вращается с большой скоростью. (Отступление. Не верно думать, что скорость передачи данных в мозгу относительно малая по отношению к другим.) Например вы видите идёт черный кот. Подключаются слои по опознанию конкретного блока, живое существо, предмет, цвет, пространство, процесс и так далее.
pavelsha
Спасибо за разумную позицию. ИМХО, это правильно — называть своё направление так, чтобы было понятно, о чем речь, а не стараться напустить побольше терминологического тумана, чтобы иметь ореол волшебника высших сфер или некроманта.
doctorclo Автор
думаю, что обратной дороги уже не будет - придется смириться и делать ИИ :)
Snownoch
90% понятно, когда просто "хакер"
pavelsha