В настоящее время глубокое обучение используется для перевода, прогнозирования укладки белков, анализа рентгеновских и других медицинских снимков , а также для игр, столь сложных как го  - вот лишь некоторые варианты применения этой технологии, которая становится всепроникающей. Успех в этой и других отраслях привел технологию машинного обучения от безвестности в нулевые до доминирования сегодня.

Хотя, славные дни глубокого обучения начались сравнительно недавно, зародилась эта парадигма много лет назад. В 1958 году, когда компьютеры-мейнфреймы еще занимали целые залы и работали на электронно-лучевых трубках, Фрэнк Розенблатт из Корнельского университета, исходя из знаний о том, как устроены связи между нейронами в мозге, спроектировал первую нейронную сеть, которую прозорливо описал как «устройство для распознавания образов». Но амбиции Розенблатта сильно опережали его время – и он об этом знал. Даже в своей инаугурационной статье он был вынужден признать, с каким волчьим аппетитом нейронная сеть жрет вычислительные ресурсы, сетуя на то, что «по мере того, как количество связей в сети растет… нагрузка на традиционный цифровой компьютер вскоре становится чрезмерной».  

К счастью для разработчиков таких искусственных нейронных сетей, вскоре влившихся в концепцию «глубокого обучения» и получивших дополнительные слои нейронов, десятилетия работы закона Мура и проистекающее из него улучшение аппаратного обеспечения позволили примерно в 10 миллионов раз увеличить объем вычислений, выполняемых компьютером в секунду. Поэтому, когда исследователи вернулись к разработке глубокого обучения в конце нулевых, у них уже были орудия, соразмерные этому вызову.    

Новые компьютеры с принципиально возросшей мощностью позволили создавать сети, в которых было неизмеримо больше связей и нейронов, чем в прототипах; соответственно, они гораздо лучше подходили для моделирования сложных феноменов. Исследователи пользовались возможностью делать перерывы между записями, применяя алгоритмы глубокого обучения к решению новых задач.

Притом, что взлет глубокого обучения вышел аэрокосмическим, будущее его может оказаться тернистым. Как и Розенблатт полвека назад, нынешние исследователи глубокого обучения приближаются к пределу возможностей тех инструментов, которыми располагают. Чтобы понять, почему это переформатирует все машинное обучение, сначала давайте разберемся, почему глубокое обучение оказалось столь успешным, и чего стоит держать его на таком уровне.

Глубокое обучение – это современное воплощение в давней тенденции развития искусственного интеллекта, а именно движения от четко очерченных экспертных систем, опирающихся на конкретные знания, к гибким статистическим моделям. Первые системы в истории ИИ были основаны на правилах, для вывода результатов в них применялись логика и экспертные знания. Позже в такие системы была добавлена возможность обучения для настраивания некоторых параметров, но обычно число таких параметров было невелико.

Нынешние нейронные сети тоже изучают значения параметров, но эти параметры входят в состав столь гибких компьютерных моделей, что – если эти модели достаточно велики – становятся универсальными аппроксиматорами функций, то есть, подходят для описания данных любого типа. Именно по причине такой неограниченной гибкости глубокое обучение применимо к столь разным предметным областям.

Гибкость нейронных сетей обусловлена тем, что модель может принять множество видов ввода, а сеть – скомбинировать эту информацию мириадами способов. Таким образом, вывод нейронной сети получается применением не простых формул, а неизмеримо сложных.

Например, когда ультрасовременная система распознавания образов Noisy Student преобразует пиксельные значения изображения в вероятности, описывающие, что же может быть на нем, это делается при помощи сети, содержащей 480 миллионов параметров. Еще примечательнее сам процесс обучения, удостоверяющий верность такого множества параметров, поскольку в нем использовалось всего 1,2 миллиона размеченных изображений. Это может смутить тех читателей, которые помнят из школьного курса алгебры, что уравнений больше, чем неизвестных. Оказывается, ключ технологии – в том, что это правило нарушается.

Модели глубокого обучения переполнены параметрами, то есть, параметров в них больше, чем точек данных, доступных для обучения. В классическом сценарии это должно приводить к переобучению, когда модель не только выучит общие тенденции, но и усвоит случайные закономерности, имеющиеся в учебных данных. При глубоком обучении такая ловушка обходится, поскольку параметры инициализируются случайным образом, а затем их множества уточняются итерация за итерацией для более полного соответствия данным. Такой метод называется «стохастический градиентный спуск». Удивительно, но (доказано) эта процедура гарантирует, что усвоенная модель хорошо обобщается.

Успех гибких моделей глубокого обучения хорошо просматривается на примере машинного перевода. Десятилетиями применяются программы для перевода текстов с языка на язык. На первых этапах эта задача решалась при помощи правил, которые формулировали эксперты по грамматике. Но чем больше становился доступный объем текстовых данных на каждом конкретном языке, тем успешнее они поддавались обработке при помощи статистических подходов – имеющих столь мудреные наименования, как «максимальная энтропия», «скрытые Марковские модели» и «условные случайные поля».

Исходно успешность этих подходов для обработки каждого языка зависела от объема данных, доступных на нем, и от грамматических свойств языка. Например, перевод на основе правил для таких языков, как урду, арабский и малайский поначалу превосходил по качеству статистические методы перевода. Сегодня глубокое обучение обставило все альтернативные подходы и показало превосходные результаты практически на любом материале, к которому применялось.

Итак, повод для оптимизма в том, что глубокое обучение обеспечивает чрезвычайную гибкость в работе. Повод для пессимизма – в том, что эта гибкость требует огромных вычислительных ресурсов. Эта темная сторона реальности имеет два аспекта.

Экстраполируя достижения последних лет, можно предположить, что к 2025 году уровень допущения ошибок в наилучших системах глубокого обучения, предназначенных для распознавания объектов из множества данных ImageNet должен сократиться всего до 5 процентов [вверху]. Но вычислительные ресурсы и энергия, которые потребуются для обучения такой системы будущего, также будут колоссальными, и приведут к такому же выбросу углекислого газа, какой дает за месяц весь город Нью-Йорк [внизу].ИСТОЧНИК: N.C. THOMPSON, K. GREENEWALD, K. LEE, G.F. MANSO
Экстраполируя достижения последних лет, можно предположить, что к 2025 году уровень допущения ошибок в наилучших системах глубокого обучения, предназначенных для распознавания объектов из множества данных ImageNet должен сократиться всего до 5 процентов [вверху]. Но вычислительные ресурсы и энергия, которые потребуются для обучения такой системы будущего, также будут колоссальными, и приведут к такому же выбросу углекислого газа, какой дает за месяц весь город Нью-Йорк [внизу].ИСТОЧНИК: N.C. THOMPSON, K. GREENEWALD, K. LEE, G.F. MANSO

Первая часть актуальна для всех статистических моделей: чтобы улучшить производительность в раз, для обучения модели должно применяться как минимум в k2 раз больше точек данных. Вторая часть вычислительных издержек связана непосредственно с чрезмерной параметризацией. Если учесть ее в полной мере, то для вышеуказанного улучшения требуемый рост издержек составит как минимум k4. Эта четверка в степени дается очень дорого. Например, для десятикратного улучшения результата потребуется как минимум 10 000-кратное увеличение объема вычислений.

Чтобы еще выразительнее представить этот компромисс между гибкостью модели и объемом вычислений, рассмотрим такой сценарий: мы пытаемся спрогнозировать, покажет ли рентгенограмма пациента признаки рака. Далее предположим, что верный ответ может быть найден, если проанализировать 100 деталей рентгенограммы (такие детали зачастую называются «переменными» или «признаками»). Сложность в том, что заранее мы не знаем, какие переменные будут важны, и пул переменных, которые потребуется рассмотреть, может быть очень велик.

Если бы эта проблема решалась с позиции применения экспертных систем, то нам бы потребовались специалисты, разбирающиеся в радиологии и онкологии, чтобы они указали те переменные, которые считают важными, после чего системе будет разрешено проверять лишь эти переменные. Гибкий подход к обучению — это протестировать максимально возможное количество переменных и позволить системе самой вывести, какие из этих переменных важны. В таком случае системе потребуется гораздо больше данных для анализа, и этот процесс повлечет значительно более высокие вычислительные издержки. 

Модели, для которых эксперты установили релевантные переменные, могут быстро изучить, какие значения лучше всего работают с этими переменными, и для этого потребуется сравнительно небольшой объем вычислений. Именно поэтому как раз такие модели были наиболее популярны поначалу. Но обучение застопоривается, если эксперт не смог правильно задать все переменные, которые должны быть включены в модель. Напротив, гибкие модели, в частности, модели глубокого обучения, менее эффективны и требуют неизмеримо больше вычислений, чтобы потягаться в производительности с экспертными моделями. Но при наличии достаточного объема вычислений (и множества данных) гибкие модели могут обставить те, для которых эксперты попытались указать все релевантные переменные.

Определенно, можно повысить производительность глубокого обучения, если задействовать больше вычислительных ресурсов для построения более крупных моделей и обучать их на более обширных данных. Но какова будет цена такого вычислительного бремени? Могут ли эти расходы вырасти настолько, что станут тормозить прогресс?

Чтобы конкретно ответить на эти вопросы, недавно были собраны данные из более чем 1000 исследовательских статей по глубокому обучению, охватывающих такие предметные области, как классификация изображений, обнаружение объектов, ответы на вопросы, распознавание именованных сущностей и машинный перевод. Здесь мы подробно обсудим только классфикацию изображений, но описанные ниже закономерности применимы очень широко.  

За годы работы сокращение количества ошибок при классификации изображений давалось колоссальным наращиванием вычислительной нагрузки. Например, в 2012 году модель AlexNet, впервые показавшая мощь глубокого обучения на графическом процессоре (GPU), обучалась с применением двух графических процессоров на протяжении пяти-шести дней. К 2018 году другая модель, NASNet-A, наполовину сократила количество допускаемых ошибок по сравнению с AlexNet, но потребовавшийся для этого объем вычислительных ресурсов оказался более чем в 1000 раз значительнее.

Анализ этого феномена также позволил оценить, как эти результаты сочетаются с теоретическими ожиданиями. Теоретически вычисления должны масштабироваться как минимум в четвертой степени относительно фактического повышения производительности. На практике же для этого требовалось масштабирование как минимум в девятой степени.

Данная девятая степень означает, что для уменьшения показателя ошибок наполовину следует ожидать, что вам потребуется более чем в 500 раз нарастить вычислительные ресурсы. Это сокрушительно высокая цена. Правда, здесь есть и луч надежды: такая пропасть между теоретическими прогнозами и практическими результатами может означать, что до сих пор остаются неоткрытые варианты оптимизации алгоритмов, которые позволили бы радикально повысить эффективность глубокого обучения.

Как отмечалось выше, закон Мура и другие показатели совершенствования аппаратного обеспечения позволили невероятно повысить производительность чипов. Означает ли это, что постоянная эскалация требований к вычислительным мощностям непринципиальна? К сожалению, нет. Из 1000-кратной разницы в вычислениях между AlexNet и NASNet-A, лишь шестикратное увеличение было достигнуто на уровне улучшения оборудования. Вся остальная разница была достигнута наращиванием количества процессоров и все более длительным их использованием, а все это влечет дополнительные издержки.

Оценив кривую «издержки-производительность» для распознавания изображений, можно использовать эти данные для прогноза, сколько вычислительных ресурсов потребуется для достижения еще более впечатляющих показателей производительности в будущем. Так, для снижения доли ошибок до 5% понадобится 10 19 миллиардов операций с плавающей точкой.

Важная работа ученых из Массачусетского университета в Амхерсте позволяет понять, каковы экономические издержки и углеродный след, сопряженные с такой вычислительной нагрузкой. Результаты удручают: обучение такой модели обойдется в 100 миллиардов долларов США и даст столько же парниковых выбросов, сколько дает город Нью-Йорк за месяц. А если оценить вычислительную нагрузку, необходимую для снижения доли ошибок до 1%, результаты будут гораздо печальнее.

Оправданны ли в данном случае экстраполяции на несколько порядков? И да, и нет. Конечно же, важно понимать, что прогнозы не совсем точны, но при таких плачевных результатах абсолютная точность и не нужна, чтобы передать общий месседж о неустойчивости подобных систем. Экстраполяция такого рода была бы неправомерной, если бы мы предположили, что исследователи так и будут следовать по нынешнему пути, вплоть до экстремального результата. Нет, мы этого не делаем. Исследователи, имея дело с зашкаливающими расходами, будут вынуждены либо найти более эффективные способы для решения задач глубокого обучения, либо забросить такие задачи – и прогресс остановится.

С другой стороны, экстраполяция таких результатов не только разумна, но и важна, поскольку помогает понять масштаб вызова, маячащего перед нами. Фронт этой проблемы уже хорошо просматривается. Когда компания DeepMind, ныне входящая в состав Google, учила свою систему играть в го, стоимость этой работы оценивалась в 35 миллионов долларов. Когда исследователи DeepMind спроектировали систему для игры в StarCraft II, они намеренно не пробовали нескольких вариантов проектирования одного важного компонента, поскольку такое обучение стоило бы слишком дорого.

OpenAI, важный аналитический центр, занимающийся изучением машинного обучения, недавно спроектировал и натренировал весьма прославленную языковую систему глубокого обучения GPT-3, потратив на это более 4 миллионов долларов. Хотя они и допустили ошибку при реализации системы, эту ошибку не исправляли, пояснив это в приложении к своей научной статье так: "в силу стоимости обучения, не представлялось возможным переобучить модель."

Даже бизнес, не относящийся к высоким технологиям, в настоящее время начинает чураться глубокого обучения из-за его высоких вычислительных издержек. Недавно крупная европейская сеть супермаркетов отказалась от своей системы глубокого обучения, хотя та и заметно помогала прогнозировать, какие товары будут приобретаться. Руководство компании свернуло эту разработку, сочтя, что обучение и эксплуатация этой системы обойдется слишком дорого.

Имея дело с растущими экономическими и экологическими издержками, сообщество исследователей глубокого обучения изыскивает способы повысить производительность систем, но так, чтобы потребности в вычислительных мощностях не становились запредельными. Если этого не сделать, процессы начнут стагнировать. Но рано отчаиваться: для решения этой проблемы делается многое.

Одна из стратегий – использовать процессоры, спроектированные специально с расчетом на эффективное глубокое обучение. Такой подход широко использовался на протяжении минувшего десятилетия, тогда на смену CPU пришли GPU, а в некоторых случаях – программируемые пользователем вентильные матрицы и специфичные для конкретного приложения интегральные схемы (в том числе, Tensor Processing Unit от Google). В целом, при всех этих подходах жертвуется универсальностью вычислительной платформы ради повышения эффективности и специализации. Но такая специализация становится все менее выгодной. Поэтому в долгосрочной перспективе будет перспективнее брать на вооружение совершенно иные аппаратные фреймворки, возможно, основанные на аналоговых, нейроморфных, оптических или квантовых системах. Правда, пока такие совершенно иные аппаратные фреймворки еще не играют заметной роли.

Другой подход к снижению вычислительного бремени сосредоточен на создании таких нейронных сетей, которые при реализации получаются меньше, чем современные. Такая тактика снижает стоимость каждого прогона нейронной сети, но часто увеличивает стоимость обучения (что и описано выше в этой статье). Какие из этих расходов наиболее важны – в основном зависит от ситуации. Для часто используемой модели именно эксплуатационные расходы будут наибольшим компонентом всей суммы инвестиций. Для других моделей, например, таких, которые часто требуется учить заново, могут преобладать расходы на обучение. В любом случае, общая сумма расходов будет превышать расходы собственно на обучение. Поэтому, как было показано выше, если расходы на обучение слишком высоки, то и общие расходы могут стать неподъемными.

И в этом основная проблема, касающаяся всех тактик, направленных на достижение компактной реализации: они не позволяют в достаточной степени сократить расходы на обучение. Например, какая-нибудь модель позволяет обучить большую сеть, но сильно увеличивает сложность обучения. Другая сопряжена с обучением большой сети и последующим отсечением неважных связей. Третья находит как можно более эффективную архитектуру, оптимизируясь на основе множества моделей – такой подход иногда называют «поиском нейронных архитектур». Притом, что каждая из этих техник может весьма положительно отразиться на реализации, на обучении она отражается слабо и определенно не решает описанных выше проблем, возникающих при обработке данных. Во многих случаях расходы только повышаются.  

Сейчас начинает развиваться подход, который позволил бы снизить расходы на обучение, он называется «мета-обучение». Идея в том, что система учится на разнообразных данных, и затем этот результат может применяться во многих областях. Например, чтобы не создавать отдельных систем для распознавания на изображениях собак, кошек и автомобилей, можно обучить на всех трех этих множествах данных одну и ту же систему и многократно использовать ее.

К сожалению, недавняя работа Андрея Барбу из MIT показала, насколько сложным может быть метаобучение. Они с соавторами показали, что даже небольшие различия между исходными данными и материалом, на котором предполагается использовать сеть, могут сильно понизить ее производительность. Они продемонстрировали, что современные системы распознавания изображений очень чувствительны к таким факторам, как, например, под каким углом и в какой позе был сфотографирован объект. Поэтому даже простая задача распознавания одних и тех же субъектов в различных позах может почти наполовину сбить точность системы.

Бенджамин Рехт из Калифорнийского университета в Беркли и другие говорят об этом еще резче, показывая, что даже на совершенно новых множествах данных, в которых намеренно имитируются учебные данные, производительность сети падает более чем на 10%. Если даже небольшие изменения в данных столь подрывают производительность, то для полноценного метаобучения может понадобиться запредельно много информации. Поэтому большие перспективы метаобучения еще далеки от воплощения.

Другая стратегия, которая, возможно, позволит преодолеть вычислительные пределы глубокого обучения – перейти на другие, возможно, еще не открытые или недооцененные типы машинного обучения. Как было рассказано выше, системы машинного обучения, сконструированные с привлечением экспертного опыта, могут показывать завидную эффективность, но значительно уступают системам глубокого обучения, если эксперты не учтут при их формировании всех важных факторов. Разрабатываются нейро-символические методы и другие приемы, которые позволили бы сочетать силу экспертных знаний и рассуждений с гибкостью, присущей многим нейронным сетям.

Как и в ситуации, с которой столкнулся Розенблатт на заре развития нейронных сетей, сегодня глубокое обучение подходит к границам возможностей имеющихся вычислительных инструментов. Столкнувшись с необходимостью непозволительного наращивания вычислений, необходимо либо откорректировать наши подходы к глубокому обучению, либо смириться с тем, что в будущем его прогресс значительно замедлится. Конечно, хотелось бы адаптироваться. Возможен умный прорыв, который дал бы нам либо более эффективные модели глубокого обучения, либо гораздо более мощное аппаратное обеспечение, которое позволило бы и дальше использовать эти крайне гибкие модели. В противном случае возможен откат, и нам вновь придется привлекать к работе экспертов, чтобы выявлять, каким именно данным необходимо обучать сеть.   

Комментарии (27)


  1. 0xC0CAC01A
    10.10.2021 19:52
    +2

    Вопрос в тему. А зачем мы пытаемся эмулировать аналоговые по своей природе процессы на цифровой элементной базе? Не удивлюсь, если на реализацию даже одного нейрона уходит сотня или даже тысяча аналоговых транзистров. А если это сделать на аналоговом уровне, их надо будет всего несколько штук. Или я не прав?


    1. SergeKh
      10.10.2021 20:23
      +5

      В действительности биологические нейроны еще более "цифровые" чем компьютерные. В компьютере функция возбуждения, которая передается от нейрона к нейрону "аналоговая" - это действительное число. А в биологической системе возбуждение от нейрона к нейрону передается импульсами, "единичками", амплитуда которых не имеет значения, а значение имеет их частота. Причем реальные различия в работе системы происходят с одного-трех импульсов. Можно грубо сказать, что живые нейроны передают друг-другу одно из чисел "0", "1", "2", "3" (причем чаще всего именно 0), а компьютерные нейроны в самом примитивном виде - google TPU передают от 0 до 255, а другие железяки, не гугловские - они еще больше вариантов значений гоняют между нейронами.

      По количеству тоже нет, в живых системах как правило гораздо больше связей между нейронами чем транзисторов в компьютерах (для каждой связи своя функция активации, хотя большинство функций активации равны 0, они видимо все-таки важны все). В чем живые системы превосходят железо - это в энергоэффективности, причем очень сильно.


      1. MAXH0
        10.10.2021 21:06

        Вы серьёзно так об этом говорите, что нейроны взаимодействуют только электричеством, а не химией? Насколько мне известно наука утверждает обратное. Нейроны управляются химией. Есть же еще нейротрансмиттеры - это  химические  вещества в мозгу,  которые передают  сигналы  от  одного нейрона к другому. 


        1. SergeKh
          10.10.2021 21:37
          +3

          Сигнал передается внутри нейрона электричеством, а через межклеточное пространство химией. При этом это именно цифровой сигнал "есть/нет".


          1. corolorn
            11.10.2021 00:15

            смотря на каком уровне погруженности смотреть, потенциал действия приводящий к выбросу нейромедиаторов - электрический по своей сути, однако внутри клетки все процессы носят химический, а если смотреть глубже физический характер(например каскад реакций запускаемы G белками). Нейроны ГМ крайне сложные.


            1. Goupil
              11.10.2021 00:27

              Согласен. Любой нейрон это не просто транзистор, и даже не персептрон с весами и функцией активации, как нейрон в нейросетке. Это весьма сложная и динамичная система, которая меняется от импульса к импульсу, метаболизмом, формой, экспрессией генов, синапсами и распределением рецепторами в них, и множеством других вещей. Где-то читал что для более-менее нормального моделирования биологический нейрон требует сетку с как минимум тысячами параметрами.


              1. fruit_cake
                11.10.2021 03:21

                Никто до конца не разобрался как работает нейрон и как именно хранится память человека. Или эта информация просто не раскрывается для общего пользования (секретная, коммерческая тайна и т.д.).


                1. Goupil
                  11.10.2021 08:15
                  +2

                  Не секретная и не коммерческая тайна, просто действительно не совсем понятно. Кое как мы понимаем как работает память у тех же улиток аплизий, у которых на всю улитку 10 000 крупных нейронов, но на человека перенести это понимание непросто.


    1. nick1612
      11.10.2021 08:38
      +1

      В 2017-2018 годах я очень активно увлекался DL, даже делал коммиты в первую версию библиотеки fast.ai, ну а параллельно слушал много интервью и читал статьи Хинтона, Лекуна и прочих. Так вот тогда много обсуждалась тема о том, является ли backprop биологически обоснованным и имеет ли смысл изначально вкладывать в сеть какую-то архитектуру или можно обучить рандомную fully connected сеть имея достаточно данных. Джефри Хинтон пытался отстаивать позицию, что наш мозг тоже использует бэкпроп, но там было слишком много спекуляций. Что самое странное, Ян Лекун, один из создателей сверточных сетей, отстаивал позицию, что архитектура не нужна, а нужно просто больше данных, что противоречит тому, что мы видим в биологии, так как множество организмов изначально рождаются с хорошо сформированной нервной системой (еще до всякого обучения).

      Вообщем, как мне кажется, DL и его модели нейронов имеют очень мало общего с биологией и пока мы видим лишь аналогии и спекуляции. И вообще не понятно зачем пытаться эмулировать то, что мы еще не понимаем, так как для эмуляции нужно понимать принцип работы того, что эмулируется.


      1. nktkz
        13.10.2021 09:25
        -1

        забавно что вы думаете что вы умнее хинтона и можете определить использует ли он много/мало спекуляций


        1. nick1612
          13.10.2021 10:40
          +1

          Забавно, что вы думаете, что умеете читать чужие мысли :)

          Если серьезно, то Хинтон сам это признавал и я не считаю себя умнее его. Вообще Хинтон, из всех звезд DL, мне нравился больше всех, так как создавал впечатление человека, который действительно хочет разобраться в теме, а не побыстрее хайпануть на новой технологии.


          1. nktkz
            13.10.2021 13:36

            так и я про то
            такие люди как хинтон точно изучили достаточно и пытаются разбираться на сколько возможно. а в комментариях часто видно мысли из разряда: "ну ученые тупые, не понимают что не туда смотрят. вот я думаю что правильно было бы <ну и тут различные версии либо указание на невозможность> "


      1. const_ag
        13.10.2021 09:25

        так как множество организмов изначально рождаются с хорошо сформированной нервной системой (еще до всякого обучения)

        Не стоит упускать тот момент, что до рождения есть внутриутробный (инкубационный) период в течении которого формируется нервная система. И какая она будет при рождении зависит не только от набора ДНК (начальной архитектуры), но и от информации приходящей к плоду от матери через питание и физические воздействия. Происходит скрытое обучение к предстоящей жизни и развитие "архитектуры" одновременно.
        И абсолютно с вами согласен - аналогии и спекуляции на счет общего моделей нейронов с биологией.


  1. brotchen
    10.10.2021 22:11
    +6

    Возможно, не следует путать электронно-лучевые трубки и электронные лампы.


  1. neword
    11.10.2021 00:15
    +3

    вангую: прогресс будет в направлении обучении второго рода - "обучении обучателей" и далее. что приведет к более эффективному алгоритму обучения от общего к частному. впереди - новые открытия в области кластеров "естественных" законов обучения, которыми пользуется природа в решении той или иной задачи.


    1. Goupil
      11.10.2021 08:17
      +1

      Ну или будут еще сильнее вкладываться в квантовые компьютеры.


      1. neword
        11.10.2021 10:23

        вот кстати, используется ли квантовые вычисления где-либо в природе? я просто не в курсе.


        1. Goupil
          11.10.2021 10:34

          А кто его знает? Много разговоров о квантовых процессах, необходимых для жизни, и возможно работы мозга, но теплая органическая среда слишком хаотичная, чтобы на нее можно было легко переносить закономерности холодного квантового мира. Я думаю что да, но доказать это очень непросто.


        1. OlegSivchenko
          11.10.2021 10:49
          +1

          Вычисления нет, а явления да. Много примеров в этой книге https://www.klex.ru/mar, вот тут https://elementy.ru/bookclub/chapters/433635/Zhizn_na_grani_Glava_iz_knigi — отрывок с описанием физико-химической природы запаха


          1. neword
            11.10.2021 11:07

            интересно, спасибо! однако, чисто мое мнение, что эта природа (запаха) исходит из принципа резонансов. и тогда нужно обратить усилия на изучение и новые разработки в области резонансов. в том числе и в области обучения и распознавания.


  1. Nehc
    11.10.2021 11:51
    +1

    Я поражаюсь с этих людей.

    «к 2025 году уровень допущения ошибок в наилучших системах глубокого обучения, предназначенных для распознавания объектов из множества данных ImageNet должен сократиться всего до 5 процентов [вверху]. Но вычислительные ресурсы и энергия, которые потребуются для обучения такой системы будущего, также будут колоссальными, и приведут к такому же выбросу углекислого газа, какой дает за месяц весь город Нью-Йорк» — и это будет полезная обученная сеть, которой в дальнейшем можно будет пользоваться (backbone на базе предобученных на ImageNet сетей используется в большей части современных задач на классификацию/детекцию и прочие полезные CV-задачи, включая пользовательский поиск по картинке). В то время, как майнеры сжигают 121.36 терават/часов в год просто потому, что а вот такая сейчас сложность сети! Это тупо утилизация энергии и безумный «углеродный след» в котором нет НИКАКОЙ необходимости. Но не — майнеры пускай и дальше майнят, а мы будем обсуждать, как атмосферу загрязняет OpenAI.

    Начните уже платить за распределенное обучение сетей хотя бы в половину так, как сейчас за крипту (и запретите крипту) и решите сразу кучу проблем: майнеры с удовольствием и тем же энтузиазмом будут делать ПОЛЕЗНУЮ работу, станет доступен огромный рынок вычислительных ресурсов для обучения моделей. Для экологии это по-любому полезнее (ну сейчас и майнят и все равно учат, за дорого, а так останется только один полезный вид деятельности).


  1. Tiendil
    11.10.2021 12:02
    +2

    Не вижу особого повода для пессимизма:

    • Если железо развивается быстро, то прогресс технологий движется наращиванием данных/кода, пока есть возможность ускорять железо.

    • Если железо развивается медленно, то прогресс двигается алгоритмикой и изменением архитектуры, пока они не создадут новые области для улучшения железа.

    Так получилось, что текущий прогресс двигается железом. 15-20 лет назад это была совершенно пустая ниша, которую исследовали производители видеокарт и только сейчас она более-менее заполняется. И то не факт, что заполнится в ближайшее время — недавно, вон, TPU появились.

    Как только будет достигнут реальный лимит железа, ресурсы перераспределят в направлениях экстенсивного развития: будут пересматривать архитектуры нейронок.

    К тому же, железо развивалось на базе готовой инфраструктуры и готовых специалистов. А специалистов по тем же нейронкам — кот наплакал, и то каждый год появляются существенные прорывы. Количество специалистов по нейронкам только растёт, то есть бум в алгоритмической части ещё впереди.

    Я летом копал перспективы Deep Learning и опубликовал довольно оптимистичный длиннопост у себя в блоге: https://tiendil.org/ai-will-not-or-will-replace-us-all/


    1. Sivchenko_translate Автор
      11.10.2021 12:51

      Спасибо за комментарий, написал вам на гуглопочту


    1. Tiendil
      11.10.2021 13:57

      Как только будет достигнут реальный лимит железа, ресурсы перераспределят в направлениях экстенсивного развития: будут пересматривать архитектуры нейронок.

      Интенсивного, конечно. Прошу прощения за описку. Оригинальный комментарий уже не могу поправить.


  1. vsh797
    11.10.2021 13:53
    +5

    Атомную энергию научились использовать 70 лет назад. А экологисты до сих пор пишут, что затраченная энергия = углеродный след.


    1. fedotovartuom76
      12.10.2021 09:31

      Потому что это крупный бизнес, а как известно *то что приносит деньги, умереть не может*


  1. Alexander_IK
    12.10.2021 10:13

    Я думаю, что помочь в разработке более продвинутого AI могут специалисты по детской психологии. Дети, как и взрослые, мыслят образами (моделями реальных объектов), ассоциациями (связи между образами) и учатся классифицировать новые объекты реального мира, полученные осязанием (видением, слушанием и т.д.), на основе имеющихся в памяти сведений: параметров образов. Грубо говоря, чтобы научиться отличать кошечку от собачки, ребенку нужно усвоить набор характерных для них признаков (спектры издаваемых звуков, форма морды, когтей, дневная активность и т.д.), а не бездумно анализировать тысячи фотографий и аудиозаписей для вычленения различий. Детей учат взрослые. Причем обучение заключается в направлении внимания, разъяснения (типа "образного" программирования), а не методом бросания в неизвестность с применением кнута и пряника в зависимости от полученных ответов ("обучение с учителем"). Меньше жестокости, больше внимания и доброты. Как-то так.