Наука всегда сопровождает технологию, изобретения дают нам новую пищу для размышлений и создают новые явления, которые еще предстоит объяснить.

Так говорит Арам Харроу (Aram Harrow), профессор физики Массачуссетского технологического в своей статье «Почему сейчас самое подходящее время для изучения квантовых вычислений».

Он считает, что с научной точки зрения энтропия не могла быть полностью изученной, пока технология парового двигателя не дала толчок к развитию термодинамики. Квантовые вычисления появились из-за потребности имитировать квантовую механику на компьютере. Так и алгоритмы человеческого разума могут быть изучены с появлением нейронных сетей. Энтропия используется во многих областях: например, при смарт кропе, в кодировании видео и изображений; в статистике.

image

Как это связано с машинным обучением?


Так же как паровые двигатели, машинное обучение — это технология, призванная решать узконаправленные задачи. Последние результаты в этой отрасли могут помочь понять, как человеческий мозг работает, воспринимает окружающий мир и обучается. Технология машинного обучения дает новую пищу для размышлений о природе человеческих мыслей и воображения.

Компьютерное воображение


Пять лет назад, первопроходец в области глубинного обучения Джефф Хинтон (преподаватель Университета Торонто и сотрудник Google) опубликовал видео:



Хинтон обучил 5-уровневую нейронную сеть распознавать рукописные цифры по их растровым изображениям. С помощью компьютерного зрения машина могла прочесть рукописные символы.

Но, в отличие от других работ, нейронная сеть Хинтона могла не просто распознавать цифры, но и воссоздавать в своем компьютерном воображении образ цифры исходя из ее значения. Например, на вход задана цифра 8, а на выход машина выдает ее изображение:



Все происходит в промежуточных слоях сети. Они работают как ассоциативная память: из картинки в значение, из значения в картинку.

Может ли человеческое воображение работать так же


Несмотря на упрощенную, но очень вдохновляющую технологию машинного зрения, основной вопрос с научной точки зрения — работает ли человеческое воображение и визуализация по такому же алгоритму.

Разве не то же самое делает человеческий разум? Когда человек видит цифру — он ее распознает. И наоборот, когда кто-то говорит о цифре 8, разум рисует цифру 8 в воображении.

Возможно ли, что человеческий мозг подобно нейронной сети переходит от образа к картинке (или звуку, запаху, ощущению) с помощью информации, закодированной в слоях? Ведь нейронные сети уже рисуют картины, пишут музыку и даже могут создавать внутренние связи.

Созерцание и явление


Если распознавание и воображение это действительно всего лишь связи между картинкой и образом, что происходит внутри слоев? Могут ли нейронные сети помочь разобраться в этом?

234 года назад, Иммануил Кант в своей книге «Критика чистого разума» утверждал, что созерцание есть только представление о явлении.

Кант считал, что человеческие знания определяет не только рациональное и эмпирическое мышление, но и интуиция (созерцание). В его определении без созерцания все знания будут лишены объектов и останутся пустыми и бессмысленными.

В наше время профессор Беркли — Алеша Эфрос (специализируется на VUE) отметил, что в видимом мире существует гораздо больше вещей, чем слов для их описания. Использование слов как меток для обучения моделей может привести к языковому ограничению. Есть много вещей, которым нет названия в разных языках. Популярный пример — самое емкое в мире слово Mamihlapinatapai.

Можно провести параллель между машинными метками и явлениями, а также кодированием и интуицией (созерцанием).

Во время обучения глубинных нейросетей, например, в работе по распознаванию котиков можно увидеть, что процессы идут поступательно от нижнего до верхнего уровней.

Сеть по распознаванию изображений кодирует пиксели на нижнем уровне, распознает линии и углы на следующем, затем стандартные формы и так далее. С каждым уровнем все усложняя задачу. Средние уровни не обязательно имеют связи с конечным образом, например, «кот» или «собака». Только последний слой соответствует меткам, определенным людьми и ограничен этими метками.

image

Кодирование и метки пересекаются с понятиями, которые Кант назвал созерцанием и явлением.

Шумиха вокруг гипотезы Сепира-Уорфа


Как заметил Эфрос — существует гораздо больше концептуальных моделей, чем слов, которые их описывают. Если это так, то могут ли слова ограничивать наши мысли?

Это основная идея гипотезы лингвистической относительности Сепира-Уорфа. В самой строгой форме, гипотеза Сепира-Уорфа утверждает, что структура языка влияет на то как люди воспринимают и осмысливают мир.

Так ли это? Возможно ли, что язык полностью определяет границы нашего сознания или мы вольны осмыслить что-угодно, независимо от языка на котором говорим?

image

На картинке изображены 12 салатовых квадратов, один из которых отличается по цвету. Попробуйте угадать какой именно. У племени Химба в речи есть два слова для разных оттенков салатового, поэтому они дают правильный ответ гораздо быстрее. Большинству из нас придется попотеть, прежде чем найти квадратик.

Правильный ответ
image

Теория такова: поскольку существуют два слова для отличия одного оттенка от другого, наш разум начнет обучать себя отличать эти оттенки и со временем разница станет очевидной. Если смотреть разумом, а не глазами, то язык влияет на результат.

Еще один яркий пример: поколению millennials трудно было привыкнуть к цветовой палитре CMYK, поскольку цвета cyan и magenta не заучены с самого рождения. Тем более в русском языке — это сложные составные цвета, которые тяжело точно представить: цвет морской волны и пурпурно-красный.

Смотреть разумом, а не глазами


Нечто подобное можно наблюдать и в машинном обучении. Модели обучают распознавать картинки (текст, аудио...) в соответствии с заданными метками или категориями. Сети гораздо более эффективно распознают категории с метками, чем категории без меток. Это не удивительно при обучении методом «с учителем». Язык влияет на восприятие мира человеком, а наличие меток — на способность нейронной сети распознавать категории.

Но наличие меток — это не обязательное условие. В гугловском кото-распознающем мозге сеть сформировала понятия «кот», «собака» и другие совершенно самостоятельно, без указания требуемых решений (меток).

Сеть проходила обучение без учителя (задается только ситуация). Если подать на ее вход картинку, принадлежащую определенной категории, например «коты», то активироваться будут только «кошачие» нейроны. Получая большое количество обучающих картинок на вход, эта сеть сформировала базовые характеристики каждой категории и различия между ними.

image

Если постоянно показывать ребенку пластиковый стаканчик, то он начнет узнавать его, даже если не знает как эта вещь называется. Т.е. образ не будет сопоставлен с названием. В этом случае гипотеза Сепира-Уорфа некорректна — человек может исследовать и исследует различные образы, даже если не существует слов для их описания.

Машинное обучение с учителем и без подсказывает, что гипотеза Сепира-Уорфа применима для человеческого обучения с учителем и не подходит для самообучения. А значит пора прекратить споры и дебаты по этому поводу.

Философы, психологи, лингвисты и нейробиологи изучают эту тему уже много лет. Связь с машинным обучением и компьютерными науками обнаружена относительно недавно, с достижениями в области больших данных и глубинного обучения. Некоторые нейронные сети показывают отличные результаты в языковом переводе, классификации картинок и распознавании речи.

Каждое новое открытие в машинном обучении помогает понять немного больше о человеческом разуме.

Конспект


  • Человеческий мозг подобно нейронной сети переходит от образа к картинке.
  • Кодирование это то же самое, что созерцание у человека, а метки — это явления.
  • Если смотреть разумом, а не глазами, то язык влияет на результат.
  • Гипотеза Сепира-Уорфа может оказаться корректной для обучения с учителем и в корне неправильной для обучения без учителя.

Комментарии (5)


  1. Ktulhy
    23.07.2015 21:55

    А мне вот интересно было — как заставить нейросеть «думать» в обратную сторону, т.е. говорить «а сделай ка мне цифру 8»?


    1. rocknrollnerd
      24.07.2015 02:29

      Если про тот Хинтоновский пример, что в статье, то это называется generative model («порождающая модель», наверное?), и работает так — вы показываете ей одну цифру 8, а она вам выдает все, что думает на эту тему (много разных цифр 8).


      1. Ktulhy
        24.07.2015 10:19

        Это-то понятно. Непонятно именно как это происходит в случае с нейросетью.
        Вот у меня есть, например, нейросеть (входы-выходы, скрытые слои и веса), и как мне получить то, что «нейросеть думает» об определённом результате?



  1. kraidiky
    24.07.2015 23:28

    Интересные рассуждения, но вот эта гипотеза неверная: Гипотеза Сепира-Уорфа может оказаться корректной для обучения с учителем и в корне неправильной для обучения без учителя.

    Вернее она верная если всё обучение сети происходитодним и тем же методом. Но в реальности это не так. Если сеть сначала училась с учителем, то дальнейшее обучение без учителя будет эффективнее там, где язык сформировал успешные обобщения. Пользуясь вашим примером, если вы решите научить замечать что-то важное на салатовых картинках без учителя то чувак из Химбы будет учиться быстрее и эффективнее, потому что его мозг уже привык видеть разницу.