Невозможно объективно измерить, какие девушки красивее: блондинки или брюнетки, смуглые или белокожие, высокие или миниатюрные. Но можно посчитать, какие черты внешности упоминают чаще, когда говорят о красоте.

У меня была неделя на эксперименты, наши движки анализа данных,16 тысяч русских романов и повестей XIX века и 15 тысяч современных длинных произведений. И, конечно, не было никаких размеченных данных.

Основная идея была в том, чтобы выделить из этой горы текстов фрагменты с описаниями красивых женщин, а потом из этих фрагментов извлечь частотные черты внешности.

Вот визуализация того, что получилось. Точнее, одного из распространённых вариантов.


Цвет глаз, волос, платье, рост, воспитание — всё это можно выделить из корпуса текстов.

Конечно, не всё так просто и однозначно как на рисунках, но примерное представление вы уже получили. Теперь давайте расскажу про детали и последовательность действий.

Корпус текстов


Удалось найти ресурсы с открытой лицензией на распространение текстов. Спасибо тем людям, которые собрали и выложили всё это.

В корпус и за XIX век, и за современность входили только исконно русскоязычные тексты, то есть переводной литературы нет.

Весь анализ я делала на связке SAS Visual Text Analytics и питоновских библиотек (pymorphy2, gensim, tensorflow).

Шаг 1. Лингвистические правила


Итак, сначала нужно было выделить фрагменты с описаниями женской внешности. Размеченных данных не было, поэтому я начала с простых правил в духе «девушка AND (глаза OR волосы OR лицо)». Правила писала в SAS Visual Text Analytics, так что они учитывали морфологические формы, опечатки (для современного корпуса было актуально), простой синтаксис, расстояние между токенами и фильтровали нежелательные контексты.

Упрощённое правило
PREDICATE_RULE:(arg1, arg2, arg3): (UNLESS, «bad_contexts», (SENT_5, "_arg1{beauty}", "_arg2{woman}", "_arg3{traits}"))

Иначе говоря, в пределах пяти предложений должно быть упоминание женщины, упоминание факта её привлекательности, описание каких-либо черт внешности, и при этом не должно быть нежелательных контекстов.

Написать такое правило несложно, проблема в деталях. Как, например, собрать все возможные упоминания женщин? Ведь в тексте это может быть и «барыня», и «девчуля», и «Маргарита», и «кузина». Простыми синонимами здесь не обойтись, ни один словарь не выдаст «машинистку» или «студентку» как синоним к «женщине». Можно перечислять «из головы», пока хватает фантазии, но список будет неполный (да и скучно это).

Для расширения правил и поиска контекстных синонимов подключаем векторные представления.

Шаг 2. Модель word2vec


Word2vec — инструмент векторизации слов, который основывается на идее «скажи мне, кто стоит рядом с тобой, и я скажу, кто ты». Например, в предложении «я ___ её с первого взгляда» большинство заменили бы пропуск на слово типа «полюбил». Идея простая — похожие слова встречаются в схожих контекстах. Для русского языка есть готовые предобученные модели, которые размещены здесь. Опыт на проектах показывает, что модели, обученные на корпусе предметной области, работают лучше, чем модели «для всего языка», поэтому я обучила две модели на своих корпусах.

Сначала корпуса питоном разбила на слова, привела слова к начальной форме (спасибо pymorphy2), извлекла частотные многословные выражения типа двоюродная сестра, львиная грива, осиная талия (спасибо phrases из gensim). На обработанных данных обучила модель word2vec (алгоритм skipgram, окно — 3, размерность — 300).

С помощью обученной модели итеративно составила списки похожих слов. Функция most_similar в gensim принимает на вход слово и возвращает список слов/выражений, вектора которых близки по косинусной мере вектору исходного слова.

Векторы, близкие вектору слова «красавица» на корпусе XXI века. Второе значение — косинусная мера.
('красотка', 0.6690341234207153)
('хорошенький', 0.6438576579093933)
('очаровательный', 0.6156517267227173)
('умница', 0.6063219308853149)
('красавец', 0.6044491529464722)
('девчушка', 0.5829722285270691)
('синеглазый', 0.5814758539199829)
('барышня', 0.5773882865905762)
('принцесса', 0.5754760503768921)
('светленький', 0.5743755102157593)
('белокурый', 0.5731547474861145)
('голубоглазый', 0.5724368095397949)

Проблема здесь была в том, что среди похожих векторов могут попадаться антонимы, поскольку они могут находиться в одинаковых контекстах. Например, на месте пропуска в примере про «полюбил с первого взгляда» вполне может быть антоним «возненавидел с первого взгляда». В нашем случае, например, к слову «девушка» ближе всего вектор «молодой человек», и только после него идут «женщины», «дамы» и т. д. Проблему с антонимами решила просто ручным отбором. Но антонимов было немного, так что сил на это ушло мало.

Кстати, забавно, что похожие слова к женщине XIX века — это всякие семейные понятия (дочь, сестра, кузина) или обслуживающие профессии (горничная, служанка, кухарка), социальное положение по мужу (адмиральша, генеральша, баронесса). В XXI веке спектр расширяется: есть студентка, одноклассница, спортсменка, лаборантка, комсомолка, переводчица, руководительница.

Женщины XIX века:
Катерина
Катя
Клавдия
Клотильда
княгиня
княжна
кокетка
компаньонка
кормилица
красавица
крестьянка
кружевница
кузина
куколка
кумушка
купчиха
кухарка

Женщины XXI века:
Карен
Карина
кассирша
Катерина
Катрина
Катька
Катя
квартирантка
Кира
Клара
клиентка
кокетка
комсомолка
королева
красавица
красотка
Кристина
Ксения
Ксюша
кузина

Тот же принцип использовала для расширения остальных правил.

Например, для извлечения контекстов про волосы:
грива
завиток
копна
коса
косица
кудри
кудряшка
локон
причёска
прядь
прядка
пучок
стрижка
чёлка
чёлочка
шевелюра
хвост
хвостик

Шаг 3. Нежелательные контексты


Итак, у меня длинные подробные правила, которые довольно удачно ловят описание внешности, упоминание женщины и упоминание факта её привлекательности. Прописываю в лингвистических правилах очевидные ограничения: нужно учесть отрицания, модальность, условное наклонение, чтобы не поймались контексты типа «не отличалась красотой», «далеко не красавица».

Вот такое нам не нужно.
В юности была совсем не красавицей, а довольно упитанной девушкой с широким утиным носиком. Очень она из-за своего носика переживала, и по рассказам сестёр, нередко спала с деревянной защипкой для белья на носу, чтобы его таким образом сузить.
П. Ребенина, «Несчастная Зинка».

Кроме того, удивительно часто авторы умудряются описать в целом отталкивающих персонажей, которые имеют одну симпатичную черту. С такими контекстами сложно справиться, они могут давать шум, поэтому я просто их убираю из рассмотрения.

Теперь у меня на руках есть фрагменты текстов с разметкой на базе правил и векторных представлений. Хотя на уточнение правил и ушла пара дней, найденные контексты имеют погрешность, которая меня для этой задачки вполне устраивает. Например, некоторые описания внешности не извлеклись из-за того, что непонятно, о женщине или о мужчине идет речь: «У Вали были серо-голубые глаза, скрывающиеся под тонкими стёклами очков». В принципе можно было бы разрешить эту неоднозначность на основе более крупного фрагмента текста, но у меня была всего неделя, так что все неточности я оставила дожидаться своего часа.
Вот такая получилась разметка.

Примеры разбора, полужирным выделен контекст, подчёркиванием — факты о внешности. Кроме некоторых. А эта ссылка тоже не ссылка и не кликается!
Алина всё-таки была и из другого круга, и вообще вся другая. Она была очень красивая: брюнетка с серо-голубыми глазами, покатым лбом, аккуратным носиком, точёным личиком, тонкими запястьями, на которых болтались самые стильные фенечки, которые я когда-либо видела в жизни. Она была выше меня на голову, фигура у неё была… ну, без шуток, классная.
К. Белозёрова, «Друг, которого нет».

Она была не из тех, кто лезет за словом в карман, её природная красота и привлекательность завораживали и манили. Высокий лоб наполовину прикрывала ровная чёлка, гладкие чёрные волосы, поблескивая в свете ламп бистро, доходили до плеч, мягко струясь по грациозной загорелой шее. В её зелёных глазах читался явный интерес к моей персоне: Алёна то и дело потирала тонкую переносицу указательным пальчиком правой руки, что говорило о её смущении. При моей очередной шутке девушка смеялась, и от этого её чувственные губы растягивались в улыбке, а рядом с уголками губ появлялись ямочки. Я ловил себя на мысли, что мне очень хочется, чтобы этот вечер никогда не заканчивался.
Д. Ильин, «Перекрёстки судьбы».

В ней было нечто таинственное и притягательное, она была стройна и хороша собой. Длинные, слегка вьющиеся светлые волосы, правильные черты лица, очень живые голубые глаза делали Лену очаровательной. Борису нравились её озорная улыбка, чувственный рот, её веселость. Ему казались неотразимо привлекательными и внешность её, и манера держаться.
А. Большаков, «Изгой».

Это была очень красивая женщина с резкими чертами лица, острым носом и точёным подбородком, звали её не менее эффектно — Аделаида. Она вышла встречать меня в длинном ярко-зелёном платье, а на груди её и руках висели многочисленные какие-то диковинные этнические украшения. «Можно просто Ида», — приветливо сказала она, и уголки её тонкого рта несимметрично разъехались в стороны. «Какая красавица с изюминкой!», — подумала я.
О. Павленко, «Байка о ведьмах».

У дверей соседней комнаты стояла молодая женщина со свечой в руках… Я взглянул и изумился — такая она была красивая в белом капоте, с распущенными по плечам волосами. Что за прелестные черты, несмотря на то, что они были искажены гневом! Голубые глаза с расширенными зрачками блестели зловещим блеском… Фигура стройная, гибкая.
К. Станюкович, «Оригинальная пара».

И Якову было за что любить свою молодуху: баба — работящая, не пустомеля, не слезомоя, женщина здоровая и красивая. Лицо у неё продолговатое, с прямым, тонким носом и с пухлыми, алыми губами. Её голубые глаза весело и открыто смотрят на белый свет. А над ними, словно кисточкой, проведены тёмные брови. Густой румянец играет на её загорелых щеках.
П. Засодимский, «От сохи к ружью».

Шаг 4. Сборка результата


Остается собрать Франкенштейна и объединить самые частотные черты. Некоторые признаки имели очень близкую частотность, поэтому мы позволили себе немного пофантазировать и собрать несколько типажей.

Первые два варианта типажа:


Дама XIX века VS дама XXI века.

Было: высокая и худощавая блондинка с очень светлой, почти бледной кожей и огромными голубыми глазищами. Скорее всего, с «рассыпанными по плечам» локонами. Возможно, она изнеженная, своенравная и немного капризная. Примерно соответствующий современный аналог: фигуристая кареглазая дама с длинными тёмными волосами, на загорелом лице выделяются пухлые губы. Может быть, она кокетливая и раскованная, но притом романтичная и ранимая.

Второй типаж. С этой картинкой вы уже знакомы:



Было: молоденькая нежная брюнетка с голубыми глазами, которая тепло улыбается. Большое внимание уделено аккуратным тонким пальцам. Она задумчива, кротка, уступчива, даже застенчива. Часто она смотрит из-за локона. Современная красавица будет отличаться. Голубые глаза — всё ещё признак красоты наряду с чёрными, но появляются зелёные глаза, которых раньше вообще не было. Получается молоденькая, зеленоглазая, рыжая (это тоже совершенно новый признак!) девушка, с хорошим макияжем, ещё она стройна, высока, носит лёгкое светлое платье. Она оптимистична, спокойна и умна.

Визуализации призваны скорее показать отличия: художники так видят мои массивы параметров. Фантазии о характере тоже появились из частотных эпитетов, встречающихся в извлечённых фрагментах.

Зачем это всё?


Просто потренироваться между проектами. Точно так же я могу искать в вашей переписке признаки коммерческой тайны, даже если вы опишете её очень завуалированно. Точно так же могу мониторить новости, чтобы искать определённые события либо события, имеющие отношение к вашей компании. Точно так же я могу мониторить упоминания бренда и делить их на категории по отделам, тональности и причине обращения. Могу разбирать заявки в техподдержку от очень неадекватных пользователей. Могу проанализировать, в каком городе какие диалоги ведутся. Могу натравить платформу на все ваши платёжки изнутри банка и для всех контрагентов банка составить список производимой продукции, список поставляемой продукции и понять, что интересно руководителю. В общем, бойтесь меня!

Ну или могу просто посмотреть в текстах что угодно. Проанализировать описания домов и интерьеров. Найти побочные эффекты на лекарства. Выяснить, что вафли хрустят как-то не так, а сахар в печенье недостаточно сладкий. Узнать, что блондинки всё-таки почти в два раза популярнее брюнеток, а голубые глаза не выходят из моды. И так далее…

А вот практическое применение: как мы искали признаки врачебных ошибок.

Комментарии (64)


  1. Javian
    22.10.2019 10:41
    +1

    Голосования не хватает о совпадении мнения читателей с автором или нет.


    1. medotkato
      22.10.2019 10:49

      Мнения насчёт того, какие девушки красивее?)


      1. Javian
        22.10.2019 13:42
        +1

        Достигнут результат или нет. Вот в чем вопрос.
        Ставилась задача «выделить… описаниями красивых женщин, а потом из этих фрагментов извлечь частотные черты внешности» и затем был собран обобщенный образ — «объединить самые частотные черты».

        Вопрос в том будут ли считать читатели полученные образы красивыми (возможно опрос нужен в градациях: очень красивыми, красивыми, скорее да чем нет, некрасивыми, очень некрасивыми/непривлекательными).


  1. Eldhenn
    22.10.2019 11:04
    +1

    > Якову было за что любить свою молодуху: баба — работящая, не пустомеля, не слезомоя, женщина здоровая и красивая

    Красота крестьянина.

    > Что за прелестные черты, несмотря на то, что они были искажены гневом! Голубые глаза с расширенными зрачками блестели зловещим блеском… Фигура стройная, гибкая.

    Красота городского жителя, образованного человека, «бывшего студента», интеллигента, разночинца.

    В общем, вы упустили важный тип контекста.


    1. Krinistopen
      22.10.2019 11:38

      Но «работящая, не пустомеля, не слезомоя» — это черты характера, а статья именно про внешность.

      Кстати, в том же отрывке далее идет подробное описание внешности.


    1. wordvictor Автор
      22.10.2019 14:02
      +1

      Было бы интересно учесть этот контекст, но результаты могут быть непредсказуемые. Навскидку, из «Темных аллей»:

      1. Я встал, отворил: у порога стоит
      высокая девушка в серой зимней шляпке, в сером прямом пальто, в
      серых ботиках, смотрит в упор, глаза цвета желудя, на длинных
      ресницах, на лице и на волосах под шляпкой блестят капли дождя
      и снега; смотрит и говорит:
      — Я консерваторка, Муза Граф.

      2. Но и без малороссийского наряда она была очень хороша:
      крепкая, ладная, с густыми темными волосами, с бархатными
      бровями, почти сросшимися, с грозными глазами цвета черной
      крови, с горячим темным румянцем на загорелом лице, с ярким
      блеском зубов и полными вишневыми губами. Руки у нее были
      маленькие, но тоже крепкие, ровно загорелые, точно слегка
      прокопченные. А какие плечи!

      А ведь и там, и там главный герой – интеллигент (художник в первом случае, во втором – студент-медик).


  1. DrunkBear
    22.10.2019 11:04

    Первые 2 варианта получились метисками, что логично, но открывает дополнительный слой исследований: если брались только тексты на русском языке — там не должно быть большого количества метисов (поэтому результат может быть багом), или наоборот — усреднённое описание всё равно выводит метисов и это фича.


    1. wordvictor Автор
      22.10.2019 12:25

      Художнику я показала список частотных признаков по каждой черте (какие глаза, какие губы, какой лоб и т.д.), а визуализация – это фантазия на тему того, как эти признаки увидел художник. В анализе признаки друг от друга не зависели, то есть нельзя сказать что голубые глаза всегда идут в комплекте со светлыми волосами, а кудри – с пухлыми губами. Точно можно сказать, что высокий лоб и прямой нос были частотными признаками в 19 веке, но как они друг от друга зависят, я, к сожалению, не выясняла. Но теперь стало интересно это тоже посмотреть, спасибо за идею.


      1. cyberly
        22.10.2019 14:09
        +3

        А по-моему, художник добавил собственных предпочтений… Что у первого, что у второго получились сестры.


    1. medotkato
      23.10.2019 09:33

      Усреднили двух людей — получили метиса. Усреднили два описания — получили описание метиса. Язык отражает реальность?..


      1. DrunkBear
        23.10.2019 10:22

        Модели, созданные при помощи языка, отражают реальность.
        Но если возьмём другую модель, формата «там таакая блондень, нна.., сама — во, тут — во, там — во!!» — то образ будет передан достаточно точно для человека, который знаком с этой языковой средой, но малополезен для данного исследования.


  1. skyeff
    22.10.2019 11:43

    Не понятно как по качественным признакам можно визуализировать некий универсальный собирательный образ. Имеем признаки:
    покатый лоб — это какой, какова его форма, высота?
    аккуратный носик — это курносый, римский, кавказский?
    точёное личико — это какое, прямые рубленые формы, или наоборот миниатюрные плавные линии?
    классная — это точно не классная училка? это вообще синоним интересная/задорная, как это может быть признаком красоты?
    высокий лоб — это как у Владимира Ильича? какой именно высоты? может он у нее с залысинами или она волосы назад зачесывает?
    стройна — как фигуристка, теннисистка, волейболистка, пловчиха, стройна как кто?
    длинные волосы — до плеч, до лопаток, до поясницы, до земли?
    и т.д.
    Строить анализ на таких признаках — это очень самоуверенно, тем более пытаться некий средний образ вывести, не зная что именно в эти признаки вкладывал каждый автор. Как минимум признак стройности в 21 веке и в том же 19 очень сильно отличается.


    1. wordvictor Автор
      22.10.2019 15:15
      +2

      Вы верно заметили, что фактические значения признаков зависят от того, что под этим словом понимал автор. Но это ограничение, которое вообще характерно для литературного материала (не зря так много недовольных экранизациями литературных произведений). Множественность интерпретаций свойственна литературе. Было бы здорово учитывать объективные признаки типа «она была 1.70 ростом, объем талии – 64, глаза цвета #0033a1», но таких описаний почти нет, гораздо чаще встречается что-то вроде:

      Всегда скромна, всегда послушна,
      Всегда как утро весела,
      Как жизнь поэта простодушна,
      Как поцелуй любви мила;
      Глаза, как небо, голубые,
      Улыбка, локоны льняные,
      Движенья, голос, легкий стан,
      Всё в Ольге… но любой роман
      Возьмите и найдете верно
      Ее портрет: он очень мил,
      Я прежде сам его любил.

      Извлечь из такого описания точные факты нельзя, но можно найти множества признаков, которые соответствуют этим словам.

      Попробую пояснить эту идею. Есть такая часть значения слова, которая называется сигнификатом. Это совокупность признаков, по которым выделяются сущности, которые можно этим словом назвать. Такой набор необходимых условий, которым объект должен соответствовать, чтобы к нему рассматриваемое слово было применимо. С сигнификатом как раз связано сразу несколько проблем. Во-первых, эти условия – это целое множество (представляете, сколько оттенков попадает под вот это «глаза, как небо, голубые»?). Во-вторых, набор этих условий может варьироваться в зависимости от говорящего.

      Но определенно есть общая ядерная часть условий, которая не меняется – иначе бы мы друг друга совсем не понимали. Кроме того, русский язык, конечно, изменился с 19 по 21 век, но не секрет, что под современным русским литературным языком понимается язык от Пушкина и до современности. Исходя из этого, базовые значения слов существенно не поменялись.
      Образы, конечно, не получились фотографически верными – но и визуализации у нас мультяшные, оставляющие простор для воображения.


      1. medotkato
        22.10.2019 16:25

        Ядерная лингвистика О_о


      1. agat000
        22.10.2019 19:19

        В полицейской практике используются конкретные описания внешности, в т.ч. для составления фоторобота. Там без субьективности — покатый лоб, значит вот такой, тонкий нос — значит такой.
        Писатели, особенно классики очень тщательно подбирали и оттачивали свои тексты, благо времени было много на написание, поэтому имели ввиду именно то, что написали.
        Так что, как читается — так и выглядит по задумке автора.


        1. VolCh
          23.10.2019 07:04

          Как минимум будет читаться по разному для обычных людей и людей с полицейской профдеформацией :)


          1. agat000
            24.10.2019 03:58

            читаться возможно, но здесь речь о конечной визуализации. Готовом фотороботе.А он выглядит для всех одинаково


      1. skyeff
        23.10.2019 11:12

        Но определенно есть общая ядерная часть условий, которая не меняется – иначе бы мы друг друга совсем не понимали.

        Теоретически да, но нет. А давайте попробуем наоборот.
        image
        Красива ли изображенная на картине девушка? Как минимум привлекательна, можно даже подобрать набор эпитетов: стройная, с правильными чертами лица, длинными тонкими пальцами, пухлыми алыми губами и красивым румянцем на щеках.

        А теперь обратимся к современникам
        Этюды, да еще плохо написанные, благодаря только модному названию, нашею критикою зачастую раздуваются в великие произведения искусства… — писал Ледаков. — Точно так поступил и (из передовых, конечно, тоже) г. Ярошенко, написавший этюд бегущей во все лопатки, под вечер, по улице, отрепанной, антипатичной девицы, с выпученными глазами, в шапке набекрень и с пледом на плечах, и назвал его „Курсистка“.

        Полюбуйтесь же на нее: мужская шляпа, мужской плащ, грязные юбки, оборванное платье, бронзовый или зеленоватый цвет лица, подбородок вперед, в мутных глазах все: бесцельность, усталость, злоба, ненависть, какая-то глубокая ночь с отблеском болотного огня — что это такое? По наружному виду — какой-то гермафродит, по нутру подлинная дочь Каина. Она остригла волосы, и не напрасно: ее мать так метила своих Гапок и Палашек „за грех“… Теперь она одна, с могильным холодом в душе, с гнетущей злобой и тоской в сердце. Ее некому пожалеть, об ней некому помолиться — все бросили. Что ж, быть может, и лучше: когда умрет от родов или тифа, не будет скандала на похоронах
        профессор гражданского права новороссийского и киевского университетов Цитович.
        безобразная и нечистоплотная барышня и ничего больше

        Так что правильнее было бы написать не «Дама XIX века», а «Дама XIX века в представлении художника XXI века».


  1. kuzuzu
    22.10.2019 11:46

    нередко спала с деревянной защипкой для белья на носу, чтобы его таким образом сузить
    — интересно, помогло? )))


    1. medotkato
      22.10.2019 16:26

      Конечно — вон, попала в историю русской литературы :)


  1. devpony
    22.10.2019 12:03

    Было бы здорово посмотреть на развёрнутые результаты, вроде частоты встречаемости терминов или распределения цвета глаз, а не только на две субъективные картинки.


  1. stgunholy
    22.10.2019 12:12

    А вы только с русским языком работаете? Норвежский поддерживается?


    1. wordvictor Автор
      22.10.2019 12:34

      У нас нативная поддержка 33 языков, включая норвежский. Вот тут полный перечень.


      1. stgunholy
        22.10.2019 12:52

        Спасибо!


  1. hjornson
    22.10.2019 12:39

    Интересно, как этот NLP поймет фразу «она была хорошо сложена, только рука торчала из чемодана»…


    1. stgunholy
      22.10.2019 12:52

      Он не мог оторвать от нее глаз, пришлось отрывать уши


    1. DrunkBear
      22.10.2019 13:20

      Здесь нет информации о красоте, разве что о красоте для маньяков, но портрет жертвы ( до и после) — это уже отдельное исследование.


  1. MaxVetrov
    22.10.2019 13:13

    Чем отличается хруст этих вафлей?



    1. nick758
      22.10.2019 13:34
      +1

      вафель


      1. MaxVetrov
        22.10.2019 14:16

        Неверно.
        Со сгущенкой хрустят по-другому.


    1. medotkato
      22.10.2019 16:28

      Верхние не содержат начинки и, очевидно, хрустят лучше, чем размякшие от варёной сгущенки нижние вафли.


      1. MaxVetrov
        22.10.2019 21:15

        Все верно. Вареная сгущенка содержит хрустопонижатель и шумоподавитель, а также обладает вязкостью.)


  1. KEugene
    22.10.2019 14:43
    +2

    Художник, случайно, аниме не рисует?


  1. McKinseyBA
    22.10.2019 15:13
    +1

    Идея исследования — шикарная. Однако вопрос о выборке — сознательно не использовали серьезный корпус текстов или просто не знали о его существовании и хотелось попробовать хоть на чем-то?


    1. wordvictor Автор
      22.10.2019 15:51
      +1

      Спасибо! Конечно, НКРЯ знаем и любим. Но мне была нужна оффлайновая версия корпуса, которую пришлось бы долго согласовывать, подписывать лицензионное соглашение, документы оформлять. А у меня была всего неделя, и хотелось начать анализ как можно скорее.


    1. medotkato
      22.10.2019 16:35

      Мне кажется, на несерьёзных данных получился пример, больше похожий на реальную жизнь: «трэш, угар и содомия» без разметки, аннотаций и конкорданса с большим желанием что-то внятное из этого достать.


  1. 2zlukov
    22.10.2019 18:12

    А не завезли ещё нейросеть, которая определяет привлекательность по фото? Мне кажется, на таком приложении можно будет просто озолотиться.
    И ведь вроде бы всё честно — бездушная машина определяет сколько ты баллов из десяти, а не какие-нибудь субъекты.
    Главное — правильную обучающую выборку подобрать :)


    1. wordvictor Автор
      22.10.2019 18:24

      А есть такое, например, Prettyscale, только они, кажется, считают симметрию и золотое сечение


  1. grinCo
    22.10.2019 19:07
    -1

    Невозможно объективно измерить, какие девушки красивее: блондинки или брюнетки, смуглые или белокожие, высокие или миниатюрные. Н

    Неправда же, блондинки с белой кожей красивее. Я подозреваю, что это связанно с тем, что психологически светлое ассоциируется с чем-то чистым.
    Это подтвердят любые опросы в любой стране.


    1. agat000
      22.10.2019 19:27

      И насколько кожа должна быть бела? Какой код цвета?
      Если совсем белая, то это, извините, обескровленный труп. Или Снежная Королева


      1. grinCo
        22.10.2019 19:41
        +1

        Мы вроде людей обсуждали.
        Ну и при поставленной задаче было два класса: белая кожа или смуглая.


    1. Gymmasssorla
      22.10.2019 19:43

      Интересный мнение, кстати. Но это скорее при совпадении других факторов: лицо должно быть пропорциональное, тело не толстое, иначе симметричная девушка со смуглым лицом мне будет больше нравиться.


    1. Neikist
      22.10.2019 21:25

      Может быть средний результат и выйдет примерно таким (и то сомневаюсь), но вряд ли сильно в лидеры выбъется. Имхо


      1. grinCo
        23.10.2019 01:38

        С белой кожей даже логически легко показать если в опросе будут участвовать представители всех народностей/стран, пропорционально численности.

        У азиатов темная кожа признак низкого социального статуса, поэтому азиаты предпочтут девушку с более светлой кожей. Азиаты это примерно 57% населения планеты. Даже если все остальные проголосуют 50/50, все равно перевес будет за белокожими девушками.


        1. Neikist
          23.10.2019 01:55

          Вот только азиатки поголовно брюнетки а не блондинки. И эталоном у них считается белая кожа и черные волосы, насколько я в курсе. Впрочем уверен что далеко не у всех азиатов мнение совпадает. Ту же моду на гяру в японии вспомните.


    1. Astroscope
      23.10.2019 01:42

      Ваш пост огорчает негров. ©

      Во многих регионах мира более светлая кожа считалась признаком знати, потому что работяги, вкалывавшие на плантациях, естественно загорали больше тех, кто в силу социального неравенства больше времени проводил в помещении. Кое-где (много где) это сохранилось, например в Китае.

      Но вот незадача. Во многих регионах блондинки с белой кожей вообще мало похожи на людей, потому что таких людей (там) в природе не бывает. Следовательно, такой образ сойдет за нечто мифическое и, конечно же, будет объектом повышенного любопытства.

      P.S.: посмотрим, заминусуют ли вас брюнетки с кожей в диапазоне от светложелтой до очень темно-коричневой. :)


      1. grinCo
        23.10.2019 05:10

        Но вот незадача. Во многих регионах блондинки с белой кожей вообще мало похожи на людей, потому что таких людей (там) в природе не бывает. Следовательно, такой образ сойдет за нечто мифическое и, конечно же, будет объектом повышенного любопытства.

        Первое предложение лишнее, ибо остальное говорит в пользу моих выводов.

        Ну и расизм мне приписывать не стоит, есть объективная реальность. И даже если красота — субъективное понятие (хотя это спорно), то результат опроса объективен. Я имею ввиду, если каждого человека на планете спросить белая кожа или смуглая, блондинка или брюнетка, то результат будет объективен.

        При этом спрашивать нужно именно про красоту, а не выбери жену между блондинкой и брюнеткой. Ибо тогда тот же китаец подсознательно выберет брюнетку-китаянку, а не шикарную блондинку-европейку, просто потому что жена-китаянка это просто и понятно — нет разницы в культуре, в языке, быте.


        1. cyberly
          23.10.2019 05:51

          Я имею ввиду, если каждого человека на планете спросить белая кожа или смуглая, блондинка или брюнетка, то результат будет объективен.

          Не будет. Надо нормализовать результаты по признакам опрашиваемых. Есть мнение, что «светленькие» больше нравятся «темненьким», а вот сами «светленькие» — как раз наоборот — предпочитают «темненьких». Но так вышло, что «темненьких» гораздо больше, чем «светленьких».


          1. grinCo
            23.10.2019 09:02

            Зачем нормализовать если вопрос безусловный?
            Если вопрос переформулировать «кто красивее для брюнета, блондинка или брюнетка», то нужно учитвать признаки опрашиваемых. А иначе не нужно, мы же опрашиваем абсолютно всех.


        1. Astroscope
          23.10.2019 12:23

          Я имею ввиду, если каждого человека на планете спросить белая кожа или смуглая, блондинка или брюнетка, то результат будет объективен.

          Объективным будет лишь учет ответов. А вот интерпретировать можно постараться по-разному, включая взаимоисключающие варианты.

          тот же китаец подсознательно выберет брюнетку-китаянку, а не шикарную блондинку-европейку

          Вы сейчас de facto признали свою предвзятость. Чтобы было понятно: «Тот же %username% подсознательно выберет шикарную брюнетку, а не рахитку-европейку с волосами цвета седой старухи». Не находите передергивание? Если находите, то у меня для вас новость: ваши восхваления блондинок воспринимаются где-то так же. :)

          подсознательно выберет

          Подсознательно влияют факторы, воспринимаемые генетически, на глубоком, сугубо инстинктивном уровне. Подсознательно оценивается возможность с данным человеком создать здоровое, жизнеспособное потомство. Поэтому если оценивает мужчина, то он подсознательно хочет видеть женщину, то есть кого-то половозрелого женского пола, значит с очевидными вторичными половыми признаками (особенности телосложения, волосяной покров в соответствующих местах), здоровую (здоровая кожа, например), признаки нормального питания (довольно широкий диапазон между анорексией и ожирением) и так далее, это на самом деле сложная тема и я прошелся лишь по самым очевидным пунктам.


          1. grinCo
            23.10.2019 18:48
            +1

            Вы сейчас de facto признали свою предвзятость.

            Так я предвзят, как и все остальные люди.
            Но это никак не влияет на истинность моих выводов.
            Подсознательно оценивается возможность с данным человеком создать здоровое, жизнеспособное потомство.

            Все так. Но если мы говорим о выборе жены, а не просто красивой женщины, то еще ОЧЕНЬ большую роль играет культура, которая в основном привязана к национальности.


            1. Astroscope
              23.10.2019 20:12

              Плюс, хотя по-прежнему не во всем согласен. :)


  1. ra2003
    22.10.2019 22:09
    +2

    Один факт в результаете точно присутствует: в последнне время появились зеленоглазки или они используют зеленые цветные линзы.


  1. VolCh
    23.10.2019 07:09

    Не нашёл в словах на К слова "куртизанка", а ведь предполагается, что они красивее в среднем.


    1. medotkato
      23.10.2019 09:31

      Разве преимущество куртизанки заключается не в большей доступности, нежели большей красоте?


      1. VolCh
        23.10.2019 14:47

        Кутизанки гораздо дороже проституток, соответственно и требования к ним выше.


  1. ehabi
    23.10.2019 09:05

    Вся эта история мне напомнила, как художник Тюбик рисовал общепризнанную красавицу Семицветик (см. «Приключения Незнайки и его друзей»)


  1. artemgapchenko
    23.10.2019 10:54

    рыжая (это тоже совершенно новый признак!)

    Ну не совсем все-таки новый, у Драйзера в его известной «Трилогии желания» героиня, которая сначала была любовницей, а потом стала женой главного героя, была рыжей. :)


  1. venrok
    23.10.2019 14:18
    +2

    Результаты алгоритма над литературой определенной эпохи можно сравнить с изображениями дам на картинах этой же эпохи. Посмотреть насколько точно живопись отражает образы идеалов красоты из литературы.


    1. medotkato
      23.10.2019 14:43

      Отличная идея! А с 21 веком что делать? Куда смотреть?


      1. iluha1337
        24.10.2019 10:21

        Вк, facebook, instagram, журналы моды, журналы немоды, и пр.


        1. medotkato
          24.10.2019 10:23

          но там ведь нет картин


  1. DmitryKogan
    24.10.2019 13:44

    Великолепно, Виктория, блестящая работа и пишете прекрасно. Жалко, мало типажей привели. Есть ли, интересно, типажи только для 19 века и только для 21? Т.е. есть ли динамика представления о красоте? Например, в русских сказках красавицы белолицые и полные, а дурнушки наоборот.


  1. herase
    24.10.2019 16:04
    -2

    так и не понял смысл публикации. результат скучный, но поглядите как я умею обучать сети? ну поглядите, как мой котик умеет делать обратное сальто.