В данной статье будет произведена критика недавно написанного поста про Анализ Корана при помощи AI. Что-ж, кому интересно, как анализ проводить не следует, добро пожаловать под кат.

Неточности


Начнем с того, что автор во введении пишет:
… а потом проанализировал весь текст манускрипта.
хотя при этом был произведен анализ 7 из 114 сур Корана. В общем, без комментариев.

Дальше веселей:
Если предположить, что текст Корана писался не одним человеком, а несколькими ...
Для человека, который хоть чуточку изучал историю данного вопроса, подобное звучит как: «если предположить, что детей приносят аисты ...». Безусловно, есть дикие фантазии отдельных историков, которые предполагают, что Коран был создан несколькими людьми и т.п., тем не менее, это не более чем фантазии, подобные Новой хронологии Фоменко.

Ну и наконец:
Корреляция между двумя массивами данных отчетливо заметна даже визуально, а именно 0.7839422223, что говорит о прямой связи между классификаторами пола и настроенем текста.
Я бы по 7 числам не строил такие глубокие выводы о том, как устроен классификатор.

Использование не по назначению


Watson


На сайте Ватсона четко и недвусмысленно написано: «You need text written by the person whose personality you're interested in. It should contain words about every day experiences, thoughts, and responses.», то есть ему нужны тексты с рассказами о повседневном опыте, мыслях и ответах человека. Как человек, не раз прочитавший Коран, скажу, что он не подходит под это описание. А вот то, о чем же все-таки повествуется в Коране, советую каждому изучить самостоятельно. Сразу будет понятно, кому интересно докопаться до истины, а кому поставить очередную галочку «уф, эти глупые верующие».

Кажется, дальнейшие комментарии по Ватсону излишни.

uClassify


Может хотя бы этот инструмент автор использовал по назначению? Давайте посмотрим: «It is well suited for both short and long texts (tweets, Facebook statuses, blog posts, product reviews etc). It’s trained on 2.8 million documents with data from Twitter, Amazon product reviews and movie reviews. It can be used to conduct research, brand surveys and see trends around market campaigns.» Эх, опять разочарование! Данный классификатор был обучен на постах из Твиттера, Фейсбука, блог постах и обзорах продуктов. Скорее всего в обучающей выборке было колосальное множество коротких простых предложений, в то время как стиль изложения Корана иной. Результат был бы чуточку интересней, если бы это обучили на текстах из классической литературы.

Немного анализа


Про Ватсона я скажу лишь то, что заметил один хабровчанин в комментариях: если изменить стиль Корана с simple на Uthmani, то результат изменяется, что крайне странно. Эти две «версии» совпадают слово в слово, буква в букву, а отличаются лишь огласовками и подсказками для читающих. То есть суть одна и та же, а результат разный. В общем, IBM Watson есть куда стремиться.

Куда интересней дела обстоят с uClassify. Да, пусть он обучен на коротких, не очень релевантных текстах, но почему он думает, что в Коране так много негатива? Давайте разбираться.

Одна из первых мыслей, которая пришла мне в голову, а давайте я посмотрю на окраску отдельных слов, наверняка, это на многое прольет свет. Как вы думаете, какое самое часто употребляемое слово в Коране? Не сложно догадаться, что это слово «Аллах». Давайте посмотрим на его окраску:
  • Allah — 35% позитивное, 65% негативное

Эм… слегка предвзятое отношение, не правда ли? В дважды больше негатива… Давайте для сравнения возьмем другие слова:
  • God — 53% позитивное, 47% негативное
  • killer — 50% позитивное, 50% негативное
  • kill — 33% позитивное, 67% негативное
  • murder — 45% позитивное, 55% негативное

На всякий случай отмечу, что у верующего должны быть позитивные мысли по отношению к Богу. В доказательство (ага, прямо как в математике, это вам не ля-ля) приведу начало следующего хадиса:
Пророк, да благословит его Аллах и приветствует, сказал: «Аллах Всевышний говорит: “Я буду таким, каким считает Меня раб Мой ..."»
Исламские ученые, комментируя этот хадис говорят: «Имеется в виду, что Аллах сделает для человека именно то, чего он будет от Него ожидать.»
Кроме того, из наиболее часто употребляемых имен Аллаха в Коране: Милостивый, Милосердный, Прощающий, Мудрый и т.д. Вы ни за что не найдете там ни одного, которое бы имело негативную окраску.

Но все же, любопытство взяло верх, и что-то дернуло меня проверить еще несколько слов на эмоциональную окраску:
  • Quran — 22% позитивное, 78% негативное
  • Merciful — 17% позитивное, 83% негативное
  • Mercyful — 57% позитивное, 43% негативное

«Воу-воу-воу, парень, палехчи», как оказалось, у него очень предвзятое отношение к Корану, слово Милостивый он считает супер-негативным, а вот датскую хеви-метал-группу с кучей сатанических знаков вполне себе позитивной.

Вместо заключения


Я понимаю, что AI — это стильно, модно, молодежно, но всегда стоит думать своей головой, критически мыслить и проверять результаты. Ладно то автор, по тексту кажется (могу ошибаться), что ему нужно было сделать какое-нибудь быстренькое исследование, но что печально, так это то, что еще человек 50 «лайкнули» этот пост, то бишь «глубина» исследования автора их вполне удовлетворила.

Всем добра, позитивных мыслей и точных классификаторов! ;)
Поделиться с друзьями
-->

Комментарии (22)


  1. dmitryredkin
    21.08.2016 00:03

    Давно заметил, что читать в русскоязычной википедии хоть что-то, относящееся к исламу совершенно невозможно. Все поле зачищено упертыми мусульманами, и разглядеть под этим слоем что-то хоть отдаленно напоминающее правду решительно невозможно.
    В поисках истины приходится читать алглоязычную вики.


    1. Labunsky
      21.08.2016 01:16

      Какое это вообще имеет отношение к статье?


      1. SBKarr
        21.08.2016 01:26
        +2

        Комментатор весьма справедливо обращает внимание на то, что некоторые равнее прочих. Признаюсь, у меня тоже грызёт червь сомнений, что если бы анализировали библию тем же способом — ответных постов бы не возникло. Вапще, если хотите делать подобные анализы — практикуйтесь на буддистах.


  1. vlad72
    21.08.2016 00:30
    -2

    Достойный ответ.


  1. z0rgoyok
    21.08.2016 00:34
    +18

    Автор прошлого топика провел анализ, не выразив никакой субъективной оценки насчет его результатов. Так почему Вы оскорбляете его, утверждая, что свой интеллект он отключил? Почему бы не назвать свою статью дополнением к прошлой или альтернативой, зачем переходить на личности?


    1. z0rgoyok
      21.08.2016 00:35
      +2

      Ок, статью уже переименовали =)


  1. z0rgoyok
    21.08.2016 00:45

    Насчет содержания прошлой статьи: как я понимаю, анализ осуществлялся на нейросетях, обученных на твитах, эмоциональный окрас которых лишь отражает тренд в современном, точнее англоязычном, информационном пространстве в отношении темы анализа. Верно ли это? Или стоит считать оценку объективной и построенной на статистике использования «негативных слов»?


    1. totally_nameless
      21.08.2016 01:29
      +2

      Оценка объективна в рамках поставленной задачи — проанализировать, как вы сами пишете, «тренд в современном, точнее англоязычном, информационном пространстве в отношении темы анализа». Недавно мне один знакомый египтянин живущий в США говорил, что старается не упоминать, что он мусульманин. Похоже, что тренд налицо. Другое дело, что публикация таких анализов подкрепляет тренд еще больше. Так и до охоты на ведьм недалеко.
      А вообще анализировать религию надо не по эмоциональному окрасу ее книг, а по количеству денег и власти, которые она приносит своим создателям и последователям потому, что в современном мире именно они являются основными целями любой религии и построенной на ней церковной организации.


  1. DenerKup
    21.08.2016 00:48
    +1

    По поводу эмоциональных окрасок слов. Как и любому машинному обучению, алгоритмам Ватсона и прочего здравый смысл далеко по-барабану. Есть только тренировочная выборка, к идеальной работе на которой они стремятся. Смею предположить, что упомянутые алгоритмы, находят корреляцию рода «Слово `убил` очень часто встретилось в предложениях, которые помечены как негативные. Значит оно негативное», разумеется выраженную не в таком простом виде, как я это сделал. А теперь, если в обучающей выборке, слово «котик» будет встречаться по-большей части в негативных предложениях, оно безусловно отклассифицируется негативным. Это может случайно случится, например, если в выборку попадут большей частью форумы с котоненавистниками. Отсюда простой вывод: тексты в «2.8 million documents with data from Twitter, Amazon product reviews and movie reviews», содержащие примеры из статьи, почему-то часто помечены как негативные.

    Хочу поддержать автора: не стоит забывать смотреть, на чем обучены применяемые модели. И всегда лучше иметь разумную долю скептицизма к ML, даже к таким разработкам как IBM Watson. Сейчас это особенно важно, т.к. имеется целая куча онлайн сервисов, основанных на маш. обучении, а как оказывается попасть с ними в просак довольно просто.


  1. VenomBlood
    21.08.2016 01:05
    +5

    Во первых отношение у автора не предвзятое, потому что он не сам писал модели для анализа с целью что-то там предвзято сделать.
    Во вторых ваш анализ вообще очень поверхностный и крайне низкого качества.
    Да, слово «милостивый», «мудрый», «бог» и прочее может иметь негативный окрас. Как? Ну например так: «И если дочь совершила срамное дело, то будет проклят весь род ее, отец узнав об этом должен проявить мудрость и да предаст ее смерти побив камнями, истребив зло из земли своей — и тогда смилуется бог и не будет гневаться, ибо бог — всепрощающий, милосердный»


    1. Laytlas
      21.08.2016 01:13

      На всякий случай замечу, что цитата не из Корана.
      Никто не говорит, что «может» иметь негативный окрас. Но все же в большинстве случаев окрас должен быть позитивный, чего мы, к сожалению, не видим.


      1. VenomBlood
        21.08.2016 01:41

        С чего в большинстве случаев он должен быть позитивным, если в конец каждого параграфа там идет приписка «ибо бог ваш милосердный, всемилостивый, всепрощающий» или что то подобное? Там окраска этих слов будет совпадать с окраской текста в целом.


  1. mtp
    21.08.2016 01:07
    +2

    Просто оставлю это здесь:
    http://zhartun.me/2015/01/islam.html


    1. totally_nameless
      21.08.2016 01:26
      -3

      Зря. Уберите за собой, пожалуйста.


  1. SBKarr
    21.08.2016 01:21
    +1

    Я не разбираюсь в языках, но разве в арабском God не есть Allah? Мне всегда думалось (ибо так говорил один знакомый мусульманин), что слово Аллах есть калька с произношения арабского понятия Бог, и устойчивое выражение «Нет бога кроме Аллаха» должно в оригинале звучать в стиле «Есть только единый Бог». В таком случае, при анализе арабского текста слово Аллах не может иметь отличной от слова Бог окраски. Ради теста стоило бы заменить в тексте Allah на God.

    P.S. В целом, я понимаю негодование человека, возращённого в этой достаточно деспотичной культуре, но даже в таком случае, не могу принять критики без примеров решения проблемы. Мы ведь разумные люди, и, ради процветания человечества в целом, должны договариваться между собой, без разницы, в какой культуре мы росли. Критика без предложений неконструктивна и только усиливает культурный разрыв. Хотите, чтобы вашу культуру уважали — будьте разумны, конструктивны, отзывчивы и готовы объяснять другим, если что-то было понято неверно.


    1. vics001
      21.08.2016 01:36

      Аллах — это бог на древнееврейском языке (Эллоах). Тут, конечно, не надо путать письменность, которой владели тогда единицы, и язык, да и времена были совсем другие.


  1. Varkus
    21.08.2016 01:38
    +4

    Какой смысл Вашей статьи?
    Показать какой мудак автор предыдущей статьи?
    Потешить своё ЧСВ, что Вы настолько истинно верующий, что будете такие статьи катать в ответ на матанализ?
    Вам стало тесно в комментах?
    Кто не с Вашей верой, тот мудак?


    1. TimsTims
      21.08.2016 02:47
      +2

      > Кто не с Вашей верой, тот мудак?
      А чего это вы так неадекватно нападаете?

      > Какой смысл Вашей статьи?
      Я хоть и совершенно другой веры, но дело даже не в вере, а указание на ошибок в прошлой статье. Возможно, это поможет следующему автору сделать работу правильней, и возможно, следующая работа по такому анализу выдаст другой, более интересный результат. Нападать ни к чему.

      > Потешить своё ЧСВ, что Вы настолько истинно верующий
      А тут уже переход на личности. Когда идет переход на личности, то адекватности нет. При этом, автор может быть действительно истинно верующим, но это не значит, что он не может быть адекватным и умным человеком.
      Более того, автор в своей теме нигде открыто или прикрыто не призывает вступать в его веру, не занимается проповедями, а занимается разбором прошлой статьи, которая, между прочим, набрала уже +31.

      И да, я не нахожу никакого противоречия в этой статье, автор всё довольно интересно и аргументированно разложил. Например: «Allah — 35% позитивное, 65% негативное».

      ПС: мне тоже не хочется превращать хабр в площадку по дискуссиям на тему религий, давайте оставим это и не будем нарушать правила. И да, не нужно троллить, а автор молодец, хотя бы потому — что добавил еще частичку знаний и своё мнение в интернет.


      1. Varkus
        21.08.2016 03:20

        ИМХО, верующий верит, держит Бога в сердце, а не несётся с факелами учить других своей вере.

        > давайте оставим это и не будем нарушать правила.

        Вот здесь я с Вами полностью согласен. Удаляюсь из темы, не интересно.


  1. Arseny_Info
    21.08.2016 01:40
    +7

    К изначальному анализу действительно есть вопросы, но превращение Хабра в площадку для срачей дискуссий про религию я нахожу гораздо более неприятным явлением.


  1. PkXwmpgN
    21.08.2016 03:52
    +6

    Автор, упомянутого вами поста, не анализировал Коран, он анализировал результаты, полученные в ходе анализа текста сервисами, использующие технологии машинного обучения. При этом, недавая личной оценки этим результатам. Вы же, превратили это в дисскуссию на религиозную тему, позволяя себе оскорблять автора и других людей.


    Всем добра, позитивных мыслей и точных классификаторов! ;)

    Ну да, ваш пост просто изобилует добром и позитивными мыслями.


  1. VenomBlood
    21.08.2016 04:24
    +1

    а вот датскую хеви-метал-группу с кучей сатанических знаков вполне себе позитивной.
    Вообще, в целом, в сатанинской символике и атрибутике совершенно не обязательно будет что-то негативное. Вы посмотрите на тексты многих групп, которые используют это, там основной посыл текста никак не является негативным, атрибутика и слова там используются в художественном ключе, и мало связаны с чем-то по настоящему злым.
    Поэтому говорить что сатанинские знаки являются чем-то плохим или негативным — это так же как утверждать что нож является оружием убийства, а вилки и ложки делают людей толстыми. В каких-то конкретных случаях это может быть и так, но в общем случае — отнюдь.