Об этом сообщает MIT Technology Review.
Для создания своей нейросети специалисты из University of Rochester в течение целого года собирали твиты, в которых используется специфическая «алкогольная» лексика. Из этого набора, фильтровались все твиты, которые упоминают алкоголь или связанных с алкоголем слов, таких, как «пьяный», «пиво», «вечеринка» и так далее. Анализ около 11 000 постов помог установить, является ли автор сообщения тем, кто пьет спиртное, и был ли твит написан непосредственно во время употребления напитка. Это достаточно большой набор твитов для алгоритма машинного обучения.
Ученые также решили определить, откуда пользователи чаще всего пишут «пьяные» твиты.
Чтобы понять, находился ли автор поста дома, анализировалось употребление специфической «домашней» лексики (например «диван» или «ванна»). Кроме того, по возможности, использовались данные геолокации. Для уточнения координат пользователей, были разработаны дополнительные алгоритмы, например было интересно узнать, дома пользователи, или где-либо еще? Типовые алгоритмы включают в себя анализ мест отправки последнего сообщения в интервале времени от 1 часа ночи, до 6 часов утра. Тем не менее методы имеют свои недостатки и не высокую точность.
Hossain с коллегами разработали другой подход. Они составили список слов и фраз, наиболее вероятно отправленных из своих домов, таких как «Наконец дома!», или «в ванне», «на диване», «перед телевизором» и так далее. Данные твиты были исходным набором данных для уточнения местоположения людей, на основе которых нейросетью были сформированы собственные модели определения людей дома. Алгоритм уточнял, как местоположение пользователя дома, коррелирует с другими показателями, такими как местоположение последнего твита днём, самым массовым расположением твита, процент твитов из определенного места и т.п.
Опираясь на несколько показателей, нейросеть значительно повысила точность. В итоге Hossain и соавторы утверждают, что могут определять пользователей вне дома с точностью до 100 метров с вероятностью в 80%. Это значительно лучше, чем любая предыдущая работа.
Вместе, эти два метода позволили команде разработать модель, когда и где люди пьют. И они использовали это, чтобы сравнить типичные примеры питья в Нью-Йорке, и в пригородной зоне округа Монро.
Исследователи делают это, путем деления каждой области сетку из 100 х 100 ячеек и маркировки тех областей, где есть твиты, связанные с алкоголем. Что позволяет им разрабатывать и сравнивать «тепловые карты» употребления алкоголя для каждой области.
Также различаются твиты о теме питья сделаных из домашнего местоположения, от твитов в других местах. Намечаются точки продаж алкоголя в каждой области. Это позволяет исследователям изучить взаимосвязь между плотностью твитов, отправленных из разных регионов в состоянии алкогольного опьянения и плотности продажи алкоголя.
Результаты интересны для ознакомления. Во-первых, Hossain отметил, что более высокая доля твитов в Нью-Йорке связаны с алкоголем, чем в графстве Монро. «Одно из возможных объяснений является то, что переполненный город, такой как Нью-Йорк с высокой плотностью продажи алкоголя, способствует тому, что больше людей при общении, используют более высокий уровень потребления алкоголя из-за его доступности» говорят они.
Более того, данные геолокации показывают, что более высокая доля людей пьет дома (или в пределах 100 метров от дома) в Нью-Йорке, чем в графстве Монро, где большая часть людей пьет далее, чем в километре от дома.
Тепловые карты, также, выявляют интересные закономерности. Это позволяет команде находить области в 100 х 100 метров, в квадратах сетки, где были, по крайней мере пять твитов об алкоголе. «Мы считаем, что такие области являются признаком деятельности необычной питьевой активности» утверждает Hossain.
Они также обнаружили корреляцию между плотностью продажи алкоголя в регионе, и количеством твитов, указывающих, что кто-то пьет в настоящее время. Возникает интересный вопрос о том, как корреляция и причинно-следственная связь связаны в данном случае. Высокая плотность продажи алкоголя заставляет людей пить больше? Или пьющие стекаются в районы с высокой плотностью продажи алкоголя? Конечно, такого рода данные, сами по себе не могут ответить на этот вопрос.
Тем не менее, достоинство этого метода является то, что это дешево и быстро. Другие методы, для получения аналогичной информации, являются чрезвычайно дорогими и отнимают много времени.
Как правило, требуется, чтобы люди были тщательно отобраны, для заполнения заранее подготовленных вопросников, которые должны быть далее тщательно проанализированы. Нейросеть же, обученная к этому методу, может даже контролировать употребление алкоголя в режиме реального времени. «Наши результаты показывают, что твиты могут обеспечить подробной информацией о происходящем в городах», говорят исследователи.
Есть особенности, конечно. Существует искажение в данных, собранных из Twitter, так как преобладают молодые люди и представлена небольшая часть населения, активно пользующаяся социальными сетями. Но, подобные искажения, присутствуют в других методах сбора информации, например, опросы, как правило, не учитывают людей, которые не хотят проходить обследования, таких как некоторые иммигранты.
Выявление искажений статистических данных является важной частью всех методов сбора информации.
В дальнейшем авторы исследования хотят научить нейросеть определять пол, возраст, этническую принадлежность и иные особенности по записям в Twitter. Ученые считают, что это поможет в изучении влияния алкоголя на здоровье. Такое, казалось бы не серьезное исследование, имеет достаточно высокую практическую важность, так как только в США, из-за злоупотребления алкогольными напитками умирает 75 000 человек в год. Наличие модели потребления алкоголя в обществе, позволит наметить обоснованные пути решения данной проблемы с минимальными затратами.
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Комментарии (22)
Ikors
28.03.2016 18:27Не очень понятно, откуда в посте взялась нейросеть. В тексте по ссылке говорится просто о неком метод машинного обучения, без особых подробностей, а в препринте — о методе опорных векторов.
sim31r
28.03.2016 18:41Надо будет уточнить этом момент, может ли метод опорных векторов работать с абстрактным текстом, как и нейросеть?
Ikors
29.03.2016 03:04Я не совсем понимаю, что вы имеете в виду, говоря "как и нейросеть", но метод опорных векторов вполне можно использовать для работы с текстом, нужно только правильно построить признаки. Сделать это можно по-разному, например, при помощи bag-of-words.
Тем не менее, я не нашёл никаких упоминаний нейросетей ни в новости, на которую вы ссылаетесь, ни в препринте.
dyadyaSerezha
29.03.2016 14:30Мне эта статья напомнила новости и рекламу про всякие наносмеси и нанопокрытия: «новый стиральный порошок с нанодобавкой!», «новое суперсверло с нанопокрытием!» и т.п. То есть, все выводы — тривиальные и очевидные (типа, сенсация! Ученые создали самообучающуюся нейросеть, проанализировали все твиты за год и установили, что плотность машин в Нью-Йорке больше, чем в Графстве Монро! Более того, оказалось, что водители больше времени проводят в пробках в Нью-Йорке, чем в графстве Монро! Ученые надеятся, что эти новые и неожиданные данные помогут борьбе за снижение аварийности на дорогах! Ура)
А от таких перлов я вообще вообще под столом: «собирали твиты, в которых используется специфическая «алкогольная» лексика. Из этого набора, фильтровались все твиты, которые упоминают алкоголь или связанных с алкоголем слов, таких, как «пьяный», «пиво», «вечеринка» и так далее.»
По-моему, слова «пьяный, пиво, вечеринка и так далее» это и есть та самая «алкогольная лексика». То есть, в зависимости от значения слова «фильтровались» (оставлялись в выборке или выкидывались из нее), описываемые два шага либо полностью повторяют друг друга, не меняя выборку, либо полностью взаимоисключают друг друга, выдавая нулевую выборку. Либо трудности перевода? :)sim31r
29.03.2016 14:53Статья не сенсация. Но есть несколько интересных моментов
- Анализ социальных сетей в реальном времени с «тепловой картой»;
- Замена соцопросов;
- Алгоритм машинного обучения.
Социологи делают свою работу, и тут просто один из новых методов для повышения качества их работы. Наблюдая за чужой выполненной работой всё тривиально (на примере болельщиков, что знают как надо играть), но когда сам что-то делаешь, возникает много вопросов, на которые надо найти ответы, и люди часто совершают ошибки.
Задача в контексте этой статьи, как снизить употребление алкоголя в странах, не вызывая неудобств для людей и социальных протестов? Хотя бы на 1%, как это сделать? Сократить время продажи алкоголя, построить стадион, сократить количество точек продаж, запустить социальную рекламу? Если всё тривиально, почему оздоровление общества почти во всех странах идет с переменным успехом? Имеющиеся данные просто капля в море, когда речь заходит о реальных проектах, и решения принимаются в основном хаотично, без обратной связи об успешности.
Stroy71
В СНГ менталитет другой. Когда пьют водку(пиво, коньяк и т.д.), общаются с собутыльниками, а не в твиттере.
sim31r
Во всех странах есть некоторый процент исключений, как и ни в одной стране нет полного погружения в виртуальную реальность. Такое впечатление, что российские студенты и школьники поголовно выкладывают всё в Instagram, люди постарше уже реже, но много таких что выкладывают фото с работы даже там где фотографироваться нежелательно, так как это достаточно важные объекты.
В твиттере не нужно общаться кстати, достаточно заметки абстрактной, и не в стиле "я выпил 150 грамм в баре за углом", а "ну я ваще овввааапппяя :) :( ггг", этого достаточно, чтобы нейросеть нашла девиацию в стиле письма, времени отправки сообщения и предположила с вероятностью в 95% что автор в нетрезвом состоянии. Лайки и репосты могут дать информацию о коллективе и много чего еще.