Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.
Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.
Анализировать данные умеют все люди. Способность нашего мозга видеть взаимосвязи, приходить к выводам на основании фактов и учиться на опыте — вот что делает человека человеком. Выживание человека в большей степени, чем любого другого биологического вида на планете, зависит от мозга; человечество сделало максимальную ставку на эту особенность, чтобы занять свое место в природе. Пока эта стратегия работает, и вряд ли мы захотим ее поменять в ближайшем будущем.
Однако в том, что касается тривиальной обработки чисел, возможности нашего мозга ограниченны. Он не справляется с объемом данных, который мы в состоянии воспринять за один раз, и с нашей любознательностью. По этой причине мы доверяем машинам часть своей работы: выявление закономерностей, формирование связей и получение ответов на многочисленные вопросы.
Стремление к знаниям заложено в наших генах. Применение компьютеров для выполнения части работы в наши гены не заложено, но без них не обойтись.
Структура книги
В главах 1 и 2 приводятся общие теоретические основы, необходимые для понимания других глав книги:
— Глава 1 знакомит читателя с data science и большими данными. Она завершается практическим примером Hadoop.
— Глава 2 посвящена процессу data science. В ней описаны шаги, присутствующие почти в каждом проекте data science.
В главах 3–5 описано применение принципов машинного обучения к наборам данных постепенно увеличивающихся размеров:
— В главе 3 рассматриваются относительно небольшие данные, легко помещающиеся в памяти среднего компьютера.
— В главе 4 задача усложняется: в ней рассматриваются «большие данные», которые могут храниться на вашем компьютере, но не помещаются в памяти, вследствие чего обработка таких данных без вычислительного кластера создает проблемы.
— В главе 5 мы наконец-то добираемся до настоящих больших данных, с которыми невозможно работать без многих компьютеров.
В главах 6–9 рассматриваются некоторые интересные вопросы data science, более или менее независимые друг от друга:
— В главе 6 рассматривается архитектура NoSQL и ее отличие от реляционных баз данных.
— В главе 7 data science применяется к потоковым данным. Здесь основная проблема связана не с размером, а со скоростью генерирования данных и потерей актуальности старых данных.
— Глава 8 посвящена глубокому анализу текста. Не все данные существуют в числовой форме. Глубокий анализ и аналитика текста начинают играть важную роль в текстовых форматах: электронной почте, блогах, контенте веб-сайтов и т. д.
— В главе 9 основное внимание уделяется последней части процесса data science (визуализации данных и построению прототипа приложения), для чего мы рассмотрим ряд полезных инструментов HTML5.
В приложениях А–Г рассматриваются процедуры установки и настройки систем Elasticsearch, Neo4j и MySQL, упоминаемых в главах книги, а также Anaconda — программного пакета Python, чрезвычайно полезного в data science.
Для кого написана эта книга
Эта книга знакомит читателя с областью data science. Опытные специалисты data science поймут, что по некоторым темам материал изложен в лучшем случае поверхностно. Другим читателям сообщим, что для извлечения максимальной пользы из книги потребуются некоторые предварительные условия: чтобы браться за практические примеры, желательно обладать хотя бы минимальными познаниями в SQL, Python, HTML5 и статистике или машинном обучении.
Об авторах
Дэви Силен — опытный предприниматель, автор книг и профессор. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Дэви является внештатным преподавателем школы менеджмента IESEG в Лилле (Франция), где он преподает и участвует в исследованиях в области теории «больших данных».
Мохамед Али — предприниматель и консультант в области data science. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно. Его увлечения лежат в двух областях: data science и экологически рациональные проекты. Последнее направление воплотилось в создании третьей компании, базирующейся в Сомалиленде.
Арно Мейсман — целеустремленный предприниматель и специалист data science. Вместе с Дэви и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Арно — специалист data science с широким кругом интересов, от розничной торговли до игровой аналитики. Он полагает, что информация, полученная в результате обработки данных, в сочетании с некоторым воображением, поможет нам улучшить этот мир.
» Более подробно с книгой можно ознакомиться на сайте издательства
» Оглавление
» Отрывок
Для Хаброжителей скидка 25% по купону — Data Science
Комментарии (23)
DarthWazer
21.02.2017 08:23Случайно не планируете издавать «Head First Python, 2nd Edition»? Очень бы хотелось.
Извините за офтоп.
Andrey_Dolg
21.02.2017 10:53Спасибо заказал как раз искал что-нибудь из бумажного.
merrymaker14
21.02.2017 12:18Тоже, тем более содержание книги по главам выглядит довольно интересным.
soshnikov
21.02.2017 23:47Прошу прощения, что не в тему, но в топик «Книга «Изучаем Node. Переходим на сторону сервера. 2-е изд. дополненное и переработанное»» уже не могу написать. К вам в личку тоже.
Электронная версия (epub) неправильная, не работает навигация по оглавлению.
С кем можно пообщаться по этому вопросу.
Еще раз сорри за оффтоп.
nikolay_karelin
25.02.2017 21:49Посмотрел содержание, и сначала загорелся купить, ибо книжка сочетает в себе и организационные и технические моменты — этого часто не хватает. Но после просмотра отрывка стало немного грустно — к сожалению, есть вопросы и по оформлению и по содержанию.
Насчет оформления: очень странно, что в PDF-варианте издания 2017 года нету нормальных ссылок, а просто набранные курсивом адреса сайтов. Больше того, если скопировать адрес оригинального издания, то попадаешь на страницу 404! Судя по всему, при верстке один из дефисов в адресе превратился в "мягкий" перенос.
По содержанию: Жалко, что авторы толком не объясняют, что происходит в их коде. В открытом отрывке есть пример на линейную регрессию одномерной функции, но при этом в результате получается две переменные, x1 и x2 и это не объясняется. Скорее всего, если разобраться с документацией в sсikit, то это все станет понятно… Но зачем тогда книжку писать? Хватит десятка ссылок на пакеты.
Еще одно замечание, возможно на первый взгляд странное: авторы, когда генерируют случайные точки для регрессии, не задают фиксированную "затравку" генератора (seed). В результате, они-то конечно предупреждают читателя, что у него может быть несколько отличающийся результат. Но с другой стороны — это очень плохой стиль, и такой код совершенно нельзя тестировать автоматически! Вряд ли конечно получится полный бред, но все-таки это "пахучий" код.
Хочу посмотреть более полные примеры в оригинале и более подробно код. Но пока не бегу покупать и другим не могу посоветовать :(
Fbist
26.02.2017 19:31Или в описании про Мохамеда ошибочно упомянут Мо, либо перепутаны тексты об авторах Мо с Арно.
novoxudonoser
Есть ссылка на торрент?