imageData Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.


Анализировать данные умеют все люди. Способность нашего мозга видеть взаимосвязи, приходить к выводам на основании фактов и учиться на опыте — вот что делает человека человеком. Выживание человека в большей степени, чем любого другого биологического вида на планете, зависит от мозга; человечество сделало максимальную ставку на эту особенность, чтобы занять свое место в природе. Пока эта стратегия работает, и вряд ли мы захотим ее поменять в ближайшем будущем.

Однако в том, что касается тривиальной обработки чисел, возможности нашего мозга ограниченны. Он не справляется с объемом данных, который мы в состоянии воспринять за один раз, и с нашей любознательностью. По этой причине мы доверяем машинам часть своей работы: выявление закономерностей, формирование связей и получение ответов на многочисленные вопросы.

Стремление к знаниям заложено в наших генах. Применение компьютеров для выполнения части работы в наши гены не заложено, но без них не обойтись.

Структура книги


В главах 1 и 2 приводятся общие теоретические основы, необходимые для понимания других глав книги:

— Глава 1 знакомит читателя с data science и большими данными. Она завершается практическим примером Hadoop.
— Глава 2 посвящена процессу data science. В ней описаны шаги, присутствующие почти в каждом проекте data science.

В главах 3–5 описано применение принципов машинного обучения к наборам данных постепенно увеличивающихся размеров:

— В главе 3 рассматриваются относительно небольшие данные, легко помещающиеся в памяти среднего компьютера.
— В главе 4 задача усложняется: в ней рассматриваются «большие данные», которые могут храниться на вашем компьютере, но не помещаются в памяти, вследствие чего обработка таких данных без вычислительного кластера создает проблемы.
— В главе 5 мы наконец-то добираемся до настоящих больших данных, с которыми невозможно работать без многих компьютеров.

В главах 6–9 рассматриваются некоторые интересные вопросы data science, более или менее независимые друг от друга:

— В главе 6 рассматривается архитектура NoSQL и ее отличие от реляционных баз данных.
— В главе 7 data science применяется к потоковым данным. Здесь основная проблема связана не с размером, а со скоростью генерирования данных и потерей актуальности старых данных.
— Глава 8 посвящена глубокому анализу текста. Не все данные существуют в числовой форме. Глубокий анализ и аналитика текста начинают играть важную роль в текстовых форматах: электронной почте, блогах, контенте веб-сайтов и т. д.
— В главе 9 основное внимание уделяется последней части процесса data science (визуализации данных и построению прототипа приложения), для чего мы рассмотрим ряд полезных инструментов HTML5.

В приложениях А–Г рассматриваются процедуры установки и настройки систем Elasticsearch, Neo4j и MySQL, упоминаемых в главах книги, а также Anaconda — программного пакета Python, чрезвычайно полезного в data science.

Для кого написана эта книга


Эта книга знакомит читателя с областью data science. Опытные специалисты data science поймут, что по некоторым темам материал изложен в лучшем случае поверхностно. Другим читателям сообщим, что для извлечения максимальной пользы из книги потребуются некоторые предварительные условия: чтобы браться за практические примеры, желательно обладать хотя бы минимальными познаниями в SQL, Python, HTML5 и статистике или машинном обучении.

Об авторах


image Дэви Силен — опытный предприниматель, автор книг и профессор. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Дэви является внештатным преподавателем школы менеджмента IESEG в Лилле (Франция), где он преподает и участвует в исследованиях в области теории «больших данных».
image Мохамед Али — предприниматель и консультант в области data science. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно. Его увлечения лежат в двух областях: data science и экологически рациональные проекты. Последнее направление воплотилось в создании третьей компании, базирующейся в Сомалиленде.
image Арно Мейсман — целеустремленный предприниматель и специалист data science. Вместе с Дэви и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Арно — специалист data science с широким кругом интересов, от розничной торговли до игровой аналитики. Он полагает, что информация, полученная в результате обработки данных, в сочетании с некоторым воображением, поможет нам улучшить этот мир.

» Более подробно с книгой можно ознакомиться на сайте издательства
» Оглавление
» Отрывок

Для Хаброжителей скидка 25% по купону — Data Science
Поделиться с друзьями
-->

Комментарии (23)


  1. novoxudonoser
    20.02.2017 23:39
    -7

    Есть ссылка на торрент?


  1. Terras
    21.02.2017 00:28
    +2

    O'relly и Питер — лучшее, что есть в учебной литературе по программированию =)


    1. 4lex1v
      21.02.2017 08:21

      Только вот эта книга от издательства Manning, а не O'Reiily


    1. AnnTHony
      21.02.2017 08:56

      Ой ли? Майкрософт-пресс, Дмк-пресс, Вильямс-паблишинг? На чем основано это утверждение?


  1. DarthWazer
    21.02.2017 08:23

    Случайно не планируете издавать «Head First Python, 2nd Edition»? Очень бы хотелось.
    Извините за офтоп.


    1. ph_piter
      21.02.2017 11:04

      К сожалению, не будет.


  1. joniks
    21.02.2017 08:23
    -2

    Мохамед Али


  1. Bandicoot
    21.02.2017 08:55

    Скоро будет электронная версия книги «Грокаем алгоритмы»? Извиняюсь за оффтоп


    1. ph_piter
      21.02.2017 08:56

      Скорее всего на следующей неделе.


  1. Andrey_Dolg
    21.02.2017 10:53

    Спасибо заказал как раз искал что-нибудь из бумажного.


    1. merrymaker14
      21.02.2017 12:18

      Тоже, тем более содержание книги по главам выглядит довольно интересным.


  1. Joyniter
    21.02.2017 12:18

    А книги по тестированию на Python планируются переводить? Сложно договориться с издателями на этот счет?


    1. ph_piter
      21.02.2017 12:25

      Эта тема будет раскрыта только, как составная часть других книг.


  1. taktike
    21.02.2017 14:17

    А вы бьете своих редакторов за ошибки?


    1. ph_piter
      21.02.2017 14:39
      +2

      Говоря прямолинейно, бывает такое и строже.


  1. Plesser
    21.02.2017 17:16

    А планируется книга Android Programming от big nerd ranch 3 издание?


    1. ph_piter
      21.02.2017 17:48
      +1

      Да, уже переводится.


      1. Plesser
        21.02.2017 17:54

        Куплю и бумажную и электронную!

        PS
        Еще бы книгу какую нибудь по Android UI и жизнь стала бы прекрасной :)


  1. soshnikov
    21.02.2017 23:47

    Прошу прощения, что не в тему, но в топик «Книга «Изучаем Node. Переходим на сторону сервера. 2-е изд. дополненное и переработанное»» уже не могу написать. К вам в личку тоже.
    Электронная версия (epub) неправильная, не работает навигация по оглавлению.
    С кем можно пообщаться по этому вопросу.
    Еще раз сорри за оффтоп.


    1. ph_piter
      22.02.2017 08:38

      Отправили на проверку верстальщику. С вами свяжемся.


  1. nikolay_karelin
    25.02.2017 21:49

    Посмотрел содержание, и сначала загорелся купить, ибо книжка сочетает в себе и организационные и технические моменты — этого часто не хватает. Но после просмотра отрывка стало немного грустно — к сожалению, есть вопросы и по оформлению и по содержанию.


    Насчет оформления: очень странно, что в PDF-варианте издания 2017 года нету нормальных ссылок, а просто набранные курсивом адреса сайтов. Больше того, если скопировать адрес оригинального издания, то попадаешь на страницу 404! Судя по всему, при верстке один из дефисов в адресе превратился в "мягкий" перенос.


    По содержанию: Жалко, что авторы толком не объясняют, что происходит в их коде. В открытом отрывке есть пример на линейную регрессию одномерной функции, но при этом в результате получается две переменные, x1 и x2 и это не объясняется. Скорее всего, если разобраться с документацией в sсikit, то это все станет понятно… Но зачем тогда книжку писать? Хватит десятка ссылок на пакеты.


    Еще одно замечание, возможно на первый взгляд странное: авторы, когда генерируют случайные точки для регрессии, не задают фиксированную "затравку" генератора (seed). В результате, они-то конечно предупреждают читателя, что у него может быть несколько отличающийся результат. Но с другой стороны — это очень плохой стиль, и такой код совершенно нельзя тестировать автоматически! Вряд ли конечно получится полный бред, но все-таки это "пахучий" код.


    Хочу посмотреть более полные примеры в оригинале и более подробно код. Но пока не бегу покупать и другим не могу посоветовать :(


  1. Fbist
    26.02.2017 19:31

    Или в описании про Мохамеда ошибочно упомянут Мо, либо перепутаны тексты об авторах Мо с Арно.


    1. merrymaker14
      01.03.2017 19:19

      В самой книге, кстати, такая же опечатка.