Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их. 

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.

Introduction to Information Retrieval

В России книга вышла под названием «Введение в информационный поиск». Как принято писать в таких случаях, «книга сразу стала библиографической редкостью». По крайней мере я ее одалживал у знакомого яндексоида. При этом в книге больше информации про информационный поиск (information retrieval) и меньше про NLP, но в наше время эти две области уже (или все еще) очень близки.

«Введение…» неплохо переведено, хотя я бы сказал, что в оригинале читать полезнее, поскольку вся терминология в нашей области изначально англоязычная. В целом - для первого знакомства с нашей областью эта книга - мой первый кандидат.

Кстати, я с удивлением узнал, что недавно (в 2020) вышло уже третье переиздание на русском языке. Правда, его тоже уже не достать, хотя PDF версия ищется без проблем. Не уверен, что PDF выложен на законных основаниях, поэтому предлагаю поискать книгу самостоятельно.

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Foundations of Statistical Natural Language Processing

Насколько мне известно, эта книга не переводилась на русский язык. Тем не менее у нее есть два больших плюса. Первый заключается в том, в книге изложены максимально подробно все базовые вещи.

А второй — это собственно коллектив авторов. Кстати, нужно было это рассказ вставить в описание предыдущей книги, но так как авторы общие, то и здесь это будет уместно. Кристофер Мэннинг — это легенда нашей области, бессменный лидер группы обработки естественного языка (а именно так переводится NLP) в одном из лучших американских университетов, Стэнфордском. Хинрих Шютце — несколько менее известен, но тем не менее тоже один из столпов области, главный по вычислительной лингвистике в одном из лучших уже европейских университетов, университете Людвига-Максимилиана в Мюнхене.

Минус книги в том, что некоторые вещи в ней устарели, да и читать ее достаточно сложно.

Dan Jurafsky and James H. Martin. Speech and Langauge Processing. 2nd ed.
Dan Jurafsky and James H. Martin. Speech and Langauge Processing. 2nd ed.

Speech and Language Processing

Лично я эту книгу никогда не видел в печатном виде, только в виде PDF-черновиков, в этом виде она пребывает уже много лет. Но это нисколько не делает ее хуже. Она, можно сказать, небольшая (по сравнению с предыдущей), охватывает еще темы обработки речи, которые не напрямую относятся к NLP (хотя это давний спор внутри области). В любом случае, могу ее порекомендовать без колебаний, написана она хорошо, освещает основные темы. Я правда не видел ее в переводе, но может быть я плохо искал. Текущий черновик третьего издания можно найти на странице автора.

Автоматическая обработка текстов на естественном языке и анализ данных.

Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. М.: ВШЭ, 2017. К сожалению, у этой книги нет красивой обложки.

Это пожалуй лучшая на сегодняшний день книга на русском языке по нашей области. Книга охватывает основные темы и достаточно понятно написана. Плюс выложена в открытом доступе на сайте ВШЭ.  Авторы - звездный состав старшего поколения исследователей, отдельно хочу выделить Константина Вячеславовича Воронцова (главного автора системы тематического моделирования BigARTM) и Наталью Валентиновну Лукашевич (главного автора тезауруса РуТез).

Natural Language Processing. Workbook for NLP Course

Наконец книжка, которую не совсем этично рекомендовать в целом, так она моего авторства, но для студентов моего курса она будет полезна. Это сборник всяких заметок и дополнительных материалов по курсу, который я читаю. Книга находится в глубоко черновом варианте и распространяется между студентами моего курса. Она следует логике курса и дополняет его. Если вы хотите получить доступ к текущему варианту книги, то записывайтесь на мой курс. 

Кстати, он стартует уже 14 сентября 2023 года. Курс бесплатный и открытый для всех. Подробности можно посмотреть по ссылке.

Вот такой список получился у меня, само собой неполный и субъективный. Рекомендуйте книги по своему выбору в комментариях, мне тоже будет полезно расширить кругозор.

Комментарии (5)


  1. smart_alex
    06.09.2023 16:39
    +1

    Неплохо было бы добавить абзац про то, что вы понимаете под термином NLP и как его следует понимать нам (с вашей точки зрения).

    И написать хотя бы пару строк о том, что такое MTS AI и чем интересна эта компания.


    1. madrugado Автор
      06.09.2023 16:39
      +1

      спасибо вам за вопросы

      NLP - natural language processing, обработка естественного языка; по-русски еще принято говорить анализ текстов. Это не совсем точно, т.к. помимо анализа NLP включает в себя и генерацию текстов. Для примера, всем известная OpenAI ChatGPT - это как раз генеративная языковая модель. Если хотите подробнее про это узнать, приходите на мой курс.

      MTS AI - это центр искусственного интеллекта компании МТС. Мы занимаемся созданием технологий и продуктов на базе ИИ для МТС и внешних заказчиков.


      1. smart_alex
        06.09.2023 16:39
        +4

        В народе термин NLP уже давно снискал себе отрицательную славу (благодаря стараниям различных «демиургов человеческих душ»), отрадно слышать, что этот термин имеет ещё и легитимное «академическое» значение.


      1. Ok_Lenar
        06.09.2023 16:39

        Я тоже поначалу удивился - что делает нейролингвистическое программирование на Хабре )


  1. Guul
    06.09.2023 16:39

    В них разбирается матан на достаточном и понятном уровне после которого всевозможные s4, преобразующие rnn в cnn, и всякие kernel trick встречаемые в O(n) вариациях transformers не кажутся чёрной магией?