
Уже не сосчитать, сколько раз мы пытались найти в 50-страничном PDF всего одну цифру, а в итоге получали час бесконечного скроллинга и желание всё бросить. Про невозможность редактирования и копирования текста на многих устройствах даже молчим.
Помню, как иногда приходилось делать скриншоты нужных фрагментов и загружать их в Google Переводчик — чтобы хоть как-то получить текст, который можно было скопировать.
Но если раньше мучиться приходилось в одиночку, теперь на помощь приходят алгоритмы.
В этой статье мы познакомим вас с пятью охотниками за информацией и протестируем их работу с таблицами, текстом, фотографиями и ссылками внутри нелюбимого большинством документа.
А чтобы обзор стал капельку интереснее, сегодня мы отправим нейросети в экспедицию на Эльдорадо. Посмотрим, какая из моделей сможет найти его в стоге PDF-сена.
Приятного чтения!
Создаём файл для тестов
Для генерации текста мы будем использовать Bothub, а точнее — ChatGPT. Впрочем, на платформе доступны и другие бойцы невидимого фронта: Grok, DeepSeek, Claude, Gemini, Llama, Mistral, Amazon и Qwen.
Кстати, при регистрации по ссылке Bothub дарит 100 000 капсов — забирайте бонус и начинайте творить!
Фотографию возьмём из открытых источников — например, старого доброго Микки Мауса. В тексте напишем, что он весь такой: в шлеме, с ноутбуком и фонарём. А вот на деле загрузим самую обычную картинку. Поверит ли нейросеть тексту или сама взглянет, что там на самом деле?
Для усложнения добавим ссылку на один из наших прошлых материалов. Но в основном тексте напишем, что она о нейросетях и PDF-документах, а загрузим статью… про генерацию видео. Пусть попробует отличить правду от вымысла.
И, конечно, куда без таблицы. Создаём её в Excel, добавляем и начинаем обзор!
ФАЙЛ И ВОПРОСЫ ДЛЯ ТЕСТИРОВАНИЯ
1. Как профессор Морган описывает структуру PDF-документов и что он считает ключевым для понимания их логики?
2. Извлеки таблицу артефактов: название, описание, ценность и местонахождение каждого объекта.
3. Есть ли в документе активная гиперссылка? Приведи URL и опиши, к какому контенту она ведёт.
4. Какая картинка присутствует в документе?
Открывает его Any Summary

Сервис умеет делать краткие саммари, твиты, пересказы в стиле «объяснения бабушке» и даже саркастичные тексты. С ним можно поговорить на 7 языках, в том числе на русском. И самое приятное — в режиме Chat.
Под капотом у бесплатной версии — GPT-3.5. В день дают 3 попытки загрузки файла (не более 100 страниц и 10 МБ). Поддерживаются PDF, DOCX, MP3, MP4, YouTube и ещё с десяток форматов. Кстати, видео и аудио он тоже жует. Бесплатно можно загрузить до 15 минут.
Переходим к тестам!
Any Summary уловил метафору — что PDF описан как храм с «залами»: заголовки, таблицы, ссылки и изображения. Саму фразу «структура важнее золота» не процитировал, но передал суть.
Оценка: 7/10
Ответ
Профессор Морган описывает структуру PDF-документов как серию из пяти «комнат» внутри древнего храма, каждая из которых представляет собой различные сложности при интерпретации и понимании содержимого. Он считает, что способность различать такие элементы, как таблицы и поэтический текст, а также умение находить смысл в контексте — критически важны для понимания логики PDF-документов.
Таблицу он распознать не смог, ничего не извлёк.
Оценка: 0/10
Ответ
Извините, я не могу ответить на этот вопрос.
Ссылку сервис также не нашёл, несмотря на то, что она вынесена в отдельную строку.
Оценка: 0/10
Ответ
Извините, я не могу ответить на этот вопрос.
Зато вот наличие картинки сервис распознал и даже добавил, что она там не к месту.
Оценка: 10/10
Ответ
В тексте упоминается картинка Микки Мауса, которая встроена в документ, но не имеет описания и не связана с текстом.
Тексты сервис понимает. А вот ссылки и таблицы — далеко не его сильная сторона!
Стоимость сервиса?
Платный Plus стоит $14.99 в месяц. В сутки можно загружать 50 файлов, объёмом до 100 МБ и 1000 страниц. Также доступна обработка видео и аудио продолжительностью до 45 минут. Дополнительно открывается возможность скачивания полных транскриптов.
Продолжает наш топ — Perplexity

Вход в чат-бот доступен через Apple- и Google-аккаунт. Бесплатно доступно неограниченное количество основных и 3 Pro-поиска в день. Нейросеть построена на базе Claude, ChatGPT и Llama — для работы с текстами. В бесплатной версии сервис сам выбирает модель, которая лучше справится с запросом. Обычно это ChatGPT, поэтому принципы работы сильно его напоминают. Сервис составляет саммари, переводить тексты, распознает таблицы в PDF файлах.
Переходим к тестам!
В первом вопросе нейросеть выдала академический ответ. Профессор Морган, PDF-храмы, заголовки-входы, таблицы-площади — вся конкретика на месте. Даже цитаты и источник есть.
Оценка: 10/10
Ответ
Профессор Морган сравнивает структуру PDF-документов с древней каменной табличкой: «PDF — это как табличка из камня. Вырезал — не сотрёшь»1. Он утверждает, что в логике PDF важнее всего структура, а не содержание: «структура важнее золота»1. В его описании город Эльдорадо построен из информации, где:
Входы — это заголовки,
Улицы — абзацы,
Площади — таблицы,
Порталы между мирами — гиперссылки.
Морган подчеркивает, что для понимания PDF нужно уметь отличать таблицу от поэзии, заголовок от простого текста, видеть смысл сквозь шум и хаос оформления. Он называет PDF-файл храмом, в котором «если не уважаешь структуру, то застрянешь в нём навсегда», и советует искать смысл в порядке элементов, а не в отдельных словах.
Таблица полностью соответствует исходному документу, все данные совпадают!
Оценка: 10/10
Ответ

Вот тут — ловушка сработала. Мы специально подбросили ссылку, которая ведёт совсем не туда, о чём написано в тексте. А нейросеть даже не попыталась открыть её. Она поверила на слово профессору Моргану, который утверждал, что ссылка про мультимодальность — и начала уверенно рассказывать об AI и PDF.
Оценка: 0/10
Ответ
В документе действительно есть активная гиперссылка:
https://habr.com/ru/companies/bothub/articles/915110/1
Эта ссылка ведёт на статью «Мультимодальность и нейросети: как мы научили ИИ понимать документы» на сайте Habr. Контент статьи посвящён современным мультимодальным моделям и их способности интерпретировать PDF-документы и работать с неструктурированной информацией, служит примером «хорошей разметки» для исследователей и искусственного интеллекта
О, здесь веселье продолжилось. В документе есть обычная картинка Микки Мауса. Обычная! Но нейросеть внезапно начала говорить про шлем, про цифровые руины, про ночного визитёра с ноутбуком. Когда её спросили, есть ли в документе изображение — она, не моргнув, заявила: «Да, встроено. Мышь в шлеме».
Оценка: 5/10
Ответ
В документе есть вставленное изображение стилизованной мультяшной мыши в шлеме (аллюзия на Микки Мауса), но не оригинальный Микки Маус. Картинка играет роль символа проводника по «цифровым руинам» PDF-документов и испытания для читателя/ИИ.
Нейросеть блестяще справилась с текстом и таблицей, но она не проверяет, куда ведут ссылки, и уверенно дорисовывает шлемы мышам. Лучше сразу попросите её вытащить все ссылки — и перепроверьте их вручную, так же как и изображения.
Стоимость сервиса?
Платный Pro стоит 20,00 $ в месяц, предоставляет пользователю доступ к Perplexity Labs, неограниченный доступ к Perplexity Research, возможность получать в 10 раз больше цитат в ответах, работу на основе современных AI моделей, загрузку неограниченного количества документов и изображений, а также множество других функций.
Двигаемся дальше с Sharly

Под капотом сервиса GPT-4o-mini. Файл можно загрузить или дать на него ссылку. Сервис работает посредством чата.
В бесплатной версии есть ограничение — 5 файлов в сутки. Есть междокументный анализ. Язык интерфейса доступен только английский, но языков ответа доступно 24, включая русский. Рядом с чатом будет открытый файл, где можно выделить текст, и он сделает саммари, объяснит кусок или ответит на вопрос по нему.
Переходим к тестам!
С первым заданием нейросеть справилась отлично. Не сказать, что информативнее предыдущих, несмотря на то, что здесь модель лучше. Но это всё равно зачёт.
Оценка: 10/10
Ответ
Описание структуры PDF-документов Морганом
Профессор Морган рассматривает структуру PDF-документов как важный аспект, который необходимо учитывать для их понимания. Он утверждает, что структура важнее содержания и подчеркивает, что заголовки, списки и таблицы играют решающую роль в организации информации. Например, он описывает заголовки как двери, списки — как лестницы, а таблицы — как мосты, указывая на необходимость внимательного обращения к порядку и расположению элементов, чтобы извлечь смысл из документов.
С таблицей нейросеть так же не подвела — всё идеально.
Оценка: 10/10
Ответ

С ссылкой нейросеть так же не справилась, несмотря на то, что модель лучше, чем в сервисах выше. Поэтому — незачёт.
Оценка: 0/10
Ответ
В документе присутствует активная гиперссылка:https://habr.com/ru/companies/bothub/articles/915110/Она ведёт к статье на сайте Habr, которая может быть полезной для исследователей и ИИ, предоставляя пример хорошей разметки.
С картинкой — одна и та же история. Но тут сервис признался, что никаких элементов не видит.
Кстати, выделить картинку отдельно для распознавания нельзя — что минус. Но в следующем сервисе такая возможность будет!Оценка: 0/10
Ответ
В документе упоминается изображение мультяшной мыши в шлеме, который называется Шлем Микки Мауса. Это изображение связано с историей профессора Моргана и играет символическую роль, наделяя носителя смелостью распознавать смысл в шумных данных. Тем не менее, в тексте не указано описание самого изображения или его визуальные детали.
Нейросеть уверенно справляется с текстом и таблицами, но всё так же слепа к изображениям и верит тексту без фактчекинга.
Стоимость сервиса?
Платная версия Professional стоит $15 в месяц и предлагает неограниченную загрузку файлов, поддержку моделей высокого качества (GPT-4o), а также улучшенные способности к логическому выводу (модели o1-mini, o1).
Предпоследний сервис нашей подборки — ChatPDF

Сервис неплохо справляется с выжимкой из документа. Сам док можно загрузить напрямую или просто вставить ссылку. Доступно 26 языков — не только для ответов, но и для интерфейса.
После анализа ChatPDF предлагает общаться вопросами в чате. При этом он ссылается на конкретные фрагменты документа и показывает, откуда именно была взята информация.
В бесплатной версии под капотом — всё тот же GPT-3.5, и можно загрузить только два PDF-файла объёмом до 120 страниц, и задавать не более 20 вопросов в день.
Переходим к тестам!
«PDF как храм» с пятью залами — от коридоров гиперссылок до алтаря таблиц — на ура! Нейросеть разобрала структуру и процитировала нужные фрагменты.
Оценка: 10/10
Ответ
Профессор Морган описывает структуру PDF-документов как город или храм, состоящий из пяти залов: Вестибюль данных (где собирают пустые метаописания и неструктурированный текст), Комната заголовков (где стилистику выделяют порядок), Алтарь таблиц (отсутствие границ, логический сопоставление строк), Коридор гиперссылок (переводит в другие части документа или внешние ресурсы), и Зал графики (с встроенными изображениями без связанного текста). Он считает ключевым для понимания логики «структуру», а не слова — то есть порядок и организация элементов, объясняющие смысл документа.
А вот с таблицей всё пошло под откос. Нейросеть смогла вытащить только два пункта. На скриншоте будет видно, что остальные строки она просто «не заметила», хотя они там есть.
Оценка: 2/10
Ответ

Ссылка — снова ловушка. Нейросеть проверять не стала, начала рассуждать о структуре данных, цитировать несуществующее и фантазировать про мультимодальные модели. Увы, минус.
Оценка: 0/10
Ответ
В тексте есть описание гиперссылочного коридора, который «внезапно уводит тебя в другой мир» — например, упоминание о технической статье на Habr по ссылке (https://habr.com/ru/companies/bothub/articles/915110/). Эта ссылка ведёт к статье «Мультимодальность и нейросети: как мы научили ИИ понимать документы», которая посвящена способам интерпретации сложных и неструктурированных PDF-документов с помощью мультимодальных моделей.
Микки тоже не угадали. Нейросеть снова нафантазировала. На вопрос «Есть ли изображение?» она уверенно ответила: «Да, мышь в шлеме с ноутбуком и фонарём». Поэтому доверять таким выводам — риск. Но если выделить изображение вручную и задать вопрос отдельно, нейросеть распознаёт его без проблем. Скриншот ниже!
Оценка: 7/10
Ответ
В документе изображена мультяшная мышь в шлеме с ноутбуком и фонарём в руках. В сюжете Шлем Микки Мауса выступает как символ фантастического артефакта и метафора — «Гид по выживанию в цифровых руинах». Он олицетворяет инструментарий, который помогает распознавать смысл даже в хаосе цифровых данных и является узнаваемым элементом археологических находок в рассказе.

Итог — один успех из четырёх. С текстом нейросеть справляется, но с таблицами, ссылками и изображениями пока беда. Проверка вручную — обязательна.
Стоимость сервиса?
Платная версия Plus стоит $17,99 в месяц и даёт доступ к GPT-4. Можно загружать неограниченное количество PDF-файлов и задавать к ним любое число вопросов. Но размер одного файла — не более 32 МБ, объём — до 2000 страниц.
И завершает наш топ — You
По словам разработчиков, сервис умеет делать текстовые выжимки, подбирать изображения и даже ориентироваться в картах.
Под капотом бесплатной версии всё тот же ChatGPT-3.5. Загрузить бесплатно можно один файл — либо с компьютера, либо по ссылке. Главное, чтобы его размер не превышал 5 МБ.
You позволяет задавать неограниченное количество вопросов на бесплатной модели. Но, помимо этого, в день доступно 3 премиум-запроса. Перед ответом на каждый вопрос сервис уточняет, что именно вам нужно: подробно ли, в каком виде таблицу или ссылку.
Переходим к тестам!
По традиции с первым заданием нейросеть справилась — и в этот раз даже слишком хорошо: по сравнению с другими сервисами всё расписано очень подробно.
Оценка: 10/10
Ответ
1. Описание структуры PDF-документов по профессору Моргану
Профессор Морган представляет сложную и метафорическую концепцию структуры PDF-документов:
Основные принципы:
Главный постулат: "Структура важнее золота" - организация документа важнее самого содержания
Метафора храма: PDF сравнивается с храмом, где без понимания структуры можно "заблудиться" и не извлечь смысл
Структурные элементы и их метафоры:
Заголовки: представлены как "двери", обозначающие точки входа и переходы в документе
Абзацы: описываются как "улицы", направляющие поток информации
Таблицы: представлены как "площади" или "мосты", организующие и связывающие данные
Гиперссылки: описаны как "порталы между мирами"
Изображения: названы "обманками" из-за частого отсутствия описаний и контекста
Пять залов храма PDF:
Вестибюль данных: содержит неструктурированный текст
Комната заголовков: где заголовки сливаются с обычным текстом
Алтарь таблиц: содержит таблицы без границ
Коридор гиперссылок: с непредсказуемыми переходами
Зал графики: с изображениями без описаний
Таблицу раскусила легко, без лишних вопросов!
Оценка: 10/10
Ответ

А вот со ссылкой снова беда. Нейросеть галлюцинирует и рассказывает о несуществующем тексте.
Оценка: 0/10
Ответ
Ссылка, которую вы предоставили, ведет на статью под названием "Мультимодальность и нейросети: как мы научили ИИ понимать документы". В статье обсуждается, как современные мультимодальные модели справляются с задачами интерпретации PDF-документов и работы с неструктурированной информацией.
Основные моменты статьи включают:
Обзор технологий, которые позволяют искусственному интеллекту извлекать смысл из документов, включая PDF.
Примеры применения мультимодальных моделей для анализа и обработки текстов.
Обсуждение важности структуры документа для успешного извлечения информации.
Статья подчеркивает, что понимание структуры документа, такой как заголовки, абзацы и таблицы, критически важно для эффективной работы с данными.
Если вам нужно больше информации или конкретные детали, дайте знать!
Почему-то картинка не прогружается у нейросети в документе, и она снова видит совсем не то, что на ней изображено.
Оценка: 0/10
Ответ
Картинка в документе
В документе присутствует изображение:
Описание: Мультяшная мышь в шлеме, держащая ноутбук и фонарь.
Подпись: "Гид по выживанию в цифровых руинах".
Если есть дополнительные вопросы или нужна помощь, дайте знать!
Инструмент неплох для текстового анализа и структурированных данных, но не подходит для задач с внешними ссылками и визуальной информацией, увы.
Стоимость сервиса?
План Pro стоит $15 в месяц и предоставляет доступ ко всем AI моделям, включая GPT-4 и Claude 3.5 Sonnet. Максимальный размер загружаемого файла — 25 МБ, максимальное количество — до 64 000 токенов в одном запросе, также доступ к Research и Custom Agents.
Резюмируя
Да, за последние пару лет нейросети подтянулись, и вытаскивать информацию из PDF действительно стало проще.
Но как только дело доходит до деталей — всплывают подводные камни. Ссылка? Придумана. Текст по ней? Никогда не существовал. Картинка? Не увидел. А если и увидел — не то, не там, не так. Из пяти протестированных сервисов с ней справились всего два. Один — с натяжкой, другой — только после того, как ему буквально ткнули пальцем в нужное место.
Так что, несмотря на всю внешнюю эволюцию, слепо доверять нейросетям по-прежнему нельзя. Мораль сегодняшней статьи: галлюцинация ≠ интерпретация.
Спасибо за прочтение! Ну а после того как вы проанализируете нужный материал и извлечёте из PDF всё полезное, самое время перейти к следующему этапу. Приглашаем вас к просмотру топа сервисов для полноценной работы с PDF-файлами. Вас ждёт редактирование, замена изображений, защита, вотермарки — и даже крестики-нолики.
А сейчас — делитесь своим опытом работы с PDF-файлами при помощи нейросетей в комментариях. Возможно, у вас уже есть любимый сервис. Будем рады узнать о вашем опыте!