Уже не сосчитать, сколько раз мы пытались найти в 50-страничном PDF всего одну цифру, а в итоге получали час бесконечного скроллинга и желание всё бросить. Про невозможность редактирования и копирования текста на многих устройствах даже молчим.

Помню, как иногда приходилось делать скриншоты нужных фрагментов и загружать их в Google Переводчик — чтобы хоть как-то получить текст, который можно было скопировать.

Но если раньше мучиться приходилось в одиночку, теперь на помощь приходят алгоритмы.

В этой статье мы познакомим вас с пятью охотниками за информацией и протестируем их работу с таблицами, текстом, фотографиями и ссылками внутри нелюбимого большинством документа.

А чтобы обзор стал капельку интереснее, сегодня мы отправим нейросети в экспедицию на Эльдорадо. Посмотрим, какая из моделей сможет найти его в стоге PDF-сена.

Приятного чтения!

Создаём файл для тестов

Для генерации текста мы будем использовать Bothub, а точнее — ChatGPT. Впрочем, на платформе доступны и другие бойцы невидимого фронта: Grok, DeepSeek, Claude, Gemini, Llama, Mistral, Amazon и Qwen.

Кстати, при регистрации по ссылке Bothub дарит 100 000 капсов — забирайте бонус и начинайте творить!

Фотографию возьмём из открытых источников — например, старого доброго Микки Мауса. В тексте напишем, что он весь такой: в шлеме, с ноутбуком и фонарём. А вот на деле загрузим самую обычную картинку. Поверит ли нейросеть тексту или сама взглянет, что там на самом деле?

Для усложнения добавим ссылку на один из наших прошлых материалов. Но в основном тексте напишем, что она о нейросетях и PDF-документах, а загрузим статью… про генерацию видео. Пусть попробует отличить правду от вымысла.

И, конечно, куда без таблицы. Создаём её в Excel, добавляем и начинаем обзор!

ФАЙЛ И ВОПРОСЫ ДЛЯ ТЕСТИРОВАНИЯ

1. Как профессор Морган описывает структуру PDF-документов и что он считает ключевым для понимания их логики?

2. Извлеки таблицу артефактов: название, описание, ценность и местонахождение каждого объекта.

3. Есть ли в документе активная гиперссылка? Приведи URL и опиши, к какому контенту она ведёт.

4. Какая картинка присутствует в документе?

Открывает его Any Summary

Сервис умеет делать краткие саммари, твиты, пересказы в стиле «объяснения бабушке» и даже саркастичные тексты. С ним можно поговорить на 7 языках, в том числе на русском. И самое приятное — в режиме Chat.

Под капотом у бесплатной версии — GPT-3.5. В день дают 3 попытки загрузки файла (не более 100 страниц и 10 МБ). Поддерживаются PDF, DOCX, MP3, MP4, YouTube и ещё с десяток форматов. Кстати, видео и аудио он тоже жует. Бесплатно можно загрузить до 15 минут.

Переходим к тестам!

Any Summary уловил метафору — что PDF описан как храм с «залами»: заголовки, таблицы, ссылки и изображения. Саму фразу «структура важнее золота» не процитировал, но передал суть.

Оценка: 7/10

Ответ

Профессор Морган описывает структуру PDF-документов как серию из пяти «комнат» внутри древнего храма, каждая из которых представляет собой различные сложности при интерпретации и понимании содержимого. Он считает, что способность различать такие элементы, как таблицы и поэтический текст, а также умение находить смысл в контексте — критически важны для понимания логики PDF-документов.

Таблицу он распознать не смог, ничего не извлёк.

Оценка: 0/10

Ответ

Извините, я не могу ответить на этот вопрос.

Ссылку сервис также не нашёл, несмотря на то, что она вынесена в отдельную строку.

Оценка: 0/10

Ответ

Извините, я не могу ответить на этот вопрос.

Зато вот наличие картинки сервис распознал и даже добавил, что она там не к месту.

Оценка: 10/10

Ответ

В тексте упоминается картинка Микки Мауса, которая встроена в документ, но не имеет описания и не связана с текстом.

Тексты сервис понимает. А вот ссылки и таблицы — далеко не его сильная сторона!

Стоимость сервиса?

Платный Plus стоит $14.99 в месяц. В сутки можно загружать 50 файлов, объёмом до 100 МБ и 1000 страниц. Также доступна обработка видео и аудио продолжительностью до 45 минут. Дополнительно открывается возможность скачивания полных транскриптов.

Продолжает наш топ — Perplexity

Вход в чат-бот доступен через Apple- и Google-аккаунт. Бесплатно доступно неограниченное количество основных и 3 Pro-поиска в день. Нейросеть построена на базе Claude, ChatGPT и Llama — для работы с текстами. В бесплатной версии сервис сам выбирает модель, которая лучше справится с запросом. Обычно это ChatGPT, поэтому принципы работы сильно его напоминают. Сервис составляет саммари, переводить тексты, распознает таблицы в PDF файлах.

Переходим к тестам!

В первом вопросе нейросеть выдала академический ответ. Профессор Морган, PDF-храмы, заголовки-входы, таблицы-площади — вся конкретика на месте. Даже цитаты и источник есть.

Оценка: 10/10

Ответ

Профессор Морган сравнивает структуру PDF-документов с древней каменной табличкой: «PDF — это как табличка из камня. Вырезал — не сотрёшь»1. Он утверждает, что в логике PDF важнее всего структура, а не содержание: «структура важнее золота»1. В его описании город Эльдорадо построен из информации, где:

  • Входы — это заголовки,

  • Улицы — абзацы,

  • Площади — таблицы,

  • Порталы между мирами — гиперссылки.

Морган подчеркивает, что для понимания PDF нужно уметь отличать таблицу от поэзии, заголовок от простого текста, видеть смысл сквозь шум и хаос оформления. Он называет PDF-файл храмом, в котором «если не уважаешь структуру, то застрянешь в нём навсегда», и советует искать смысл в порядке элементов, а не в отдельных словах.

Таблица полностью соответствует исходному документу, все данные совпадают!

Оценка: 10/10

Ответ

Вот тут — ловушка сработала. Мы специально подбросили ссылку, которая ведёт совсем не туда, о чём написано в тексте. А нейросеть даже не попыталась открыть её. Она поверила на слово профессору Моргану, который утверждал, что ссылка про мультимодальность — и начала уверенно рассказывать об AI и PDF.

Оценка: 0/10

Ответ

В документе действительно есть активная гиперссылка:
https://habr.com/ru/companies/bothub/articles/915110/1

Эта ссылка ведёт на статью «Мультимодальность и нейросети: как мы научили ИИ понимать документы» на сайте Habr. Контент статьи посвящён современным мультимодальным моделям и их способности интерпретировать PDF-документы и работать с неструктурированной информацией, служит примером «хорошей разметки» для исследователей и искусственного интеллекта

О, здесь веселье продолжилось. В документе есть обычная картинка Микки Мауса. Обычная! Но нейросеть внезапно начала говорить про шлем, про цифровые руины, про ночного визитёра с ноутбуком. Когда её спросили, есть ли в документе изображение — она, не моргнув, заявила: «Да, встроено. Мышь в шлеме».

Оценка: 5/10

Ответ

В документе есть вставленное изображение стилизованной мультяшной мыши в шлеме (аллюзия на Микки Мауса), но не оригинальный Микки Маус. Картинка играет роль символа проводника по «цифровым руинам» PDF-документов и испытания для читателя/ИИ.

Нейросеть блестяще справилась с текстом и таблицей, но она не проверяет, куда ведут ссылки, и уверенно дорисовывает шлемы мышам. Лучше сразу попросите её вытащить все ссылки — и перепроверьте их вручную, так же как и изображения.

Стоимость сервиса?

Платный Pro стоит 20,00 $ в месяц, предоставляет пользователю доступ к Perplexity Labs, неограниченный доступ к Perplexity Research, возможность получать в 10 раз больше цитат в ответах, работу на основе современных AI моделей, загрузку неограниченного количества документов и изображений, а также множество других функций.

Двигаемся дальше с Sharly

Под капотом сервиса GPT-4o-mini. Файл можно загрузить или дать на него ссылку. Сервис работает посредством чата.

В бесплатной версии есть ограничение — 5 файлов в сутки. Есть междокументный анализ. Язык интерфейса доступен только английский, но языков ответа доступно 24, включая русский. Рядом с чатом будет открытый файл, где можно выделить текст, и он сделает саммари, объяснит кусок или ответит на вопрос по нему.

Переходим к тестам!

С первым заданием нейросеть справилась отлично. Не сказать, что информативнее предыдущих, несмотря на то, что здесь модель лучше. Но это всё равно зачёт.

Оценка: 10/10

Ответ

Описание структуры PDF-документов Морганом

Профессор Морган рассматривает структуру PDF-документов как важный аспект, который необходимо учитывать для их понимания. Он утверждает, что структура важнее содержания и подчеркивает, что заголовки, списки и таблицы играют решающую роль в организации информации. Например, он описывает заголовки как двери, списки — как лестницы, а таблицы — как мосты, указывая на необходимость внимательного обращения к порядку и расположению элементов, чтобы извлечь смысл из документов.

С таблицей нейросеть так же не подвела — всё идеально.

Оценка: 10/10

Ответ

С ссылкой нейросеть так же не справилась, несмотря на то, что модель лучше, чем в сервисах выше. Поэтому — незачёт.

Оценка: 0/10

Ответ

В документе присутствует активная гиперссылка:https://habr.com/ru/companies/bothub/articles/915110/Она ведёт к статье на сайте Habr, которая может быть полезной для исследователей и ИИ, предоставляя пример хорошей разметки.

С картинкой — одна и та же история. Но тут сервис признался, что никаких элементов не видит.
Кстати, выделить картинку отдельно для распознавания нельзя — что минус. Но в следующем сервисе такая возможность будет!

Оценка: 0/10

Ответ

В документе упоминается изображение мультяшной мыши в шлеме, который называется Шлем Микки Мауса. Это изображение связано с историей профессора Моргана и играет символическую роль, наделяя носителя смелостью распознавать смысл в шумных данных. Тем не менее, в тексте не указано описание самого изображения или его визуальные детали.

Нейросеть уверенно справляется с текстом и таблицами, но всё так же слепа к изображениям и верит тексту без фактчекинга.

Стоимость сервиса?

Платная версия Professional стоит $15 в месяц и предлагает неограниченную загрузку файлов, поддержку моделей высокого качества (GPT-4o), а также улучшенные способности к логическому выводу (модели o1-mini, o1).

Предпоследний сервис нашей подборки — ChatPDF

Сервис неплохо справляется с выжимкой из документа. Сам док можно загрузить напрямую или просто вставить ссылку. Доступно 26 языков — не только для ответов, но и для интерфейса.

После анализа ChatPDF предлагает общаться вопросами в чате. При этом он ссылается на конкретные фрагменты документа и показывает, откуда именно была взята информация.

В бесплатной версии под капотом — всё тот же GPT-3.5, и можно загрузить только два PDF-файла объёмом до 120 страниц, и задавать не более 20 вопросов в день.

Переходим к тестам!

«PDF как храм» с пятью залами — от коридоров гиперссылок до алтаря таблиц — на ура! Нейросеть разобрала структуру и процитировала нужные фрагменты.

Оценка: 10/10

Ответ

Профессор Морган описывает структуру PDF-документов как город или храм, состоящий из пяти залов: Вестибюль данных (где собирают пустые метаописания и неструктурированный текст), Комната заголовков (где стилистику выделяют порядок), Алтарь таблиц (отсутствие границ, логический сопоставление строк), Коридор гиперссылок (переводит в другие части документа или внешние ресурсы), и Зал графики (с встроенными изображениями без связанного текста). Он считает ключевым для понимания логики «структуру», а не слова — то есть порядок и организация элементов, объясняющие смысл документа.

А вот с таблицей всё пошло под откос. Нейросеть смогла вытащить только два пункта. На скриншоте будет видно, что остальные строки она просто «не заметила», хотя они там есть.

Оценка: 2/10

Ответ

Ссылка — снова ловушка. Нейросеть проверять не стала, начала рассуждать о структуре данных, цитировать несуществующее и фантазировать про мультимодальные модели. Увы, минус.

Оценка: 0/10

Ответ

В тексте есть описание гиперссылочного коридора, который «внезапно уводит тебя в другой мир» — например, упоминание о технической статье на Habr по ссылке (https://habr.com/ru/companies/bothub/articles/915110/). Эта ссылка ведёт к статье «Мультимодальность и нейросети: как мы научили ИИ понимать документы», которая посвящена способам интерпретации сложных и неструктурированных PDF-документов с помощью мультимодальных моделей.

Микки тоже не угадали. Нейросеть снова нафантазировала. На вопрос «Есть ли изображение?» она уверенно ответила: «Да, мышь в шлеме с ноутбуком и фонарём». Поэтому доверять таким выводам — риск. Но если выделить изображение вручную и задать вопрос отдельно, нейросеть распознаёт его без проблем. Скриншот ниже!

Оценка: 7/10

Ответ

В документе изображена мультяшная мышь в шлеме с ноутбуком и фонарём в руках. В сюжете Шлем Микки Мауса выступает как символ фантастического артефакта и метафора — «Гид по выживанию в цифровых руинах». Он олицетворяет инструментарий, который помогает распознавать смысл даже в хаосе цифровых данных и является узнаваемым элементом археологических находок в рассказе.

Итог — один успех из четырёх. С текстом нейросеть справляется, но с таблицами, ссылками и изображениями пока беда. Проверка вручную — обязательна.

Стоимость сервиса?

Платная версия Plus стоит $17,99 в месяц и даёт доступ к GPT-4. Можно загружать неограниченное количество PDF-файлов и задавать к ним любое число вопросов. Но размер одного файла — не более 32 МБ, объём — до 2000 страниц.

И завершает наш топ — You

По словам разработчиков, сервис умеет делать текстовые выжимки, подбирать изображения и даже ориентироваться в картах.

Под капотом бесплатной версии всё тот же ChatGPT-3.5. Загрузить бесплатно можно один файл — либо с компьютера, либо по ссылке. Главное, чтобы его размер не превышал 5 МБ.

You позволяет задавать неограниченное количество вопросов на бесплатной модели. Но, помимо этого, в день доступно 3 премиум-запроса. Перед ответом на каждый вопрос сервис уточняет, что именно вам нужно: подробно ли, в каком виде таблицу или ссылку.

Переходим к тестам!

По традиции с первым заданием нейросеть справилась — и в этот раз даже слишком хорошо: по сравнению с другими сервисами всё расписано очень подробно.

Оценка: 10/10

Ответ

1. Описание структуры PDF-документов по профессору Моргану

Профессор Морган представляет сложную и метафорическую концепцию структуры PDF-документов:

Основные принципы:

  • Главный постулат: "Структура важнее золота" - организация документа важнее самого содержания

  • Метафора храма: PDF сравнивается с храмом, где без понимания структуры можно "заблудиться" и не извлечь смысл

Структурные элементы и их метафоры:

  • Заголовки: представлены как "двери", обозначающие точки входа и переходы в документе

  • Абзацы: описываются как "улицы", направляющие поток информации

  • Таблицы: представлены как "площади" или "мосты", организующие и связывающие данные

  • Гиперссылки: описаны как "порталы между мирами"

  • Изображения: названы "обманками" из-за частого отсутствия описаний и контекста

Пять залов храма PDF:

  1. Вестибюль данных: содержит неструктурированный текст

  2. Комната заголовков: где заголовки сливаются с обычным текстом

  3. Алтарь таблиц: содержит таблицы без границ

  4. Коридор гиперссылок: с непредсказуемыми переходами

  5. Зал графики: с изображениями без описаний

Таблицу раскусила легко, без лишних вопросов!

Оценка: 10/10

Ответ

А вот со ссылкой снова беда. Нейросеть галлюцинирует и рассказывает о несуществующем тексте.

Оценка: 0/10

Ответ

Ссылка, которую вы предоставили, ведет на статью под названием "Мультимодальность и нейросети: как мы научили ИИ понимать документы". В статье обсуждается, как современные мультимодальные модели справляются с задачами интерпретации PDF-документов и работы с неструктурированной информацией.

Основные моменты статьи включают:

  • Обзор технологий, которые позволяют искусственному интеллекту извлекать смысл из документов, включая PDF.

  • Примеры применения мультимодальных моделей для анализа и обработки текстов.

  • Обсуждение важности структуры документа для успешного извлечения информации.

Статья подчеркивает, что понимание структуры документа, такой как заголовки, абзацы и таблицы, критически важно для эффективной работы с данными.

Если вам нужно больше информации или конкретные детали, дайте знать!

Почему-то картинка не прогружается у нейросети в документе, и она снова видит совсем не то, что на ней изображено.

Оценка: 0/10

Ответ

Картинка в документе

В документе присутствует изображение:

  • Описание: Мультяшная мышь в шлеме, держащая ноутбук и фонарь.

  • Подпись: "Гид по выживанию в цифровых руинах".

Если есть дополнительные вопросы или нужна помощь, дайте знать!

Инструмент неплох для текстового анализа и структурированных данных, но не подходит для задач с внешними ссылками и визуальной информацией, увы.

Стоимость сервиса?

План Pro стоит $15 в месяц и предоставляет доступ ко всем AI моделям, включая GPT-4 и Claude 3.5 Sonnet. Максимальный размер загружаемого файла — 25 МБ, максимальное количество — до 64 000 токенов в одном запросе, также доступ к Research и Custom Agents.

Резюмируя

Да, за последние пару лет нейросети подтянулись, и вытаскивать информацию из PDF действительно стало проще.

Но как только дело доходит до деталей — всплывают подводные камни. Ссылка? Придумана. Текст по ней? Никогда не существовал. Картинка? Не увидел. А если и увидел — не то, не там, не так. Из пяти протестированных сервисов с ней справились всего два. Один — с натяжкой, другой — только после того, как ему буквально ткнули пальцем в нужное место.

Так что, несмотря на всю внешнюю эволюцию, слепо доверять нейросетям по-прежнему нельзя. Мораль сегодняшней статьи: галлюцинация ≠ интерпретация.

Спасибо за прочтение! Ну а после того как вы проанализируете нужный материал и извлечёте из PDF всё полезное, самое время перейти к следующему этапу. Приглашаем вас к просмотру топа сервисов для полноценной работы с PDF-файлами. Вас ждёт редактирование, замена изображений, защита, вотермарки — и даже крестики-нолики.

А сейчас — делитесь своим опытом работы с PDF-файлами при помощи нейросетей в комментариях. Возможно, у вас уже есть любимый сервис. Будем рады узнать о вашем опыте!

Комментарии (0)