Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Подготовили для вас подробный обзор расширений для Chrome, с помощью которых вы можете сами заниматься парсингом без привлечения таких компаний, как наша. Сервисы зарубежные, часть бесплатные — бери и делай, это не сложно!
Иногда в сети можно услышать негодования по поводу того, что описываемые подходы к парсингу слишком сложные для обычного пользователя. И хорошо бы «взять всё и упростить», чтобы можно было справиться самостоятельно.
Что ж, вашему вниманию предлагается экспресс-обзор решений из серии «проще некуда»: рассматриваемые инструменты даже не надо устанавливать на компьютер — они настраиваются простыми движениями мыши. При этом такие инструменты нельзя назвать примитивными. Хотя некоторые — да, идут по пути минимализма возможностей, но зато другие являются по сути «тонким клиентом», за которым спряталась мощь облачного сервиса, богатство огромного пула прокси-серверов и хитрость искусственного интеллекта.
Невозможно представить современный бизнес без аналитики информации, собранной в интернете. Очевидно, что добывать данные вручную долго не получится: не хватит ни времени, чтобы просматривать страницы, ни внимания, чтобы не допускать ошибок при нескончаемых операциях копирования и вставки. URL-адреса, страницы, таблицы, картинки и скрытые от глаза данные — это лишь небольшой перечень того, что надо «прочитать» на веб-страницах, сохранить и систематизировать.
И единственным выходом в таких случаях становится автоматизация. А когда мы говорим об автоматизации сбора данных, представленных где-то в сети, то мы говорим о парсинге.
Что такое парсинг?
Парсинг — набор технологий и приемов для сбора общедоступных данных и хранения их в структурированном формате. Данные могут быть представлены множеством способов, таких как: текст, ссылки, содержимое ячеек в таблицах и так далее.
Чаще всего парсинг используется для мониторинга рыночных цен, предложений конкурентов, событий в новостных лентах, а также для составления базы данных потенциальных клиентов.
Выбор инструмента будет зависеть от множества факторов, но в первую очередь от объема добываемой информации и сложности противодействия защитным механизмам. Но всегда ли есть возможность или необходимость в привлечении специалистов? Всегда ли на сайтах встречается защита от парсинга? Может быть в каких-то случаях можно справиться самостоятельно?
Тогда что может быть сподручнее, чем всем привычный Google Chrome? !
Расширения для браузера — это хороший инструмент, если требуется собрать относительно небольшой набор данных. К тому же это рабочий способ протестировать сложность, доступность и осуществимость сбора нужных данных самостоятельно. Всё что потребуется — скачать понравившееся расширение и выбрать формат для накопления данных. Как правило это CSV (comma separated values — текстовый файл, где однотипные фрагменты разделены выбранным символом-разделителем, обычно запятой, отсюда и название) или привычные таблички Excel.
Ниже представлено сравнение десяти самых популярных расширений для Chrome.
Забегая вперед:
все платные расширения имеют некоторый бесплатный период для ознакомления;
только три — Instant Data Scraper, Spider и Scraper — полностью бесплатны;
все платные инструменты (кроме Data Miner) имеют API (Application Program Interface — программный интерфейс, который позволяет настроить совместную работу с другими программами) .
1. WebScraper
WebScraper — это простой в использовании инструмент для извлечения данных, созданный с учетом всех особенностей современного интернета; позволяет во многих случаях для настройки парсинга обойтись простейшим указанием данных с помощью мыши — а это считанные минуты! — и вот уже поступают данные с тысяч веб-сайтов.
Инструментом можно попользоваться бесплатно (с некоторыми оговорками, но об этом ниже) . Все, что потребуется сделать — настроить селекторы, а всю остальную работу сделает WebScraper.
Несмотря на довольно простые используемые структуры с его помощью можно будет извлекать данные с таких сайтов как eBay или Amazon — и это при том, что их содержимое меняется чрезвычайно динамично.
Разве не прекрасно, что без программирования, без обладания глубокими экспертными знаниями — а лишь с помощью простой установки расширения в браузер — можно вполне успешно выполнять целый ряд задач по парсингу?
А если задействовать облачный сервис WebScraper, то получится замахнуться и на более сложные задачи, такие как парсинг в автоматическом режиме.
Пользователей: 400 000+.
Оценка: 4,0.
Обзоров: 749.
Пробный период: есть (только для самостоятельного использования) .
Документация: видео-уроки и онлайн-документация.
Используемый формат: CSV, XLSX, JSON.
Поддержка: сообществом, а также по электронной почте.
API: да.
Хранение данных: до 30 дней на самом простом тарифе.
Тарифный план:
Project: 5000 облачных кредиток (cloud credits) , параллелизация в два потока, 30 дней для хранения данных;
Professional: 20 000 кредиток, три потока, 30 дней хранения;
Business: 50 000 кредиток, пять потоков, 60 дней хранения;
Scale: неограниченное число кредиток, параллелизация от трех потоков, 60 дней хранения.
Простота интерфейса: данные можно извлекать, не прибегая к программированию, просто выбирая нужные элементы.
Извлечение динамических данных:
поддерживается JavaScript и AJAX;
можно перемещаться по всем элементам данных на основе категорий, подкатегорий;
поддерживается постраничная разбивка;
доступно множество возможностей для извлечения текста, изображений и прочего.
Планировщик: можно составить расписание извлечения данных: ежечасно, ежедневно, еженедельно.
Прокси: при использовании расширения будут задействованы прокси-серверы для имитации трафика обычного пользователя, соответственно, скрыт не только IP-адрес исследователя, но и производится ротация IP-адресов.
Парсер: отличительной особенностью является автоматизированная пост-обработка данных: нет необходимости писать скрипты для заполнения электронных таблиц.
2. Grepsr Browser Extension
Тем, кто хочет погрузиться в мир парсинга поглубже стоит присмотреться к следующему герою нашего обзора — Grepsr Browser Extension. Он обладает несколько большими возможностями и сможет собрать данные с более широкого круга веб-сайтов. Данные, конечно же, могут быть собраны в электронные таблицы. Но… Если задействовать предоставляемый API, то можно добиться и более сложной агрегации данных.
Как и в предыдущем рассмотренном случае, настроить парсинг можно лишь с помощью мыши. (Ах! Всегда бы это было так просто!) Несколько секунд (при должной тренировке) — и электронные таблицы наполняются данными! Да, снова можно заниматься парсингом не будучи знакомым с программированием.
Можно интегрировать Grepsr в свое приложение. Для этого можно задействовать предоставляемое API и здесь уже, конечно, без программирования не обойтись.
Ещё одно преимущество Grepsr — не надо устанавливать на компьютер никаких программ. Достаточно указать на требуемый элемент в браузере — а простой и интуитивно понятный инструментарий спарсит данные и заполнит электронные таблицы.
Пользователей: 10 000+.
Оценка: 3,6.
Обзоров: 59.
Пробный период: да (до 1000 записей в месяц) .
Документация: простая.
Используемый формат: CSV, JSON, or XLSX (Excel) .
Поддержка: чат и электронная почта.
API: да.
Хранение данных: до 30 дней на бесплатном тарифе.
Тарифный план:
Free: полностью бесплатен без ограничений по времени, можно делать до 1000 записей в месяц, позволяет производить до пяти запланированных запусков в месяц, доступно три отчета в месяц, хранение данных до 30 дней;
Basic: 50 долларов в месяц (при ежеквартальной оплате) , при этом в месяц доступно: до 150 000 записей, до 30 запланированных запусков, на хранение данных дается 60 дней;
Advanced: 250 долларов в месяц (оплачивать надо ежемесячно) , соответственно в месяц: 1 000 000 записей, 100 запланированных запусков, 200 отчетов и 90 дней на хранение полученных данных.
Простота интерфейса: простое извлечение данных с помощью простого указания на странице браузера.
Планировщик: позволяет запланировать довольно частое обновление данных.
Сохранение данных: можно использовать такие технологии и инструменты как FTP, Google Drive, Dropbox.
3. Agenty
Agenty — это удобный инструмент для более продвинутого парсинга, а также для массированного извлечения данных. Несмотря на бесплатность, позволяет извлекать данные одновременно с множества сайтов. Обычные пользователи, не искушенные в программировании, безусловно оценят такую особенность как «Анонимный парсинг».
Извлечение данных в режиме реального времени за несколько кликов мышью — разве это не впечатляет?
Владеющие же программированием на С# обнаружат для себя почти безграничные возможности: можно создавать и видоизменять логику извлекающих скриптов, скриптов отслеживания и обнаружения изменений, скриптов обхода ссылок — и всё это посредством расширения для браузера!
Пользователей: 10 000.
Оценка: 4,1.
Обзоров: 168.
Пробный период: бесплатно первые 14 дней или 100 страниц.
Документация:
обучающие видео;
руководство пользователя;
ограниченная помощь в настройке;
обучение в формате «один на один».
Используемый формат: JSON, CSV, TSV.
Поддержка: чат, электронная почта, телефон.
API: да.
Тарифный план (в месяц):
Basic: 29 долларов, до 5000 страниц, до 10 выполняющихся скриптов, 7 дней на хранение данных;
Professional: 99 долларов, до 75 000 страниц, до 100 выполняющихся скриптов, 15 дней на хранение данных;
Business: 249 долларов, до 250 000 страниц, до 250 выполняющихся скриптов, 30 дней на хранение данных.
Простота интерфейса: извлечение данных без программирования посредством выбора CSS-селекторов.
Планировщик: есть.
Парсер: за один раз скрипты могут обходить сотни и миллионы сайтов — это делается анонимно для заказчика; более того можно перенаправить поток добытых данных на собственный сервер!
4. Listly
Этот сервис будет полезен как маркетологам (не всегда обладающим техническими навыками) , так и продвинутым разработчикам. Преобразовывать одним щелчком мыши веб-страницы в электронные таблицы — это ли не мечта маркетолога?
Listly автоматически извлекает нужные данные и распределяет их по таблицам Excel за считанные секунды. Может проделывать это ежедневно просто на основе введенных URL.
Пользователей: 120 000+.
Оценка: 4,0.
Обзоров: 53.
Пробный период: 100 URL в месяц.
Документация: видео-уроки и онлайн-документация.
Используемый формат: CSV, JSON (помимо Excel) .
Поддержка: электронная почта.
API: есть.
Тарифный план:
Free: 100 URL в месяц, неограниченное извлечение данных с одной страницы, все данные доступны для сохранения;
Business и Business-1Y: (90 долларов в месяц и 990 в год соответственно) , 9000 URL в месяц, одновременное извлечение по 15 URL, время работы до 10 минут, доступны API, настройка прокси и многое другое.
Планировщик: доступен только на платных тарифных планах, позволяет автоматизировать процессы и информировать пользователя письмами на электронную почту.
Дополнительно: поддерживает автоскроллинг для загрузки большего количества данных на страницу, а также установку времени ожидания полной загрузки.
5. Data Miner
По задумке авторов призван сделать парсинг максимально неутомительным мероприятием. Помимо простых пользователей ориентируется на профессионалов. Заявлено, что это наиболее популярный инструмент среди «профессиональных добытчиков» данных.
На бесплатном тарифе Data Miner позволяет обрабатывать до пятисот веб-страниц в месяц. Для экспорта доступно множество форматов. Вся настройка производится «в один клик».
Особенно полезен, если удастся интегрировать его с SEO- или CRM-системой.
Пользователей: 200 000+.
Оценка: 4,0.
Обзоров: 592.
Пробный период: 500 страниц.
Документация: онлайн-руководство.
Используемый формат: XLS, CSV, XLSX, TSV.
Поддержка:
помощь для особых случаев от 150 долларов в месяц;
стоимость занятий «один на один» от 50 долларов за 30 минут.
API: нет.
Тарифный план (все данные указаны для месячного периода) :
Solo: 20 долларов, 500 страниц;
Small Business: 49 долларов, 1000 страниц;
Business: 99 долларов, 4000 страниц;
Business Plus: 200 долларов, 9000 страниц.
Настройка:
позволяет создавать собственные инструкции для ускорения парсинга, что помогает при постраничной разбивке данных;
дает возможность написания javascript-сценариев;
имитирует скроллинг и щелчки мыши.
Извлечение динамических данных: Помимо обычных для таких инструментов возможностей как: извлечение данных из таблиц, списков, картинок и прочего — поддерживает парсинг документов, разбитых на страницы, а также работу с ресурсами, требующими авторизацию.
Дополнительно:
можно использовать сценарии javascript для очистки извлеченных данных;
с помощью javascript также осуществляется обработка электронных писем и профилей в социальных сетях;
поддерживается автозаполнение форм.
6. Parsers
Как и остальные, Parsers извлекают данные из веб-страниц и импортируют их в те же CSV, JSON и электронные таблицы. Оказывается чрезвычайно полезен предпринимателям тем, что может помочь анализировать конкурентов и состояние рынка. Позволяет загружать каталоги, основываясь на заданных характеристиках.
Что ещё отделяет Parsers от других рассматриваемых решений так это то, что он в своей работе опирается на машинное обучение. И всё что остается сделать пользователю — это указать на нужные данные на одной из страниц интересующего веб-сайта. Основываясь на технологиях машинного обучения, сложная система, стоящая за простым расширением для браузера, отыщет требуемые данные без утомительного для пользователя разрешения вопросов, связанных со ссылками, обработкой постраничной разбивки документов и тому подобных вещах, о которых обычно приходится заботиться самостоятельно.
Однако надо иметь ввиду, что эта штука не работает с социальными сетями.
Пользователей: 10 000+.
Оценка: 3,3.
Обзоров: 60.
Пробный период: 1000 страниц за один запуск.
Документация: видео-уроки и статьи в блогах.
Используемый формат: XLS, XLSX, CSV, JSON, XML.
Поддержка: чат, электронная почта, помощь сообщества.
API: есть.
Тарифный план:
Lite: 20 долларов в месяц, 5000 страниц за запуск (всего 1 440 000), два веб-сайта одновременно, обычные прокси, 20 одновременно выполняющихся потоков;
Standard: 49 долларов в месяц, 20 000 страниц за запуск (всего 2 160 000), 3 веб-сайта параллельно, обычные прокси, 30 одновременно выполняющихся потоков;
Business: 99 долларов в месяц, 50 000 страниц за запуск (всего 2 880 000), 4 веб-сайта одновременно, улучшенные прокси, 40 потоков;
Professional: 199 долларов в месяц, 100 000 страниц за запуск (всего 3 600 000), 5 веб-сайтов одновременно, улучшенные прокси, 50 потоков.
Простота интерфейса: отталкивается от использования машинного обучения, и процесс настройки становится «проще некуда»: необходимо лишь указать на интересующие данные.
Планировщик: позволяет довольно часто обновлять собираемую информацию.
Парсер: позволяет извлекать данные из картинок, таблиц, каталогов, URL-адресов, а также контента, сформированного с помощью javascript.
7. Instant Data Scraper
С помощью искусственного интеллекта Instant Data Scraper может извлекать данные из любого веб-сайта. Данный инструмент отстоит несколько поодаль от остальных участников нашего обзора, потому что его настройка не зависит от скриптов, распознающих содержимое веба. Напротив, он использует эвристический искусственный интеллект для извлечения данных.
Конечно, бывают случаи, когда пользователь на самом деле ищет что-то другое. Тогда приходится настраивать выборку более тщательно и надеяться получить желаемые результаты.
Это расширение нравится многим, потому что оно не только не требует программирования, но и вообще исключает какое бы то ни было сложное взаимодействие. Веб-страницы сильно отличаются по внутренней структуре одна от другой, и для настройки парсеров обычно приходится выполнять много ручной работы. Избавление от продолжительной подготовительной рутины означает, что можно получать данные тотчас же, как только возникает необходимость.
Пользователей: 200 000+.
Оценка: 4,9 — самая высокая!
Обзоров: 1589 — рекордное количество обзоров!
Пробный период: отсутствует, так как расширение и так бесплатно.
Документация: видео, руководство.
Используемый формат: XLS, XLSX, CSV.
Поддержка: осуществляется сообществом в Facebook.
API: нет.
Тарифный план: инструмент бесплатен для личного использования, но можно запросить поддержку и полные возможности SaaS, которые, конечно же, бесплатными не будут.
Простота интерфейса: основана на использовании искусственного интеллекта, что позволяет в типовых случаях избежать всех трудностей для настройки извлечения данных.
Парсер: поддерживает страницы с нескончаемым скроллингом, обход ссылок, настройку времени ожидания и скорости перемещения по страницам.
8. Simple Scraper
Создает автоматизированные сценарии, позволяющие распарсивать тысячи страниц. «Ни конфигурирования, ни кодирования» — так заявляется о его простоте на официальном веб-сайте. Быстро, бесплатно, «за один клик» можно получить нужные данные и сохранить их в Google Sheets, Integromat, Zapier.
Пользователей: 30 000+.
Оценка: 4,8.
Обзоров: 156.
Пробный период: неограниченный локальный парсинг + 100 облачных кредиток.
Документация: обучающие видео, руководство.
Используемый формат: CSV, JSON.
Поддержка: чат и электронная почта.
API: есть.
Тарифный план:
Plus: 35 долларов в месяц, 6000 облачных кредиток;
Pro: 70 долларов в месяц, 20 000 облачных кредиток;
Premium: 150 долларов в месяц, 50 000 облачных кредиток.
Простота интерфейса: позволяет избежать какого бы то ни было кодирования и сложных настроек.
Парсер: может извлекать данные из ссылок, картинок, URL-адресов, таблиц и так далее, а при использовании облачного хранилища дополнительно появляются возможности по использованию сценариев для одновременного парсинга нескольких сайтов.
9. Spider
Простое расширение для браузера, достаточное для того, чтобы начать экспериментировать с парсингом. Подойдет тем, кто ищет простейшее решение. Не требует никакого конфигурирования, не говоря уже о кодировании. Очень схож с предыдущим соседом по списку.
Пользователей: 8000.
Оценка: 4,0.
Обзоров: 23.
Документация: видео-уроки.
Используемый формат: CSV, JSON, электронные таблицы.
API: нет.
10. Scraper
Понадобится некоторое знание XPath, чтобы использовать этот парсер. Еще одно простое расширение, которое поможет собрать данные из интернета, но рассчитанное на продвинутых пользователей.
Пользователей: 100 000+.
Оценка: 4,0.
Обзоров: 359.
Пробный период: отсутствует, расширение полностью бесплатно.
Документация: видео-уроки.
Используемый формат: Google Spread Sheet.
Поддержка: нет.
API: нет.
Заключение
Рассмотренные решения ищут и находят свой путь на рынке сбора открытых данных. У кого-то это получается лучше, у кого-то проще. Инструменты парсинга несут свою миссию: помогают бизнесу развиваться и улучшаться, а нужда в них и дальше будет расти экспоненциально.
Конечно, все средства, рассчитанные на широкое употребление, оказываются «не у дел» в том случае, когда наталкиваются на противодействие парсингу со стороны сайтов, не желающих делиться информацией.
Например, что искусственный интеллект будет делать, когда окажется, что javascript на странице активно «замусоривает» DOM (Document Object Model — объектная модель документа) невидимыми обычному пользователю недействительными данными? Сколько времени пройдет, прежде чем заказчик обнаружит, что парсер собрал некорректные данные и нет никакого смысла на них опираться? Во что это обойдется?
Если бизнес серьезный, то можно нарваться на крупные неприятности, занимаясь парсингом самостоятельно или привлекая недостаточно квалифицированных специалистов. Мы снова возвращаемся к негодованиям по поводу кажущейся избыточной сложности при выстраивании грамотного парсинга. Изощренность противодействия сбору данных растет. И стоит иметь ввиду, что «взять всё и упростить» не всегда оказывается оправдано и безопасно.
Где можно почитать больше информации? Я регулярно пишу в Телеграмм наш опыт. Подписывайтесь, если хотите посмотреть на «изнанку» ИТ бизнеса в России или пишите мне с вопросами @maximkulgin.
Комментарии (3)
mvs
10.12.2022 17:09Есть ли парсеры для карт Google maps? Например, чтобы скачать адреса всех условных «Шоколадниц» в стране. API отдаёт 60 результатов максимум
J_8
10.12.2022 19:24Читая статью складывается впечатление, что это все легко и просто и все могут это сделать самостоятельно не прибегая к привлечению специалистов!)
Только в реалиях все далеко не так! Те данные которые легко парсятся как правило имеют низкую ценность, а вот те которые нужны реальному бизнесу боюсь с помощью таких инструментов добыть вряд ли удастся иначе бы многие фрилансеры и конторы которые живут на этом бизнесе просто разорились бы в одно мгновение))
alexeydg
в современном мире важным показателем парсера является уменее обойти fingerprint защиту, жаль что этой характеристики вы не указали