![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/10/7m/mh/107mmh4r3q8-9wkusmthwpj_nx0.png)
Инструменты для сбора семантического ядра позволяют собрать сотни и тысячи ключевых слов. Но в этом списке неизбежно будут повторяющиеся запросы, лишние символы, пробелы, фразы с нулевой частотностью и т. д. Весь этот «мусор» надо почистить.
На примере интернет-магазина электроники по шагам показываем, как с помощью инструментов Click.ru собрать пул запросов для контекста и привести его в юзабельный вид.
1. Собираем пул запросов
Для сбора семантического ядра сайта в Click.ru есть бесплатный инструмент «Медиапланирование».
Как с ним работать:
1. Зарегистрируйтесь в Click.ru. Кликните «Создать аккаунт». В открывшемся окне выберите рекламную систему и назовите аккаунт.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/or/59/6y/or596y6t8ozimu08kftvdxy6qry.png)
2. Добавьте кампанию. Назовите ее, выберите места показа объявлений, укажите URL, геотаргетинг.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/br/5f/uj/br5fujbffunevdc-5jkmspo7hoc.png)
3. Система предложит подобрать слова или добавить свои. Кликните «Подобрать слова» — медиапланер подберет ключевые слова на основе контента рекламируемого сайта.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/lm/v_/q-/lmv_q-hii5ap27uo3pentzwze4w.png)
4. Добавьте подобранные слова в медиаплан. В нашем примере система собрала 623 ключевых слова. Для добавления их в медиаплан установите галочку в шапке таблицы и кликните «Добавить в медиаплан».
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/oc/w_/l4/ocw_l4zuyh940sfhj8xmyvjdrms.png)
5. Расширьте семантическое ядро словами, по которым продвигаются ваши конкуренты. Для этого в разделе «Автоматический подбор слов» выберите «Слова конкурентов».
Система предложит до 5 конкурентов и соберет по ним слова. Проверьте, совпадает ли ассортимент предложенных сайтов-конкурентов с вашим. Если нет, удалите предложенные сайты и задайте URL конкурентов самостоятельно (до 10 площадок за раз).
Системе потребуется несколько минут на сбор слов. После этого кликните «Показать слова конкурентов».
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/ix/rd/g5/ixrdg5cqqnirym3siwscjedtrxg.png)
В примере система собрала 2849 слов. Для их просмотра пролистайте таблицу вниз и нажмите «Показать все».
Просмотрите список собранных слов. Не все они будут релевантными, поскольку даже у ближайших конкурентов может не совпадать товарный ассортимент. Избавиться от лишних слов можно двумя способами:
- Удалить их сразу вручную
- Почистить уже в самом конце — после группировки (тогда словам можно будет удалять «пачками», а не по одному).
Если слов много, лучше выбрать второй вариант.
Итак, теперь нам нужно выгрузить собранные ключи. Для этого добавим их в медиаплан. Для добавления всех слов из таблицы в медиаплан установите галочку в шапке таблицы — система автоматически поставит галочки напротив каждой фразы. Далее кликните «Добавить в медиаплан».
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/pd/ez/_p/pdez_pfxyqeiq9rocg-etowsk9u.png)
Выгрузите добавленные в медиаплан слова в XLS–файл.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/ft/xk/2t/ftxk2t_imyxdr7tup_8meat6evm.png)
С помощью двух подборщиков (по контенту сайта и по словам конкурентов) получилось собрать и добавить в медиаплан 3492 слова. Теперь все это нужно очистить.
2. Удаляем дублирующиеся запросы, спецсимволы, пробелы, пустые строки
Вручную найти дубли в списке, состоящем из 1000 и более слов, сложно. Для этого подойдет бесплатный нормализатор ключевых слов.
Что он умеет:
- Удалять дубликаты слов в точном вхождении. Например, если инструмент обнаружит в списке две ключевые фразы «купить samsung galaxy s10», то одну из них он удалит.
- Удалять дубли с учетом морфологии и перестановки слов. Например, если система обнаружит две фразы «купить samsung galaxy s10» и «samsung galaxy s10 купить», то вторая фраза будет считаться дублем и будет удалена.
- Удалять спецсимволы в начале и конце слова. В собранных запросах (особенно если это делается с помощью сторонних сервисов) могут попадаться спецсимволы: вопросительные знаки, плюсы и минусы. Например, нормализатор нашел в списке слов фразу с плюсом: «samsung galaxy s10 + купить». Он просто удалит плюс и лишние пробелы, а сам запрос останется без изменений.
- Удаляет лишние пробелы. Если в начале, середине или в конце ключевой фразы есть лишние пробелы, то инструмент обнаружит их и удалит.
- Удаляет табуляцию и пустые строки. Инструмент удаляет отступы в начале и конце строки. Если в таблице есть пустые строки, то они тоже удаляются.
- Преобразовывает слова в нижний регистр. Если в списке есть спарсенные заголовки, прописанные в верхнем регистре, то система их переводит в нижний регистр.
- Заменяет ё на е. Если вы не используете букву «ё», то установите галочку напротив опции «Заменить ё на е».
Особенности инструмента:
- Бесплатное использование.
- Проверка осуществляется онлайн. Не надо устанавливать софт или держать страницу открытой.
- Неограниченное количество слов в списке.
- Выполненные задачи хранятся в аккаунте Click.ru неограниченное количество времени.
- Не надо вводить капчу.
Как использовать инструмент
Перейдите на страницу инструмента и добавьте слова.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/pb/2e/uc/pb2euc12mnub3o18mhkstycrhiu.png)
Выберите, какие действия необходимо выполнить с ядром, и нажмите «Выполнить».
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/uy/rb/ms/uyrbmsxjqb85to5018xnx8aojca.png)
Системе понадобится пара минут, чтобы выполнить заданные действия. Отчет доступен для загрузки в виде XLSX-файла.
Для загрузки отчета в «Списке задач» нажмите на кнопку «Скачать XLSX».
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/_w/ae/co/_waecohmxjhi-x0hvky0ksur2rm.png)
Отчет состоит из двух страниц:
- очищенный от дублей список слов;
- исходные настройки (исходный список слов и настройки необходимых действий с ядром).
Фрагмент отчета:
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/gb/sr/o1/gbsro1vl_myy7iet8aomaeztuuo.png)
В примере исходный список состоял из 3492 запросов. После чистки их количество сократилось до 2828 слов, то есть дубликаты занимали 19% ядра.
3. Удаляем слова с нулевой частотностью
Для целей контекстной рекламы слова с околонулевой частотностью не представляют интереса, поскольку по ним не будет показов. Такие слова лучше сразу удалить.
Для проверки частотности большого массива ключей в Click.ru есть парсер Wordstat. Он собирает частотности из левой колонки Wordstat. Он парсит частотность в любом регионе Яндекса и учитывает тип соответствия ключевых слов.
Как пользоваться инструментом
Перейдите на страницу инструмента. Добавьте запросы.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/wd/t4/0g/wdt40grqkq1yflln-5m0_elj9da.png)
Выберите регион, по которому инструмент будет парсить частотности.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/tp/bp/_e/tpbp_eindy8yalrdvsmpkbtvemq.png)
Укажите параметры сбора частотности. Инструмент собирает частотности по запросам в широком соответствии, фиксирует количество слов и морфологию, фиксирует порядок слов.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/wv/nl/24/wvnl24b-pmfqzauqh2uzsph775k.png)
Подробнее о возможностях парсера Wordstat читайте в статье: «Как быстро уточнить частотность в Wordstat»
Для запуска задачи нажмите кнопку «Запустить проверку». Время сбора зависит от количества запросов, регионов и типов соответствия.
Отчет доступен в списке задач в формате XLSX.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/ai/vj/zu/aivjzux42fhpzwaou8nmltsl-va.png)
В отчете указывается частотность запросов в разных типах соответствия. Удалите слова с нулевой и околонулевой частотностью.
Важно! Будьте внимательны с ключевыми словами, связанными с сезонными товарами/услугами. В Вордстате статистика собирается за последний месяц, поэтому если сейчас в вашей нише спад, частотность будет низкой. Детально об анализе частотности в Вордстате мы писали здесь. Также вам может помочь сервис Google Trends. Как с ним работать, тоже рассказывали.
После удаления «нулевок» можно приступать к группировке слов.
4. Разбиваем собранные слова на группы и завершаем очистку ядра
Для группировки ключевиков используйте кластеризатор. Инструмент группирует слова на основе сравнения ТОПов поисковой выдачи в заданном регионе. Инструмент обычно используют SEO-специалисты для разбивки ключей по страницам. Но также он хорошо подходит для целей контекстной рекламы.
Как пользоваться инструментом
Перейдите на страницу инструмента. Для удобства навигации в отчетах укажите адрес сайта и назовите проект.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/ln/pl/7y/lnpl7ytvfumx_3zwug8eyrqv9zq.png)
Загрузите запросы файлом или списком. В списке должно быть не менее 20 запросов.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/bn/kw/1y/bnkw1yyuplh3qyuljmrxlzgwsda.png)
Выберите способ кластеризации. Доступно два варианта: сравнение ТОПов и профессиональная настройка. В настройках укажите поисковую систему, диапазон точности, количество слов в кластере (для профессиональной настройки). Нажмите на кнопку «Запустить кластеризацию».
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/q9/nq/to/q9nqtoipsvphvc2cscaki7p3xhe.png)
Подробнее о настройке и возможностях кластеризатора Click.ru читайте в статье «Как сгруппировать ключевые запросы с помощью кластеризации?»
Скачайте отчет в списке задач.
![Как автоматизировать сбор и очистку семантики от дублей и мусора](https://habrastorage.org/webt/1t/ej/pp/1tejppwn18sjw2oezdiiurjkp4e.png)
В отчете запросы для объявлений сгруппированы по кластерам на основе результатов поисковой выдачи. Просмотрите отчет и удалите кластеры с нерелевантными запросами. Это намного удобней делать именно сейчас, а не по одному слову на этапе подбора.
В результате вы получите сгруппированную и очищенную от мусора семантику, готовую к применению.
Не хватает слов для семантики — расширьте список
Бывает, что после очистки список слов сильно сокращается. В таком случае используйте инструменты для расширения семантики:
Подробно о расширении ядра в узкой нише читайте в статье «Как расширить англоязычную семантику для поисковой рекламы в узкой нише».
Еще один вариант пополнения семантики — парсинг ключевых слов, по которым запущена реклама конкурентов с помощью бесплатного парсера. Подробно о нем — по ссылке.