Penguin — чистка и кластеризация ключевых фраз семантического ядра

Программа позволяет работать с большими текстовыми файлами. Функционал включает фильтрацию, чистку, сортировку и кластеризацию поисковых фраз выгруженных из других программ или сервисов.

Подготовка списка кейвордов

Парсинг ключевых фраз можно делать разными способами, от ручного сбора через вордстат Яндекса, до автоматической выгрузки из КейКоллектора или сервисов Ахревс, Букварикс и др.

В конечном итоге мы должны получить список поисковых забросов по одной тематике. Данные могут быть сохранены в txt или csv формате. Помимо кейвордов в выгрузке могут содержаться и другие данные, такие как общая частотность, точная частотность, количество слов.

Загрузка файла с данными в Penguin

Если ваш файл с данными выгружен из популярных сервисов, то при создании нового проекта в Пингвине необходимо выбрать соответствующий пунткт.

После загрузки файла кейвордов можно выделить и удалить ненужные столбцы с данными. Данная операция выполняется с помощью контекстного меню.

Предварительная чистка списка кейвордов

После загрузки данных необходимо определить план по очистки вашего списка от ненужных данных. Можно пойти двумя путями:

  1. Удалить все ненужное и оставить только кейворды, которые соответствуют нашей задаче.
  2. Отфильтровать список таким образом, чтобы сразу получить нужную выборку данных

К числовым и текстовым данным можно применить фильтры. В программе доступен функционал применения регулярных выражений. Также есть набор встроенных фильтров. Для текстовых полей имеется набор функций поиска и удаления дублей.

Фильтр числовых полей

Например, с помощью фильтра «Исключения» можно удалить строки с частотностью меньше пяти.

  1. Выделяем столбец с частотностью
  2. В блоке Исключения пишем <5
  3. Нажимаем кнопку «Выполнить фильтрацию»

Фильтрация кейвордов по длине строк и количеству символов

Данная операция вынесена в отдельный блок в правом нижнем углу программы. Можно отфильтровать фразы по количеству слов, например, оставить фразы содержащие от 1 до 7 слов.

Поиск и обработка дублей ключевых фраз

Для применения операций фильтрации ключевых слов необходимо выделить соответствующий столбец и выбрать один из пунктов меню из раздела «Обработка дублей» или «Сортировка»

Сценарии часто повторяющихся действий.

Однотипные действия можно записать в виде сценария. Для этого необходимо перейти на вкладку сценарии, нажать на кнопку записи сценария и выполнить необходимые действия.

Кластеризация СЯ

Сценариев кластеризации в программе Пингвин может быть несколько в зависимости от исходных данных и поставленных задач.

Кластеризация по одному слову

Пример1: исходный список слов собран по высокочастотной фразе «семантическое ядро» без применения стоп-слов. В этом случае список кейвордов содержит большое число мусорных фраз, от которых необходимо избавиться.

В программе Пингвин можно применить кластеризацию по одному слову с распределением во все возможные кластеры.

Визуально выбираем группы слов, которые максимально точно соответствуют нашей тематике.

Используя поиск можно найти нужное нам слово, если мы точно знаем, что оно должно быть, но не можем найти визуально.

После выбора достаточного количества потенциальных запросов можно очистить выборку от лишних фраз, отфильтровав список с помощью функции «Применить отмеченные кластеры, как включения».

Таким образом мы обновим наш исходный список ключевых слов, который заново кластерезируем с такими же параметрами группировки по одному слову.

Среди полученных групп выбираем лишние слова, которые не подходят контексту нашей темы. Пройдя весь список в ручную, фильтруем отмеченные кластеры как исключения.

Кластерезируем список фраз заново и снова ищем слова, которые не соответствуют нашей теме. Повторяем эту процедуру несколько раз, чтобы получить максимально чистое семантическое ядро.

При работе с очищенным семантическим ядром может возникнуть потребность исключить некоторые ключевые фразы. В этом случае в блоке фильтров можно добавить нужные слова в исключения.

На заключительном этапе кластеризации выбираем распределение в пользу высокочастотных кластеров.

Если в результате кластеризации образовались кластеры из слов первоначальной фразы «семантическое ядро», то такие кластеры необходимо добавить в исключения (стоп-слова).

После добавления стоп-слов повторно выполняем кластеризацию всех строк.

Некоторые схожие кластеры в итоговой группировке можно объединять. Для этого необходимо отметить нужные кластеры и выбрать соответствующий пункт меню.

Очищенное СЯ можно сохранить в виде дерева и использовать для написания статей.

SeoKardinal
Мы будем рады и вашему мнению

Оставьте отзыв

SeoKardinal
Logo