Качаем программу с официального сайта. Бесплатная версия программы позволяет сканировать до 500 урлов. Таблетку для лицензии можно скачать с торрентов.
SEO Spider — это мощный и гибкий сканер сайтов, способный эффективно сканировать как небольшие, так и очень большие веб-сайты, позволяя вам анализировать результаты в режиме реального времени.
Запускаем программу и вставляем адрес сайта, страницы которого необходимо спарсить.
Хостинг может заблокировать доступ к сайту с вашего IP из-за большого числа обращений. В этом случае для парсинга необходимо использовать прокси.
Загружаем файл настроек через главное меню Configuration — Profiles — Load. После чего можно нажать на кнопку Start, которая запускает процесс сканирования.
После завершения процесса сканирования необходимо перейти на вкладку H1, где видны адреса записей сайта и соответствующие заголовки h1.
Чтобы не копировать мусорные url, можно задать фильтр, например по названию категории, если категории используются в адресах страниц. На скриншоте используется фильтр определения всех записей, названия которых заканчиваются на .html.
Далее адреса страниц можно скопировать и использовать для парсинга или анализа сайта.