Сейчас я расскажу (тем кто вообще незнает как напарсить базу) как можно напарсить базу каталогов/форумов/блогов/гостевых книг и прочих вкусностей. Основным инструментом сбора будет замечательная программа Allsubmitter . Для тех кто не в теме но всё таки нашёл эту статью, парсинг - это процесс сбора адресов сайтов.
Парсить будем в Google. Для сбора нам понадобится знание синтакиса запросов, вот основные:
- inurl:submit.php - в данном случае ПС (поисковая система) выдаст сраницы в адресе которых найдено submit.php
- site:.com - здесь нам будут предложены домены только в зоне com
- intitle:Add site - тут нам предложат сайты в чьём Title будет Add site
Для начала хватит, остальные если пошелестить можно найти без труда. Что бы облегчить себе работу в настройках гугли выставите выдавать по 100 результатов. Следующим важным моментом является выбор признака по которому будем искать, например гостевая книга www.ionian-islands.com/guestbook/addguest.html следовательно для поиска гостевух такого типа делаем такой запрос inurl:addguest.html , комбинируем ещё комбинация. В чём суть комбинаций, дело в том, что Google не даёт просмотреть больше 1000 результатов.
Как только научимся создавать интересные комбинации и наработаем базу признаков жить станет легче. Следующий этап непосредственно сбор адресов из выдачи Гугли, для этого запускаем Alsubmitter желательно не ниже версии 3.4(можно демку) т.к в других нету возможности в будущем экспортировать напарсеное в формат txt(или я ошибаюсь).
Создаём базу, заходим через Alsubmitter в google.com вводим один из запросов, дождёмся когда появится выдача, далее жмём Базы Данных > Импортировать из IE, результат = программа сообщает сколько было добавлено новых адресов, в браузере программы нажимаем Назад и повторяем Иморт с 2ой 3ей и других страниц.
Составлять и комбинировать можно как угодно, Alsubmitter не будет собирать дубликаты адресов. Например прошуршите все доменные зоны: site:.com site:.net site:.biz site:.org site:.in site:.name site:.info и т.д. Что бы исключить из выдачи неработающие сайты добавляем -"error" -"warning" inurl:submit.php . Вот и всё. Вопросы приветствуются в коментах.
Комментариев нет:
Отправить комментарий