Доступно о продвижении сайтов.

суббота, 6 октября 2007 г.

Парсинг каталогов.

Сейчас я расскажу (тем кто вообще незнает как напарсить базу) как можно напарсить базу каталогов/форумов/блогов/гостевых книг и прочих вкусностей. Основным инструментом сбора будет замечательная программа Allsubmitter . Для тех кто не в теме но всё таки нашёл эту статью, парсинг - это процесс сбора адресов сайтов.

Парсить будем в Google. Для сбора нам понадобится знание синтакиса запросов, вот основные:

  1. inurl:submit.php - в данном случае ПС (поисковая система) выдаст сраницы в адресе которых найдено submit.php
  2. site:.com - здесь нам будут предложены домены только в зоне com
  3. intitle:Add site - тут нам предложат сайты в чьём Title будет Add site

Для начала хватит, остальные если пошелестить можно найти без труда. Что бы облегчить себе работу в настройках гугли выставите выдавать по 100 результатов. Следующим важным моментом является выбор признака по которому будем искать, например гостевая книга www.ionian-islands.com/guestbook/addguest.html следовательно для поиска гостевух такого типа делаем такой запрос inurl:addguest.html , комбинируем ещё комбинация. В чём суть комбинаций, дело в том, что Google не даёт просмотреть больше 1000 результатов.

Как только научимся создавать интересные комбинации и наработаем базу признаков жить станет легче. Следующий этап непосредственно сбор адресов из выдачи Гугли, для этого запускаем Alsubmitter желательно не ниже версии 3.4(можно демку) т.к в других нету возможности в будущем экспортировать напарсеное в формат txt(или я ошибаюсь).

Создаём базу, заходим через Alsubmitter в google.com вводим один из запросов, дождёмся когда появится выдача, далее жмём Базы Данных > Импортировать из IE, результат = программа сообщает сколько было добавлено новых адресов, в браузере программы нажимаем Назад и повторяем Иморт с 2ой 3ей и других страниц.

Составлять и комбинировать можно как угодно, Alsubmitter не будет собирать дубликаты адресов. Например прошуршите все доменные зоны: site:.com site:.net site:.biz site:.org site:.in site:.name site:.info и т.д. Что бы исключить из выдачи неработающие сайты добавляем -"error" -"warning" inurl:submit.php . Вот и всё. Вопросы приветствуются в коментах.

Комментариев нет:

Нашли что-нибудь полезное?

Копирование разрешено только в виде аннотирования с указанием ссылки на полную статью.