Описание

Модули парсинга

  • Google, www.google.com, 1000 результатов с запроса, 100 страниц на выдаче,использование разных data центров.
  • Yahoo, search.yahoo.com, 1000 результатов с запроса, 100 страниц на выдаче.
  • Explorer, siteexplorer.yahoo.com, 1000 результатов с запроса, 100 страниц навыдаче; операторы: link, linkdomain, site.
  • Live, search.live.com, 1000 результатов с запроса, 200 страниц на выдаче.
  • Yandex, www.yandex.ru, 1000 результатов с запроса, 10 страниц на выдаче.

Дополнительные модули парсинга

  • Snipets. Парсинг 100 первых снипетов google от каждого запроса

Все модули поддерживают

  • многопоточность;
  • парсинг с прокси, задержкой;
  • поддержка прокси с авторизацией;
  • маскировка под сотни браузеров;
  • gzip сжатие (увеличивает скорость и снижает потребление трафика);
  • все операторы языка запросов для каждого поисковика;
  • возможность использовать любые языки для составления запросов;
  • удаление дубликатов по домену и по строке;
  • полное логирование всех действий.

Модули фильтрации

  • Regexp match. Выборка url’ов по регулярным выражениям, возможность замены подстроки.
  • Ping. Отбирает url’ы по статусу ответа 200, 301, 302 и т.д.
  • PR. Производит выборку url’ов по google page rank, поддержка прокси для многопоточного режима.
  • Scan. Сканирует ресурсы на предмет вхождения искомой строки (регулярного выражения). Может исследовать не только одну страницу, но и проследовать по ссылкам.

Кроме того

  • Четкое разделение заданий: парсинг и фильтрация.
  • Система запросов и подзапросов (дополнительных запросов).
  • Интеллектуальный парсинг.
  • Легкое внедрение вариаторов - им может быть любой фаил.
  • Система профайлов.
  • Средство для роботы с файлами, результатами парсинга;
  • Оповещение по e-mail.
  • В скрипт встроено средство для роботы с прокси; возможности:
    • cкачивание прокси с url’ов;
    • многопоточная проверка на активность - пинг;
    • запуск вручную и через cron;