Модули парсинга
- Google, www.google.com, 1000 результатов с запроса, 100 страниц на выдаче,использование разных data центров.
- Yahoo, search.yahoo.com, 1000 результатов с запроса, 100 страниц на выдаче.
- Explorer, siteexplorer.yahoo.com, 1000 результатов с запроса, 100 страниц навыдаче; операторы: link, linkdomain, site.
- Live, search.live.com, 1000 результатов с запроса, 200 страниц на выдаче.
- Yandex, www.yandex.ru, 1000 результатов с запроса, 10 страниц на выдаче.
Дополнительные модули парсинга
- Snipets. Парсинг 100 первых снипетов google от каждого запроса
Все модули поддерживают
- многопоточность;
- парсинг с прокси, задержкой;
- поддержка прокси с авторизацией;
- маскировка под сотни браузеров;
- gzip сжатие (увеличивает скорость и снижает потребление трафика);
- все операторы языка запросов для каждого поисковика;
- возможность использовать любые языки для составления запросов;
- удаление дубликатов по домену и по строке;
- полное логирование всех действий.
Модули фильтрации
- Regexp match. Выборка url’ов по регулярным выражениям, возможность замены подстроки.
- Ping. Отбирает url’ы по статусу ответа 200, 301, 302 и т.д.
- PR. Производит выборку url’ов по google page rank, поддержка прокси для многопоточного режима.
- Scan. Сканирует ресурсы на предмет вхождения искомой строки (регулярного выражения). Может исследовать не только одну страницу, но и проследовать по ссылкам.
Кроме того
- Четкое разделение заданий: парсинг и фильтрация.
- Система запросов и подзапросов (дополнительных запросов).
- Интеллектуальный парсинг.
- Легкое внедрение вариаторов - им может быть любой фаил.
- Система профайлов.
- Средство для роботы с файлами, результатами парсинга;
- Оповещение по e-mail.
- В скрипт встроено средство для роботы с прокси; возможности:
- cкачивание прокси с url’ов;
- многопоточная проверка на активность - пинг;
- запуск вручную и через cron;