|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Всем привет!
Парсер – не бог весть сложная программа, тем не менее этот инструмент незаменим. При создании парсера гугла Kozyol была поставлена задача сделать легкий в управлении, лаконичный, гибкий и стабильный софт. Я думаю, он вам понравится =) перечислю основные моменты:
1. Возможности, ставшие стандартом такого рода софта:
1.1. естественно, многопоточность, причем умная: динамическое распределение работы в ходе процесса парсинга, ни один поток не будет висеть без дела, если даже он выполнил свою часть работы
1.2. конечно прокси, которые при парсинге гугла нужны как воздух, поддержка следующих типов проски: http, socks4, socks5 (чего так не хватало в ауре); просто укажите источник и парсер с ним разберется)
1.3. использование ротаторов – это файлы с подстановками к запросу, например с доменными зонами. Их цель ”вращать выдачу”, чтобы получить больше 1000 результатов, котрые отдает гугл по дефолту
2. Минимум настроек:
3. Удобный менеджер управления заданиями парсинга: все в любой момент можно проследить, остановить, поставить на паузу и пр.
тут еще чуть подробнее со скринами: http://kozyol.com/?p=6
Технические детали:
- парсер серверный, для работы нужен python (2.5 и новее) и php, и библиотека curl
- идеальным вариантом будет любой юниксовый сервер или вдс
Цена и условия:
- цена на парсер гугла Kozyol 50 долларов
- установка парсера и настройка сервера/вдс (включая установку нужного софта) – пока бесплатно
- принимаю: webmoney, paypal, paxum
- мои контакты: icq 280870084, email: dmii.support@gmail.com
http://kozyol.com/ |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Первое обновление от 29.04.2011
Для получения большего снисхождения от гугла парсер, в зависимости от страны айпи-адреса прокси, будет обращаться к локальным доменам. Например, если прокси немецкая, то скрипт пойдет парсить через google.de/?hl=de. Определение нужного домена гугла происходит автоматически во время процесса парсинга. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Второе обновление парсера
1. Парсер гугла оптимизирован для работы с большим количеством запросов, файлы с миллионами запросов – не проблема.
2. Добавлен инсталятор и защита на админку.
3. Были исправлены выявленные недочеты.
Обновление будет доступно через систему клиентов сегодня-завтра. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Дорогие клиенты! Для получения постоянного доступа для скачки скрипта и обновлений обратитесь ко мне (укажите желаемый логин).
Для скачки доступен вновь обновленный скрипт:
- были исправлены выявленные ошибки
- более подрбное логирование действий парсер
- в менеджер добавлен инструмент join, который объединяет файлы с результатами
Буду рад новым пожеланиям к обновлениям. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Снова обновлен менеджер:
теперь различаются два инструмента:
unique by domains - удалить дубли по домену
get domains - получить список доменов из результатов |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Обновление менеджера результатов
1. Добавлен новый инструмент get alive urls, который оставит только живые ресурсы
2. В менеджер добавлены фильтры с условиями (if contains/if does not contain), т.е. результаты можно отфильтровать на наличие или, наоборот, отсутствие подстроки. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Kozyol Google Images Parser
Добавлен отдельный парсер картинок с гугла (для скачки файл kozyol.images.*.zip). Скрипт полностью аналогичен стандартному парсеру, за исключением того, что сохраняет прямые ссылки на картинки (максимум 1000 картинок на запрос). |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Готов парсер яху (search.yahoo.com), параметры поиска такие же как и у гугла. Скачать можно по общему доступу для клиентов.
На подходе парсер bing.com.
На данный момент клиенты Kozyol Parser могут использовать такие скрипты как:
парсер гугла, парсер картинок с гугла и парсер яху; это всего за 51 USD (цена скоро вырастет). |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Как писал во вчерашнем посте, готов парсер bing.com. По одному запросу парсятся 20 страниц по 50 результатов (не считая подзапросов). Пока все это в комплекте со всеми парсерами, все за одну цену (51 $). Клиенты могут уже скачать скрипт по общему доступу. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
На данный момент доступны следующие парсеры Kozyol:
Google Parser
Google Images Parser
Yahoo Parser
Bing Parser
вы можете купить:
за 51$ один любой парсер
за 66$ два любых парсера
за 95$ все парсеры
P.S.
Все кто купили парсер до этого могут использовать все четыре,
P.P.S.
Принимаются индивидуальные заказы на создания новых парсеров или модификацию уже имеющихся. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
С Новым Годом! До 12 января действует акция: три парсера по цене двух (65$).
Также доступен для продажи парсер платных аккаунтов вордтракера (www.wordtracker.com) как консольное unix приложение. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
С Новым Годом! До 12 января действует акция: три парсера по цене двух (65$).
Также доступен для продажи парсер платных аккаунтов вордтракера (www.wordtracker.com) как консольное unix приложение. |
|
|
|
|
|
|
Dmi Опытный |
Зарегистрирован: 14.04.2007
Сообщений: 143
|
Обратиться по нику
|
Dmi |
Ответить с цитатой | | |
|
Добавлена возможность использования прокси (socks и http) с авторизацией по логину/паролю.
Формат такой: ip:port:login:pass
Если авторизация не нужна, то можно использовать как и раньше в формате ip:port. |
|
|
|
|
|
|
|