АРМАДА
вытащить страницы из кэша гугли
Новая тема Написать ответ

Rayden
Опытный
Зарегистрирован: 25.09.2007
Сообщений: 310
Обратиться по нику
# Добавлено:Пт Окт 24, 2008 9:44 amДобавить в избранноеОтветить с цитатой
Возникла необходимость распарсить содержимое очень большого контентного сайта (несколько миллионов страниц), за разумное время. Брать страницы с самого этого сайта не получается, т.к. при запросах через прокси в несколько десятков потоков, сайт просто-напросто валится (получается типа ddos)

Сейчас выгребаю страницы из кэша гугли (благо большая часть проиндексирована) запросами cache:http://website.tld/page.htm, но гугль сцуко банит моментально (буквально 70-80 запросов, и все), это ж никаких проксей на него не напасешься Mad

Кто-нибудь пробовал автоматически вытаскивать страницы из гуглового кэша - как при этом избежать бана?
Коплю на эту прелесть

Лена
Гуру
Зарегистрирован: 19.10.2005
Сообщений: 1203
Обратиться по нику
# Добавлено:Сб Окт 25, 2008 8:16 pmОтветить с цитатой
К сожалению нет такого инструмента, который бы парсил гугл не получая бан по IP. На это и расчитан кратковременный бан гугла за парсинг и частое обращение к нему. Приходится использовать парсилки с поддержкой проксей. И запасаться ими все-таки надо. Wink

captain Keen
Опытный
Зарегистрирован: 22.10.2008
Сообщений: 206
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 10:40 amОтветить с цитатой
Rayden писал(а):
гугль сцуко банит моментально (буквально 70-80 запросов, и все), это ж никаких проксей на него не напасешься


Лена писал(а):
К сожалению нет такого инструмента, который бы парсил гугл не получая бан по IP.


Ну о чем вы говорите?! В моем городе у провайдеров как правило один общий внешний IP для всех пользователей. Исходя из вашей логики Гугл бы давно их забанил и все жители нашего полумиллионного города вынуждены были бы пользоваться Яндексом.

Какие-то прокси для Гуглового парсинга... Зачем???? Чтобы дольше ждать результатов?!?!?!?!?!

Маскируйте запросы к Гугл под запросы обычного серфера и будет вам счастье.

Лена
Гуру
Зарегистрирован: 19.10.2005
Сообщений: 1203
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 2:44 pmОтветить с цитатой
Так ведь бан кратковременный. И за слишком частые и продолжительные запросы и парсинги. Я сама иногда натыкаюсь на то что меня ни с того ни с сего останавливают каптчой или иногда вообще говорят что мне пока запрещено юзать поиск гугла, это в момент когда я впервые за день пытаюсь попробовать что-то нужное в гугле найти. А все потому что кабельный провайдер предоставляет 1-3 общих внешних IP для всех своих пользователей. Только не все эти пользователи одновременно пользуются поиском гугла, и уж тем более не все в провайдерской сети занимаются дорвееводством и не парсят ежеминутно гугло-поиск. Smile
captain Keen, просто вы не замечали этого наверное. Логика здесь есть, и есть примеры из личного опыта когда при первом коннекте в гугл мне не разрешают воспользоваться поиском. Да и бан в принципе не долгий. Есть определенный временной отрезок, на который могут забанить. И еще есть определенная частота запросов, допустимая в пределах одного IP.

Cabal
Гуру
Зарегистрирован: 20.10.2007
Сообщений: 1360
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 3:04 pmОтветить с цитатой
Лена, +1
Есть такое.
captain Keen, seoQuake посылает к Google частые запросы браузером живого пользователя. Попробуй плотно его поюзать какое то время и не схлопотать алертов от Google. Есть разные уровни бана это не тайна.

Лена
Гуру
Зарегистрирован: 19.10.2005
Сообщений: 1203
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 3:10 pmОтветить с цитатой
Вот нашла доказательства (официальное объяснение от гугла), если капитан не верит:
Подключение к Google: Страница "Извините, ошибка" для частных лиц
Подключение к Google: Страница "Извините ошибка" для сетей
- это все объяснения "ошибки 403", когда выдается такое:
Цитата:
Ошибка

Приносим свои извинения...

... но ваш запрос похож на запросы, автоматически рассылаемые
компьютерным вирусом или вредоносным программным обеспечением. В целях
защиты наших пользователей мы не можем обработать ваш запрос
немедленно.

Мы восстановим ваш доступ в кратчайшие сроки, поэтому повторите
попытку через некоторое время. Пока же, если вы считаете, что ваш
компьютер или локальная сеть могут быть заражены, то можете запустить
приложение для проверки на наличие вирусов или удаления шпионских
программ, чтобы убедиться, ваши компьютеры не заражены вирусами или
вредоносным ПО.

Если в браузере постоянно открывается страница с этой ошибкой, то
проблему можно решить, удалив файлы cookie сайта Google и посетив этот
сайт повторно. Инструкции для определенного типа браузера можно
получить в центре поддержки вашего браузера в Интернете.

Если затронута вся ваша сеть, дополнительную информацию можно
найти в справочном центре веб-поиска Google.

Мы приносим извинения за неудобства и надеемся, что вскоре вы
снова будете пользоваться сайтом Google.


IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 3:46 pmОтветить с цитатой
Лена писал(а):
К сожалению нет такого инструмента, который бы парсил гугл не получая бан по IP. На это и расчитан кратковременный бан гугла за парсинг и частое обращение к нему. Приходится использовать парсилки с поддержкой проксей. И запасаться ими все-таки надо. Wink



а вообще можно и так вопрос решить
напр брать один прокси/сок, кот гугль пока незнает и парсить через него.. медленно.. с интервалами, - конечно это авто уже полность

и как только ХАНА, то другой прокси и также..

________

а вообще я порой проверяю свои сайты в гугле..
и порой под вечер он мне уже только при каптче дает лошадок...

Shocked
http://m.lsl.com/

Rayden
Опытный
Зарегистрирован: 25.09.2007
Сообщений: 310
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 5:00 pmОтветить с цитатой
captain Keen писал(а):


Маскируйте запросы к Гугл под запросы обычного серфера и будет вам счастье.



А фиг там - даже если вводить запросы вручную в браузере, банит точно так же, через 70-80 запросов (только что попробовал)

IseeDeadPeople писал(а):

напр брать один прокси/сок, кот гугль пока незнает и парсить через него.. медленно.. с интервалами, - конечно это авто уже полность



Тоже не особо помогает. Если установить интервал между запросами в минуту (+ случайно его варьировать), то бан наступает через 5-6 часов и примерно 300 запросов.

Короче я решил проблему тупо грубой силой - купил сервис проксей у awmproxy и автоматом гружу свежий список каждые 10 минут. Скорость не ахти, но за пару недель должно все скачаться.
Коплю на эту прелесть

captain Keen
Опытный
Зарегистрирован: 22.10.2008
Сообщений: 206
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 9:09 pmОтветить с цитатой
Господа, вы что с локальных компов Гугл парсите?? Shocked Тогда беру обратно свои слова. Я говорил о серверных парсерах.

Лена, спасибо за ссылки. В них как раз имеется ответ на вопрос ТС.
Цитата:
Изображение с искаженными буквами помогает нам определить, исходит ли данный трафик от автоматизированного программного робота, либо от отдельных пользователей. Имейте в виду, что эта страница отображается для Вашей сети потому, что наша система регистрирует автоматические запросы, поступающие с IP-адреса Вашей сети.

Обратите внимание - "наша система регистрирует автоматические запросы". Сделайте так чтобы не регистрировала автоматических, замаскируйтесь под людей и все будет ОК. Wink При нормально сделанном парсере никакого бана не будет.

Cabal
Гуру
Зарегистрирован: 20.10.2007
Сообщений: 1360
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 10:24 pmОтветить с цитатой
При чём тут локальные компы? Я привёл в пример SeoQuake потому что он взаимодействует с реальным браузером посылая запросы из него. Если Гугл кидает алерты на реальные браузеры то на любую их имитацию и подавно - вот основная мысль. Ты не первый кому пришло в голову послать Гуглу правильные HTTP-заголовки. Есть некоторые интересные мутки на этот предмет у AlexF2000 но это не есть имитация нормального браузера а скорее имитация не нормального.

Rayden
Опытный
Зарегистрирован: 25.09.2007
Сообщений: 310
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 10:46 pmОтветить с цитатой
captain Keen писал(а):
Обратите внимание - "наша система регистрирует автоматические запросы". Сделайте так чтобы не регистрировала автоматических, замаскируйтесь под людей и все будет ОК. Wink При нормально сделанном парсере никакого бана не будет.



Ну я же в предыдущем сообщении написал - гугл банит даже когда я с локального компа в браузер вбиваю запросы вручную. Так сказать, стопроцентно маскируюсь под человека :mrgreen:

P.S. На случай если кто-то невнимательно прочитал самое первое сообщение темы - речь идет (в моем случае) не о парсинге гугли в общем, а конкретно о таких запросах:
Код:
cache:http://website.tld/page.htm

Коплю на эту прелесть

Cabal
Гуру
Зарегистрирован: 20.10.2007
Сообщений: 1360
Обратиться по нику
# Добавлено:Вс Окт 26, 2008 10:50 pmОтветить с цитатой
Rayden, там вообще самая злая банилка. У меня была маза когда то что то дёргать из кеша уже не помню(Smile). В результате отказался из за нерентабельности затеи на тот момент времени. Ну так и я про неё. Что я к SeoQuake то прицепился... Вот эта строчка
Цитата:
his is Google's cache of http://www.site.com/. It is a snapshot of the page as it appeared on 25 Oct 2008 05:29:53 GMT.

отдаётся кешем и ей как раз Квака помоему и оперирует определяя cachedate.

captain Keen
Опытный
Зарегистрирован: 22.10.2008
Сообщений: 206
Обратиться по нику
# Добавлено:Пн Окт 27, 2008 10:35 amОтветить с цитатой
Cabal писал(а):
Если Гугл кидает алерты на реальные браузеры то на любую их имитацию и подавно - вот основная мысль.

На имитацию браузера - да, на имитацию среднестатистического пользователя - нет.
Ты возьми и попробуй написать для какого-нибудь своего сайта систему защиты от автоматического парсинга. При этом такую, которая по минимуму отсекала бы благонадежных пользователей - сразу поймешь многие принципы этой защиты и ее уязвимости.

Мы с сотоварищами давно уже занимаемся парсингом различных ресурсов. Время от времени кто-нибудь из нас придумывает очередную "гениальную антиспайдеринговую систему, которую не пробить". Задача остальных ее сломать. Ну вот развлекаемся мы так. Заодно и навыки растут.

Любой общедоступный сайт это открытая информационная система, его даже теоретически невозможно сделать 100% защищенным от парсинга. Любой(!) общедоступный сайт можно распарсить автоматически, вопрос только в ресурсах необходимых для этого. Тут экономика на первом месте стоит. Действительно иногда вместо написания, отладки и запуска скриптов выгоднее нанять индийцев, которые "руками" сграббят ресурс. Но Гугл к числу таких ресурсов не относится.

Cabal писал(а):
Ты не первый кому пришло в голову послать Гуглу правильные HTTP-заголовки.

Да я этого и не говорил, что я это изобрел. Про парсинг книжки есть где работа с http-заголовками описана. Там, кстати, написано что не только строку user-agent можно передавать Wink
Кроме того я понимаю разницу между идеей и ее реализацией. Коммунизм, скажем, обалденная идея, а любая ее реализация унылое говно. Если бы у меня не было реально работающих скриптов, парсящих Гугл без бана, я бы не писал что они возможны.
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры