АРМАДА
Nutch
Новая тема Написать ответ

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 21155
Обратиться по нику
# Добавлено:Пт Июл 10, 2009 1:32 pmДобавить в избранноеОтветить с цитатой
вот, только за 10 дней, с начало мес. от этого непойми чего, я получил:
Nutch 19827+4606 586.49 МБ

.. и ладно бы если, он качал что то осмысленно.. так я по стате вижу, что он одну и тужу стр, по раз 50 забирает..

.. никак немогу найти.. описание этого.. кто такой, и можно ли его ограничить через robots.txt, типа так..
Код:
User-agent: *
Crawl-delay: 5

User-agent: nutch
Disallow: /



.. или же, блокировать маску, только через ПХП/хтаксесс .. т.к. это не бот, и роботсы.тхт он несмотрит ?

также, строка "User-agent: nutch" регистро-зависима, или нет.. т.е. неважно в каком регистре писать nutch
т.е. и так nutch и так Nutch будет срабатывать (я сейчас обо всех ботах..) ?


подскажите, сразу, как через .htaccess блокирнуть этот агент
с признаком/подстрокой в агенте как "Nutch" ?

.. и выдавать, 403 ошибку (заблокировано)..
(403 - это и есть отказ в доступе / блокировка.. ?)

гугль/ соблюдает/понимает строчки robots.txt как:
Код:
User-agent: *
Crawl-delay: 5


(яндекс - говорили что соблюдает)

_______

вот еще немного инфы по
.. и еще nutch
.. может кому нить пригодиться.. игого игого..
ConnectX: Единый порно сайт подрочить Porno Cam, для adult вебмастеров, webcam моделей

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 21155
Обратиться по нику
# Добавлено:Пт Июл 10, 2009 1:37 pmОтветить с цитатой
кстати, код
Код:
User-agent: *
Crawl-delay: 5



ограничивает только тот домен, на котором находиться сам роботс.тхт,
на другом домене, также отдельно будет считаться роботс.тхт и правила..

т.е. если у меня около 1000 сабов на домене второго уровня..
то получаеться, в общей сложности, яндекс бот будет соблюдать интервал на каждый саб, но в сумме, сам хост, будет получать, возможно и по 1000/5 (=200) запросто в сек.

какие есть решения, чтоб недопустить такого, может через роботс.тхт, спец. пониками уставновить.. что правило
Код:
User-agent: *
Crawl-delay: 5

должно действовать, в сумме (глобально) на все сабдомены и домен.
ConnectX: Единый порно сайт подрочить Porno Cam, для adult вебмастеров, webcam моделей

Soeti
Профессионал
Зарегистрирован: 05.06.2009
Сообщений: 616
Обратиться по нику
# Добавлено:Пт Июл 10, 2009 5:28 pmОтветить с цитатой
Пропарсь логи на user-agent
Скорее всего тебя кто-то выкачивает.

http://www.globalsecurity.org/robots.txt

Вот очень суровый файл. Маниакально суровый, но видать ребята не зря его поставили.

Что с хотлинками? Если у тебя контент из картинок, то могут сайт могут эксплуатировать как халявный хостинг изображений. нужно поставить хотлинк-протект защиту.

зы. Посмотрел внимательнее:
Код:

User-agent: CazoodleBot/Nutch-0.9-dev
Disallow: /

User-agent: CazoodleBot/Nutch-0.9-dev (CazoodleBot Crawler; http://www.cazoodle.com; mqbot@cazoodle.com)
Disallow: /

кажется твое. нахуй его режь

оо.....какие быстрые машинки!(переходя на Красный)
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры