АРМАДА
слишком активные боты.
Новая тема Написать ответ Advanced Hosters - профессиональный хостинг

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18040
Обратиться по нику
# Добавлено:Пн Июл 20, 2009 12:46 amДобавить в избранноеОтветить с цитатой
тут я хочу вести наблюдение, за слишком активных ботов.. и не всегда это боты се, - что затрудняет их детект - проверка свойств, хозяев.. и определение логики их поиска..

также, будем разрабатывать лекарство (.htaccess / robots.txt) для остановки подобных поников..

вот уже, несколько дней.. у меня лазиет вот это:
http://whois.domaintools.com/221.194.132.183
(China Company Langfang City Hebei Prouince )
UA: 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)'


все его поведение говорит о том что это СЕ бот.. или какой то другой.. - сборщик мыл.., т.к. - дергает все подряд саб домены и все подряд файлы на сабе..

кто о нем что может сказать ?

сабдоменов у меня много, и поэтому мне приходиться отслеживать таких залетных ботов.. было бы менее 10, то непарился бы..

думаю на роботс.тхт он внимания необращает.. и тогда, дайте мне сразу, пример для .htaccess - как все запросы с сетки ИП "221.194.132.*" и с сетки "221.194.131.*" одновременно непускать.. (для примера - прошу два условия мне сделать..) .. выдавать хидер 403 (запрещено) .. или какой лучьше дать, чтоб была больше вероятность.. что он остановиться и непридет снова..

спасибо.

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11544
Обратиться по нику
# Добавлено:Пн Июл 20, 2009 8:32 amОтветить с цитатой
Если не секрет, зачем вообще их отслеживать и пытаться забанить?

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18040
Обратиться по нику
# Добавлено:Пн Июл 20, 2009 10:47 pmОтветить с цитатой
Li-Hua писал(а):
Если не секрет, зачем вообще их отслеживать и пытаться забанить?



нет, не секрет.. так написал же выше сабдоменов у меня много, и поэтому мне приходиться отслеживать таких залетных ботов.. было бы менее 10, то непарился бы..

.. + все сидит на обычном шареде.. скрипты самописные.. оптимизированы.. но всётаки неособо машинке приятно, если какие нить боты.. начинают бегать, как бешеные по более 7000 сабов, на каждом домене..
.. потом это еще даст трафик, который у меня ограничен + незачем на них, бесполезных его тратить.. грузить CPU у машинке, тем самым создавая неудобства для обычных серферов..
+ на домене, самих доков также конечно, но число большое.. и бот также, будет долго бегать по ним.. даже может и "идентичные" на его взгляд, два дока ненайдет.. т.е. остаеться расчитывать на его сообразительность.. или же - банить..

даже еслиб у меня был широкий лимитированый по хорошей скорости канал, и полностью выделенная машинка, также.. наверно терпеть забивку канала ботами.. и CPU нестал бы..

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18040
Обратиться по нику
# Добавлено:Вс Авг 09, 2009 2:06 pmОтветить с цитатой
http://www.armadaboard.com/viewtopic.php?t=25713&highlight=
- тама проблема решена, методом см. ниже..

правило: много игогокает - бан.

.. вчера был забанен этот - GingerCrawler

методом
robots.txt
Код:

User-agent: GingerCrawler
Disallow: /



.. вродеб, сегодня.. утих..

"GingerCrawler", http://www.gingersoftware.com/crawler_agent.htm - если почитать назначение этого бота

- но меня вот что беспокоит, неиспользует ли Гугль/Яху/Бинг .. сторонних ботов, для проверки.. может и граматики.. или еще чего там.. ?
может даже просто, - отслеживает клоакинг/редиректы.. ?

и если я баню такого бота, то возможно гугль меня невынет из песка, если незабанет просто.. неважно, т.е. трафик с Гугля/Яху.. я просто неполучу.. ?


также еще на очереди

- robotgenius (http://robotgenius.net)
http://robotgenius.net/

- признаки_известны
http://www.majestic12.co.uk/projects/dsearch/mj12bot.php

_________

также, знаю как просто по ИП банить.. непоседлевых поников, .. материал кстати, из раздела СТАТЬИ чтоли.. ~

это условие типа так:
.htaccess:
Код:

Order Allow,Deny
Allow from all
deny from 221.194.132.
#deny from 80.67.24.



мне бы еще такое же сделать, через RewriteCond и RewriteRule
условие - если в строке ИП (123.11.22.33) есть подстрока (123.11.22.), то просто выводить 403 - заблокировано, как хидер, и никакого тела/хтмл_сорца.
.. через код выше, тама еще и ХТМЛ сорц идет - переопределить в 0l я немогу его.. т.к. тама другие кастомиз. под поника настройки стоят.., а надо бы просто 403 хидер дать, без тела..

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18040
Обратиться по нику
# Добавлено:Вс Авг 09, 2009 10:08 pmОтветить с цитатой
.. вот еще интересная инфа, которая как то оправдывает трафик от бота их..

Код:
http://www.majestic12.co.uk/


-> http://www.majesticseo.com/

введите любой домен, напр. http://www.majesticseo.com/search.php?q=armadaboard.com

и смотрите на выдачу, хорошо по ней оценивать рост беков, по графику, где сами беки, сколько страниц известно, сколько саб-доменов на домене.. и много чего еще тама, что я ниразу невидел.. просто надо получьше посмотреть..

вообщем, хороший и полезный пони-тулз для сео-поников и их наставников - лошадок..

.. также.. бесплатно.. можно сравнить два сайта кажеться, с двумя диаграммами на одной картинке..
Новая тема Написать ответ    ГЛАВНАЯ ~ ТЕХНИЧЕСКИЕ ВОПРОСЫ

Перейти:  





Генеральный спонсор



Партнеры