АРМАДА
robots.txt - "последние штрихи".
На страницу 1, 2  След.
Новая тема Написать ответ

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18028
Обратиться по нику
# Добавлено:Чт Май 14, 2009 10:41 pmДобавить в избранноеОтветить с цитатой
.. давайте еще раз уточним.. насчет сабжа..

для трех топ се - Гугль/Яху/Мсн

для полной и неограниченной индексации сайта, как лучьше

1) оставить robots.txt пустой полностью ( я так делаю.. и СЕ понни-боты бегают хорошо)
2) или заполнить его строками:

Код:

User-agent: *
Allow: /



3) это строки верны.. ? т.е. такой код точно разрешит ВСЕМ индексить ВСЁ ?

4) что грамотнее для 3-ТОП-СЕ, пустой файл оставлять или с кодом:
Код:

User-agent: *
Allow: /



.. чтоб обеспечить лучшую "прогрузку" моего поника.. ?


далее,
по материалу http://ru.wikipedia.org/wiki/Robots.txt
тама я вижу.. такие директивы
Нестандартные директивы:
строка1
Crawl-delay: 10
( 10 это секунды, устанавливает время, которое робот должен выдерживать между загрузкой страниц. )

строка2
Request-rate: 1/5
(загружать не более одной страницы за пять секунд)

5) какой из этих двух строк кого перекрывает, имеет больший приоритет, какая СЕ и какой понимает ?


6) Гугль/Яху/Мсн их соблюдают.. все или кто то частично ?
7) если кто то соблюдает.. и я ставлю задержки более, тама 5 сек-5 мин, то из за этого непоследует частичная и/или медленная индексация сайта.. т.к. при таких таймингах.. бот будет мене внимателен к сайту ?

_____________

тут именно не пони-боты, а понни-боты надо писать... две нн, так как мой позывной "..нормально?..нормально!.."

[offtop]
http://ru.wikipedia.org/wiki/Robots.txt :
Allow: имеет действие, обратное директиве Disallow — разрещает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html
Disallow: /album1/
[/offtop]

Mr.UFO
Профессионал
Зарегистрирован: 13.08.2006
Сообщений: 513
Обратиться по нику
# Добавлено:Чт Май 14, 2009 11:46 pmОтветить с цитатой
IseeDeadPeople писал(а):

тут именно не пони-боты, а понни-боты надо писать... две нн, так как мой позывной "..нормально?..нормально!.."

Может не стоит больше есть грибы?
Всем пока :)

Serebron
Свой
Зарегистрирован: 29.04.2009
Сообщений: 16
Обратиться по нику
# Добавлено:Чт Май 14, 2009 11:56 pmОтветить с цитатой
Crawl-delay google не понимает

Lexix
V.I.P.
Зарегистрирован: 11.07.2008
Сообщений: 2143
Обратиться по нику
# Добавлено:Пт Май 15, 2009 5:18 pmОтветить с цитатой
Оставляй
User-agent: *
Allow: /
и не парься, и пусть боты сами ходят и выбирают за сколько пробегать по страницам, иначе можно такого наковырять r5
Их финансы не поют романсы Заработай на ссылках

Mr.UFO
Профессионал
Зарегистрирован: 13.08.2006
Сообщений: 513
Обратиться по нику
# Добавлено:Пт Май 15, 2009 6:00 pmОтветить с цитатой
Lexix писал(а):
Оставляй
User-agent: *
Allow: /
и не парься, и пусть боты сами ходят и выбирают за сколько пробегать по страницам, иначе можно такого наковырять r5

Бред написал. Если не шаришь, лучше помолчи.
Всем пока :)

Lexix
V.I.P.
Зарегистрирован: 11.07.2008
Сообщений: 2143
Обратиться по нику
# Добавлено:Пт Май 15, 2009 6:27 pmОтветить с цитатой
Может конечно и не шарю куда уж мне. На всех своих сайтах именно такой роботс и делаю, так как в панели вебмастера в гугле изначальная конфигурация роботса именно такая. Это лишь моё мнение и человеку самому решать интересно оно ему или нет, я не навязываюсь. :smk:
Их финансы не поют романсы Заработай на ссылках

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18028
Обратиться по нику
# Добавлено:Пт Июн 12, 2009 11:24 pmОтветить с цитатой
Lexix,

.. файл..

пустой файл (длина 0 байт), но существующий физически на хосте.. для гугля/мсн/яху.. считаеться также (разрешающий всё индексить) как такой содержимое:
Код:
User-agent: *
Allow: /



?

.. и вообще, пробелы можно опускать (т.е. неставить вообще их) в коде выше.. ?
т.е. такой ликвиден
Код:
User-agent:*
Allow:/



.. также, после "Allow: /" - пробел, за слешем (/) должен быть ?
и также, в строке "User-agent: *" - пробел, после звездочки (*) должен быть ?

hill
V.I.P.
Зарегистрирован: 07.07.2008
Сообщений: 2121
Обратиться по нику
# Добавлено:Сб Июн 13, 2009 9:19 amОтветить с цитатой
спокойно во всех поисковиках двигаю сайты (есть и топ1 по конкурентным ВЧ) с пустым роботсом. как говорится иногда лучше недобздеть.
| Большие $$$ на любом трафе - Помощь и консультауии рефам 2-девять-86-семь-7047 |

shhef +
V.I.P.
Зарегистрирован: 14.09.2007
Сообщений: 7624
Обратиться по нику
# Добавлено:Сб Июн 13, 2009 10:39 amОтветить с цитатой
зачем нужен роботос?
правильно - верно указать куда ходить и как ходить
оператор Allow и нах не надо... робот и без него ходит по сайту
если нет конечно Disallow... а если он есть. тогда и ВИКИ помогает...

Цитата:
http://ru.wikipedia.org/wiki/Robots.txt :
Allow: имеет действие, обратное директиве Disallow — разрещает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html
Disallow: /album1/


PS гляньте на роботсы наших гуру блогеров...

pSS у каждой посочнецы свои правила
Лучшее решение для фармы! Smile Все остальные нервно курят в сторонке
Облачный сервер за 5 у.е. + 10 у.е на счет при регистрации по моей ссылке. Разные страны! Лучший треккер!

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18028
Обратиться по нику
# Добавлено:Вт Июн 16, 2009 2:25 pmОтветить с цитатой
так что посоветуете, использовать.. какой вариант.. 1 или 2, для полного разрешения всем индексации.. и дальнейшей поддержки:

1) robots.txt пустой полностью.
2) или заполнить его строками:
Код:
User-agent: *
Allow: /



(кстати, а директива "Allow" точно существует ? .. просто сам её в мануалах невидел)

также, если я хочу запретить двум ботам.. напр яндексу и мсн индексить мой сайт, но все остальные могут.. то robots.txt будет так выглядеть:

Код:
User-agent: *
Allow: /
User-agent: msn
Disallow: /
User-agent: yandex
Disallow: /



- правильно ?

также, в строке User-agent: можно указывать полную строку агента.. типа "Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)" (с пробелами) .. а не подстроку-признак "Twiceler"

+ там кстати, сравнение регистро независимо ?

спасибо!


[offtop]

:`( - это `самочка`, .. я вижу что она плачет.. что мне сделать, чтоб она перестала лить слезы ?

[/offtop]

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18028
Обратиться по нику
# Добавлено:Сб Сен 26, 2009 9:40 pmОтветить с цитатой
я вот что прочел,

http://robotstxt.org.ru/RobotstxtErrors#h83-15
Цитата:
Инструкции Allow не существует!

Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Отдельные роботы (например googlebot) понимают директиву Allow



.. но я вот использую такой роботс сейчас:

Цитата:
User-agent: *
Allow: /



так директива "Allow: /" для топовых СЕ ботов никак небудет мешать индексировать.. типа воспринимать как подстрока как "Disallow: /" .. и давать запрет?
или лучьше пустой роботс.тхт сделать, чтоб точно небыло никаких путаных ограничений.. ?

getcash
Свой
Зарегистрирован: 13.09.2009
Сообщений: 16
Обратиться по нику
# Добавлено:Вс Сен 27, 2009 6:51 pmОтветить с цитатой
robots.txt нужен для настройки особенностей сканирования поисковиков.
Также в него неплохо добавить ссылку на sitemap.

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18028
Обратиться по нику
# Добавлено:Чт Окт 01, 2009 9:12 pmОтветить с цитатой
[offtop]
Цитата:
robots.txt нужен для настройки особенностей сканирования поисковиков.
Также в него неплохо добавить ссылку на sitemap.


Shocked
[/offtop]

мне надо составить строчку "Disallow .."
т.е.
User-agent: Baiduspider
Disallow: ?

что поставить вместо "?", чтобы разрешить этому боту есть/индексировать/переходить на любые странички домена(неважно какой глубины), за исключением, тех.. в которых есть хоть одна цифра.. (неважно в папке, или имени самого файла) ?

напр.
Код:

http://domain.com/aaaa.html - можно индексировать
http://domain.com/aaaa/aaaa.html - можно индексировать

http://domain.com/aaaa2.html - нельзя индексировать
http://domain.com/aaa2/aaaa.html - нельзя индексировать

http://domain.com/12aa.html - нельзя индексировать
http://domain.com/aaa221/aaaa.html - нельзя индексировать

http://domain.com/1112.html - нельзя индексировать
http://domain.com/221/aaaa.html - нельзя индексировать




спасибо. Yahoo!
_____

вообще, СЕ baidu.com это чисто японский поисковик (т.е. трафик тама из Японии в основном ?), или Китайский.. (т.е. трафик тама из Китая в основном ?).. или композитный для всех азиатских языков.. стран.. или выборочный список превалирующих стран азии есть? Shocked

nomer8
V.I.P.
Зарегистрирован: 09.12.2008
Сообщений: 2081
Обратиться по нику
# Добавлено:Чт Окт 01, 2009 10:20 pmОтветить с цитатой
IseeDeadPeople, в японии популярен другой поисковик у которого лого синишар r5
Байда - китайце
EssayPartner.com - партнерка под эссей трафик.

Cyb
Профессионал
Зарегистрирован: 07.02.2009
Сообщений: 839
Обратиться по нику
# Добавлено:Пт Окт 02, 2009 2:32 amОтветить с цитатой
Мой роботс для WP (если кому вдруг нужен)

Цитата:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/upgrade/
Disallow: /xmlrpc.php



getcash сайт мап актуален только в случае, если сайт не в индексе. Проиндексированный сайт и так посещают боты поисковиков.
Давно повесил Teasernet, в других партнерках смысла нет!
7 лет в онлайне, 45% твои. Фарма-партнерка Evapharmacy - инвайты тут Jabber: [email protected], ICQ: 750000
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры