Jump to content

Robots.txt какой он должен быть?


Recommended Posts

Приветствую всех. Подскажите, знающие люди, какой должен быть файл robots.txt? На одном форуме в оценку моего сайта сказали, что у меня он не правильный. Я свой сделал как писал Алаев.

 

Временно переключимся — смотрите на идеальный robots.txt для DLE

User-agent: *
Disallow: /engine/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Link to post
Share on other sites

 

Приветствую всех. Подскажите, знающие люди, какой должен быть файл robots.txt? На одном форуме в оценку моего сайта сказали, что у меня он не правильный. Я свой сделал как писал Алаев.

 

Временно переключимся — смотрите на идеальный robots.txt для DLE

User-agent: *

Disallow: /engine/

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

 

На этом форуме вам ответят, что правильный! Дилемма.

Хотя, если вы свой вопрос на другом форуме, поставили таким же образом, то наши ответы верны. ))

Link to post
Share on other sites
  • VIP

В "правильном" роботсе должны прописаны отдельно правила для: Яндекс, Гугл и остальных пауков. Итого 3 блока правил.

 

Почему? Потому что:

 

Директиву host понимает только Яндекс, crawl-delay тоже относится к Яндексу.

Гугл просит открыть для индексации файлы css.

 

В общем, изучайте материалы в Сети и смотрите, как составлен robots на других сайтах на DLE.

Link to post
Share on other sites

Вообще каждый роботст делается под себя, есть конечно стандартные правила как написано выше, но допустим Вы хотите закрыть страницу с каким то товаром, или поставили модуль который генерит то чего не хотелось (его тоже закрываем) сначала надо задачу поставить что закрыть, а что нет.

Link to post
Share on other sites
  • VIP

Забудьте про Алаева. Закройте все страницы, которые не имеют ценности для посетителей, это форма обратной связи, правила, /page/ страницы, профили пользователей и т.д. Оставьте только, контент, категории и если у вас коммерческая тематика, то контакты и "о нас". 

 

Вот, у меня на DLE:

User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*page/
Disallow: /print/
Disallow: /tags/
Disallow: /admin.php?mod=main
Disallow: /backup/
Disallow: /engine/
Disallow: /index.php?do=search
Disallow: /page/
Disallow: /admin.php
Disallow: /lastnews/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: /2017/
Disallow: /index.php?do=lastnews
Disallow: /index.php?do=rules

Host: бла бла .ru
Sitemap: http://бла бла .ru/sitemap.xml
Link to post
Share on other sites
  • VIP

 

Забудьте про Алаева. Закройте все страницы, которые не имеют ценности для посетителей, это форма обратной связи, правила, /page/ страницы, профили пользователей и т.д. Оставьте только, контент, категории и если у вас коммерческая тематика, то контакты и "о нас". 

 

Вот, у меня на DLE:

Disallow: /index.php?do=rules

Host: бла бла .ru
Sitemap: http://бла бла .ru/sitemap.xml

Правило Host прописывается только для паука Яндекса слитно с блоком остальных правил, а не как у вас.

Link to post
Share on other sites

Правило Host прописывается только для паука Яндекса слитно с блоком остальных правил, а не как у вас.

В этом нет ничего страшного, яндекс и так поймет. Но вообще желательно использовать юзер агент яндекса в роботсе.

Link to post
Share on other sites

/page/ страницы - смысл закрывать? перелинковку нарушит, у Алаева как раз для ДЛЕ все хорошо расписано, другое дело, что способы другие есть.

Разве закрытые от индексации страницы не передают вес? А смысл оставлять эти страницы в индексе? Или вы думаете что у вас все идеально с перелинковкой? Без использования дополнительных скриптов аякс сомневаюсь, что выйдет правильно распределить вес даже с открытыми для индексации страниц пагинации.

Link to post
Share on other sites
  • VIP

В этом нет ничего страшного, яндекс и так поймет. Но вообще желательно использовать юзер агент яндекса в роботсе.

А потом вопросы возникают, - почему Яндекс неправильно выбрал главное зеркало, почему индексируются страницы, которые закрыты в роботсе и т.д. Не нужно надеяться на авось, нужно изначально делать правильно.

Link to post
Share on other sites

А потом вопросы возникают, - почему Яндекс неправильно выбрал главное зеркало, почему индексируются страницы, которые закрыты в роботсе и т.д. Не нужно надеяться на авось, нужно изначально делать правильно.

Простите, но это смешно. Изучайте,  https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xmlСоветую обратить внимание на цитату:

 

 

Тем не менее директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

Link to post
Share on other sites

В "правильном" роботсе должны прописаны отдельно правила для: Яндекс, Гугл и остальных пауков. Итого 3 блока правил.

 

Почему? Потому что:

 

Директиву host понимает только Яндекс, crawl-delay тоже относится к Яндексу.

Гугл просит открыть для индексации файлы css.

 

В общем, изучайте материалы в Сети и смотрите, как составлен robots на других сайтах на DLE.

Можно пример robots-а?

Link to post
Share on other sites

Можно пример robots-а?

User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /uploads/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /statistics.html

User-agent: Yandex
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /uploads/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /statistics.html

Host: Ваш_сайт
Sitemap: http://Ваш_сайт/sitemap.xml
Link to post
Share on other sites
  • VIP

Ничего не нарушается, не надо умничать. На DLE page страницы являются дублями, опять же у всех по разному, мне такой robotx.txt больше подходит. 

Узнавал у Платона про отдельный User agents для Яндекс робота, делать это, не обязательно, а точнее вообще не надо, робот и так понимает.

 

P.S У меня Google вебмастер показал, что /page/ являются дублями главной страницы или например /page/1 является дублем /page/2.

Link to post
Share on other sites
  • VIP

Простите, но это смешно. Изучайте,  https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xmlСоветую обратить внимание на цитату:

Когда просмеетесь, изучите это (чуть выше):

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавить в группу, которая начинается с записи User-Agent, непосредственно после директив Disallow и Allow). Аргументом директивы Host является доменное имя с номером порта (по умолчанию 80), отделенным двоеточием.

 

Нет гарантии, что паук другой поисковой системы, наткнувшись на эту директиву, не поймет ее по-своему. Если она чисто для Яндекса, так и прилепите ее в блок правил для Яндекса. Хотя ладно, лепите где хотите, но другим не советуйте.

Link to post
Share on other sites

Ничего не нарушается, не надо умничать. На DLE page страницы являются дублями, опять же у всех по разному, мне такой robotx.txt больше подходит. 

 

Узнавал у Платона про отдельный User agents для Яндекс робота, делать это, не обязательно, а точнее вообще не надо, робот и так понимает.

 

P.S У меня Google вебмастер показал, что /page/ являются дублями главной страницы или например /page/1 является дублем /page/2.

Все бы хорошо, но на page 1 линков вообще не должно быть + надо оптимизировать правильно. Каждому свое, сказал свое мнение - подтвержденное личными исследованиями.

Link to post
Share on other sites

От индекса мета тегами лучше закрывать, роботс это конечно хорошо, но бывает, что поисковики на него не сильно смотрят и кое-когда проскакивают страницы. 

Link to post
Share on other sites

 

 

Вот, у меня на DLE:

User-agent: *
....
Disallow: /admin.php?mod=main
Disallow: /backup/
Disallow: /engine/
Disallow: /index.php?do=search
Disallow: /page/
Disallow: /admin.php
....
Host: бла бла .ru
Sitemap: http://бла бла .ru/sitemap.xml

Ух какой молодец! Может еще подскажешь ссылку на сайт? Чтоб люди тебя взломали хорошенько!

Кто же закрывает от индексации админ. панель? Она сама по себе закрыта!

Возможно уже кто-то пытается Вас взломать.

Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...