Fame 1 Posted November 1, 2016 Report Share Posted November 1, 2016 Приветствую всех. Подскажите, знающие люди, какой должен быть файл robots.txt? На одном форуме в оценку моего сайта сказали, что у меня он не правильный. Я свой сделал как писал Алаев. Временно переключимся — смотрите на идеальный robots.txt для DLE User-agent: *Disallow: /engine/ Host: site.ruSitemap: http://site.ru/sitemap.xml Link to post Share on other sites
Volk36 131 Posted November 1, 2016 Report Share Posted November 1, 2016 Правильный - это когда то, что не нужно пользователям закрыто от индексации, а то что нужно открыто. Link to post Share on other sites
tvskit 259 Posted November 1, 2016 Report Share Posted November 1, 2016 Приветствую всех. Подскажите, знающие люди, какой должен быть файл robots.txt? На одном форуме в оценку моего сайта сказали, что у меня он не правильный. Я свой сделал как писал Алаев. Временно переключимся — смотрите на идеальный robots.txt для DLE User-agent: *Disallow: /engine/ Host: site.ru Sitemap: http://site.ru/sitemap.xml На этом форуме вам ответят, что правильный! Дилемма. Хотя, если вы свой вопрос на другом форуме, поставили таким же образом, то наши ответы верны. )) Link to post Share on other sites
VIP vituson 675 Posted November 1, 2016 VIP Report Share Posted November 1, 2016 В "правильном" роботсе должны прописаны отдельно правила для: Яндекс, Гугл и остальных пауков. Итого 3 блока правил. Почему? Потому что: Директиву host понимает только Яндекс, crawl-delay тоже относится к Яндексу. Гугл просит открыть для индексации файлы css. В общем, изучайте материалы в Сети и смотрите, как составлен robots на других сайтах на DLE. ToneR 1 Link to post Share on other sites
kuzovbmw 586 Posted November 1, 2016 Report Share Posted November 1, 2016 Вообще каждый роботст делается под себя, есть конечно стандартные правила как написано выше, но допустим Вы хотите закрыть страницу с каким то товаром, или поставили модуль который генерит то чего не хотелось (его тоже закрываем) сначала надо задачу поставить что закрыть, а что нет. Link to post Share on other sites
workmaster95 340 Posted November 1, 2016 Report Share Posted November 1, 2016 У того же алаева написано, что делать со страницами, которые не нужны в индексе, касательно DLE - говорит по делу. Link to post Share on other sites
VIP sokolokaa 634 Posted November 1, 2016 VIP Report Share Posted November 1, 2016 Забудьте про Алаева. Закройте все страницы, которые не имеют ценности для посетителей, это форма обратной связи, правила, /page/ страницы, профили пользователей и т.д. Оставьте только, контент, категории и если у вас коммерческая тематика, то контакты и "о нас". Вот, у меня на DLE: User-agent: * Disallow: /engine/go.php Disallow: /engine/download.php Disallow: /user/ Disallow: /newposts/ Disallow: /statistics.html Disallow: /*subaction=userinfo Disallow: /*subaction=newposts Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm Disallow: /*page/ Disallow: /print/ Disallow: /tags/ Disallow: /admin.php?mod=main Disallow: /backup/ Disallow: /engine/ Disallow: /index.php?do=search Disallow: /page/ Disallow: /admin.php Disallow: /lastnews/ Disallow: /2014/ Disallow: /2015/ Disallow: /2016/ Disallow: /2017/ Disallow: /index.php?do=lastnews Disallow: /index.php?do=rules Host: бла бла .ru Sitemap: http://бла бла .ru/sitemap.xml ToneR 1 Link to post Share on other sites
workmaster95 340 Posted November 1, 2016 Report Share Posted November 1, 2016 /page/ страницы - смысл закрывать? перелинковку нарушит, у Алаева как раз для ДЛЕ все хорошо расписано, другое дело, что способы другие есть. Link to post Share on other sites
VIP vituson 675 Posted November 1, 2016 VIP Report Share Posted November 1, 2016 Забудьте про Алаева. Закройте все страницы, которые не имеют ценности для посетителей, это форма обратной связи, правила, /page/ страницы, профили пользователей и т.д. Оставьте только, контент, категории и если у вас коммерческая тематика, то контакты и "о нас". Вот, у меня на DLE: Disallow: /index.php?do=rules Host: бла бла .ru Sitemap: http://бла бла .ru/sitemap.xml Правило Host прописывается только для паука Яндекса слитно с блоком остальных правил, а не как у вас. Link to post Share on other sites
ToneR 249 Posted November 1, 2016 Report Share Posted November 1, 2016 Правило Host прописывается только для паука Яндекса слитно с блоком остальных правил, а не как у вас. В этом нет ничего страшного, яндекс и так поймет. Но вообще желательно использовать юзер агент яндекса в роботсе. witosp 1 Link to post Share on other sites
ToneR 249 Posted November 1, 2016 Report Share Posted November 1, 2016 /page/ страницы - смысл закрывать? перелинковку нарушит, у Алаева как раз для ДЛЕ все хорошо расписано, другое дело, что способы другие есть. Разве закрытые от индексации страницы не передают вес? А смысл оставлять эти страницы в индексе? Или вы думаете что у вас все идеально с перелинковкой? Без использования дополнительных скриптов аякс сомневаюсь, что выйдет правильно распределить вес даже с открытыми для индексации страниц пагинации. Link to post Share on other sites
Fame 1 Posted November 1, 2016 Author Report Share Posted November 1, 2016 А можно пример robots-a? Link to post Share on other sites
VIP vituson 675 Posted November 1, 2016 VIP Report Share Posted November 1, 2016 В этом нет ничего страшного, яндекс и так поймет. Но вообще желательно использовать юзер агент яндекса в роботсе. А потом вопросы возникают, - почему Яндекс неправильно выбрал главное зеркало, почему индексируются страницы, которые закрыты в роботсе и т.д. Не нужно надеяться на авось, нужно изначально делать правильно. Link to post Share on other sites
ToneR 249 Posted November 1, 2016 Report Share Posted November 1, 2016 А потом вопросы возникают, - почему Яндекс неправильно выбрал главное зеркало, почему индексируются страницы, которые закрыты в роботсе и т.д. Не нужно надеяться на авось, нужно изначально делать правильно. Простите, но это смешно. Изучайте, https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xmlСоветую обратить внимание на цитату: Тем не менее директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана. witosp 1 Link to post Share on other sites
Fame 1 Posted November 1, 2016 Author Report Share Posted November 1, 2016 В "правильном" роботсе должны прописаны отдельно правила для: Яндекс, Гугл и остальных пауков. Итого 3 блока правил. Почему? Потому что: Директиву host понимает только Яндекс, crawl-delay тоже относится к Яндексу. Гугл просит открыть для индексации файлы css. В общем, изучайте материалы в Сети и смотрите, как составлен robots на других сайтах на DLE. Можно пример robots-а? Link to post Share on other sites
ToneR 249 Posted November 1, 2016 Report Share Posted November 1, 2016 Можно пример robots-а? User-agent: * Disallow: /*print Disallow: /user/ Disallow: /backup/ Disallow: /engine/ Disallow: /language/ Disallow: /templates/ Disallow: /upgrade/ Disallow: /uploads/ Disallow: /autobackup.php Disallow: /admin.php Disallow: /index.php?do=addnews Disallow: /index.php?do=feedback Disallow: /index.php?do=lostpassword Disallow: /index.php?do=pm Disallow: /index.php?do=register Disallow: /index.php?do=stats Disallow: /index.php?do=search Disallow: /index.php?subaction=newposts Disallow: /?do=lastcomments Disallow: /statistics.html User-agent: Yandex Disallow: /*print Disallow: /user/ Disallow: /backup/ Disallow: /engine/ Disallow: /language/ Disallow: /templates/ Disallow: /upgrade/ Disallow: /uploads/ Disallow: /autobackup.php Disallow: /admin.php Disallow: /index.php?do=addnews Disallow: /index.php?do=feedback Disallow: /index.php?do=lostpassword Disallow: /index.php?do=pm Disallow: /index.php?do=register Disallow: /index.php?do=stats Disallow: /index.php?do=search Disallow: /index.php?subaction=newposts Disallow: /?do=lastcomments Disallow: /statistics.html Host: Ваш_сайт Sitemap: http://Ваш_сайт/sitemap.xml witosp 1 Link to post Share on other sites
XEOVO 2 Posted November 1, 2016 Report Share Posted November 1, 2016 Что делает? Clean-param: utm_source&utm_medium&utm_term&utm_campaign / Link to post Share on other sites
VIP sokolokaa 634 Posted November 1, 2016 VIP Report Share Posted November 1, 2016 Ничего не нарушается, не надо умничать. На DLE page страницы являются дублями, опять же у всех по разному, мне такой robotx.txt больше подходит. Узнавал у Платона про отдельный User agents для Яндекс робота, делать это, не обязательно, а точнее вообще не надо, робот и так понимает. P.S У меня Google вебмастер показал, что /page/ являются дублями главной страницы или например /page/1 является дублем /page/2. ToneR and workmaster95 2 Link to post Share on other sites
VIP vituson 675 Posted November 1, 2016 VIP Report Share Posted November 1, 2016 Простите, но это смешно. Изучайте, https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xmlСоветую обратить внимание на цитату: Когда просмеетесь, изучите это (чуть выше): В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавить в группу, которая начинается с записи User-Agent, непосредственно после директив Disallow и Allow). Аргументом директивы Host является доменное имя с номером порта (по умолчанию 80), отделенным двоеточием. Нет гарантии, что паук другой поисковой системы, наткнувшись на эту директиву, не поймет ее по-своему. Если она чисто для Яндекса, так и прилепите ее в блок правил для Яндекса. Хотя ладно, лепите где хотите, но другим не советуйте. Link to post Share on other sites
anton.abr 8 Posted November 3, 2016 Report Share Posted November 3, 2016 Вот инструкция от Яндекса о правильном составлении robots.txt - https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml witosp 1 Link to post Share on other sites
raynar 94 Posted November 3, 2016 Report Share Posted November 3, 2016 сайтмап палить не надо в роботсе, вчера же писали уже и хостс указывать не надо, если у вас не сайт на мильярд страниц Link to post Share on other sites
workmaster95 340 Posted November 3, 2016 Report Share Posted November 3, 2016 Ничего не нарушается, не надо умничать. На DLE page страницы являются дублями, опять же у всех по разному, мне такой robotx.txt больше подходит. Узнавал у Платона про отдельный User agents для Яндекс робота, делать это, не обязательно, а точнее вообще не надо, робот и так понимает. P.S У меня Google вебмастер показал, что /page/ являются дублями главной страницы или например /page/1 является дублем /page/2. Все бы хорошо, но на page 1 линков вообще не должно быть + надо оптимизировать правильно. Каждому свое, сказал свое мнение - подтвержденное личными исследованиями. witosp 1 Link to post Share on other sites
Shnapik 108 Posted November 3, 2016 Report Share Posted November 3, 2016 От индекса мета тегами лучше закрывать, роботс это конечно хорошо, но бывает, что поисковики на него не сильно смотрят и кое-когда проскакивают страницы. ToneR 1 Link to post Share on other sites
Дмитринск 0 Posted November 6, 2016 Report Share Posted November 6, 2016 Вот, у меня на DLE: User-agent: * .... Disallow: /admin.php?mod=main Disallow: /backup/ Disallow: /engine/ Disallow: /index.php?do=search Disallow: /page/ Disallow: /admin.php .... Host: бла бла .ru Sitemap: http://бла бла .ru/sitemap.xml Ух какой молодец! Может еще подскажешь ссылку на сайт? Чтоб люди тебя взломали хорошенько! Кто же закрывает от индексации админ. панель? Она сама по себе закрыта! Возможно уже кто-то пытается Вас взломать. Link to post Share on other sites
KORUP 1 Posted November 7, 2016 Report Share Posted November 7, 2016 robots-txt обязателен для сайта? Link to post Share on other sites
Recommended Posts
Please sign in to comment
You will be able to leave a comment after signing in
Sign In Now