Jump to content
bandesign

Помогите разобраться с закрытием дублей в robots.txt

Recommended Posts

Ребят, такая проблемма. Решил закрыть дубли страниц в роботсе, но столкнулся с непонятной для меня проблеммой.

 

Допустим закрываю я вот такую ссылку:

Disallow: /portfolio.php?work=225&s=1

 

Проверяю её через "посмотреть как гуглбот" он пишет что она закрыта, всё ОК.

 

Но! если проверить /portfolio.php?work=225&s=1&ss=3 то она тоже закрыта, и при проверке роботс ссылается на Disallow: /portfolio.php?work=225&s=1

Получается я одним запретом закрыл обе страницы дубля а не одну, как быть в такой ситуации, почему гуглбот не учитывает точное вхождение ссылки?

Share this post


Link to post
Share on other sites

Пока вы не предоставите ваш роботс полностью, сказать что-то конкретное сложно,ведь за закрытие второй может отвечать другое правило в роботсе

Share this post


Link to post
Share on other sites

Пока вы не предоставите ваш роботс полностью, сказать что-то конкретное сложно,ведь за закрытие второй может отвечать другое правило в роботсе

Вот роботс - bandesign.ru/robots.txt

Share this post


Link to post
Share on other sites

У вас все сложно...

Глянул навскидку бррр жуть....

Весь сайт в одном урле уместился , ну и попробуй сейчас разгрести эти все... &ss 0 &s=

Поисковик концовки будет клеить как мусор , нравится вам это или нет но уж как есть.

Вам роботс нужно делать тщательно исходя из таких урлов считай постранично, а вот как это делать чтоб не клеилось ? немогу сказать ... нужно брать и тестить каждый урл с учетом предыдущих деректив . Жесть ... давненько не видел такого, не позавидуеш.

Share this post


Link to post
Share on other sites

 Жесть ... давненько не видел такого, не позавидуеш.

Ну на мой взгляд ни чего сложного :), в чем конкретно жесть?

Роботс и делаю постранично как видите, но вот столкнулся с проблемой о которой изложил тут.

Как тестить каждый урл с учетом предыдущих директив?

 

Что ещё можете посоветовать?

 

Кстати, сейчас проверил, если закрыть для примера /portfolio.php?work=87&s=2  &ss=0   то она закрыта, а /portfolio.php?work=87&s=2 открыта

Share this post


Link to post
Share on other sites

Как тестить каждый урл с учетом предыдущих директив?

https://www.google.com/webmasters/tools/robots-testing-tool

 

Добавляете свой сайт, и проверяете каждый url вручную. 

 

130d050cd5734f54a91c392fd74fd32c.png

Share this post


Link to post
Share on other sites

https://www.google.com/webmasters/tools/robots-testing-tool

 

Добавляете свой сайт, и проверяете каждый url вручную. 

Ну а какой в этом смысл? Я и так прекрасно знаю что закрыто на данный момент, думал что можно как-то роботу указать на "полность" ссылки, а видимо нет, т.к. мне сказали тут что он это считает мусором, теперь я встал перед вопросом - как быть? :)

Share this post


Link to post
Share on other sites

теперь я встал перед вопросом - как быть? :)

Таки сделать сайту нормальные ЧПУ и проблема решится сама собой ;)

Share this post


Link to post
Share on other sites

Если вы можете чудесным образом найти и отловить у себя /portfolio.php?work=225&s=1&ss=3 такой левак, тогда просто тег в шапку захерачте запретный .<meta name="robots" content="noindex, nofollow">

В итоге первое роботс убьет второе тег и все на этом.(только сомневаюсь что отловите)

Больше на данный момент нет идей , вообще в ваше хазяйство нужно вникать и дотошно чтоб понять что правильно,а что грех. Ну пока так...

 

Имейте в виду чтоб тег сработал стр должна быть открыта роботсом, в общем не париь гарячку, а все поштучно проверять раз такая шляпа. 

Share this post


Link to post
Share on other sites

Тег в шапку внедрить не могу, так как страница генерируется пхп кодом, то есть CMS так построена...

Сейчас я вижу вариант "обрубания" дублей с длинным хвостом в роботс, "короткие" сами по себе останутся, не хотелось бы конечно этого, т.к. в поиске немного из других подразделов страницы будут выдаваться, но всё же видимо прийдется. Или переписывать CMS сайта, но это вообще всё перелопатить, т.к. с проггером связи нет давным давно, если просить нового то ему во все это вникать очень долго (если заного) и с сохранением проиндексированной структуры сайта. Вот такие дела вообщем.

Share this post


Link to post
Share on other sites

Тег в шапку внедрить не могу, так как страница генерируется пхп кодом, то есть CMS так построена...

Сейчас я вижу вариант "обрубания" дублей с длинным хвостом в роботс, "короткие" сами по себе останутся, не хотелось бы конечно этого, т.к. в поиске немного из других подразделов страницы будут выдаваться, но всё же видимо прийдется. Или переписывать CMS сайта, но это вообще всё перелопатить, т.к. с проггером связи нет давным давно, если просить нового то ему во все это вникать очень долго (если заного) и с сохранением проиндексированной структуры сайта. Вот такие дела вообщем.

Да кому это вообще упало переписывать двиг? посадить на готовый , нормальные чпу сделать и все дела. Благо 2000-чные ушли и движков нормальных хватает. Проиндексорованное перенаправить и все на этом.

Это конечно имеет смысл если сайт будет развиваться ,а если нет тогда и так норм.

Share this post


Link to post
Share on other sites

Можно ли автоматом в роботс присвоить Disallow:  для страниц в ссылках которых встречается комбинация &ss=

Реально ли это как-то автоматизировать, чтобы каждую постоянно не забивать вручную?

Share this post


Link to post
Share on other sites

Можно ли автоматом в роботс присвоить Disallow:  для страниц в ссылках которых встречается комбинация &ss=

Реально ли это как-то автоматизировать, чтобы каждую постоянно не забивать вручную?

Disallow: /*&ss=

любая ссылка где встретится это будет запрещена к индексу, в вашем случае с этим нужно быть осторожным , у вас весь сайт с одного урла состоит.

Такая манипуляция может пол сайта угрохать, в общем смотреть нужно тщательно чтоб нужного не порезало

Share this post


Link to post
Share on other sites

Пошел по пути запрещения ссылок с динной "бородой", то есть для примера запрещаю к регистрации /portfolio.php?work=104&s=1&ss=1 но при проверке sitemap.xml он говорит что запрещен урл /portfolio.php?work=104&s=1

То есть он их видимо считает одинаковыми ссылками.

 

Скорее всего директива Disallow: /*&ss= тут будет не уместна, результат будет такой же или нет?

И да, вы правы по поводу что может угрохать половину сайта, так как есть несколько "общих" страниц в урл которых входит *&ss=

Подскажите можно ли прописать сначала Disallow: /*&ss= а после Allow: /с перечислением нужных для регистрации урлов

То есть:

Disallow: /*&ss=

Allow: /portfolio.php?s=1&ss=6 - эти страницы как правило без слова work в урле, и их не больше 10.

 

Практикуется ли такое?

 

UPD

На данный момент закрыты вручную урлы с "бородой". Залил роботс, залил новый сайтмап.xml, гугл консоль пишет 37 предупреждений о том что ссылки типа /portfolio.php?work=104&s=1 (то есть без бороды с &ss= ) заблокированы в роботс.тхт

Далее иду в Инструмент проверки файла роботс где ввожу portfolio.php?work=104&s=1 на который он ругался, но пишет Доступен, а если проверить portfolio.php?work=104&s=1&ss=1 (с бородой ss), то он Заблокирован.

Далее захожу в Посмотреть как гуглбот ввожу ту же ссылку и нажимаю на Сканирование, пишет Готово, после чего жму для той же ссылки Получить и отобразить, пишет Частично выполнено

 

После этих манипуляций я не очень понимаю противоречий самой гугл консоли, то она пишет 37 ошибок, но при проверке они проходят, а ссылка которую запретил в роботс, соответственно запрещена. Где логика?

Share this post


Link to post
Share on other sites

Мой совет - сделать нормальные чпу - плюсов куча, если не знаете как обратитесь к специалисту - раз заплатите и дальше не будете мучаться...

Share this post


Link to post
Share on other sites

Это крайний вариант, не думаю что так всё плачевно, возможно есть пути и покороче и без накладов финансовых.

Share this post


Link to post
Share on other sites

Это крайний вариант, не думаю что так всё плачевно, возможно есть пути и покороче и без накладов финансовых.

адреса url имеет вес при ранжировании сайта - сделать ЧПУ - вы убиваете двух зайцев - не нужно мудрить с роботс и плюс в продвижении. Заплатите - но оно того стоит (быстрее выйдете в топ и окупите свои затраты)...

Share this post


Link to post
Share on other sites

Не очень понял вас по поводу адресов урл, которые имеют вес, а такой адрес как сейчас что не имеет веса? Имеет на мой взгляд, и ни чуть не меньше других.

Share this post


Link to post
Share on other sites

Продолжил работу :)

Сейчас сделал вот так:

 

Disallow: /*ss=*
Allow: /*p=*
Allow: /portfolio.php?s=0&ss=0
Allow: /portfolio.php?s=0&ss=1
Allow: /portfolio.php?s=1&ss=0
Allow: /portfolio.php?s=1&ss=1
Allow: /portfolio.php?s=1&ss=4
Allow: /portfolio.php?s=1&ss=7
Allow: /portfolio.php?s=1&ss=5
Allow: /portfolio.php?s=1&ss=2
Allow: /portfolio.php?s=1&ss=3
Allow: /portfolio.php?s=1&ss=6
Allow: /portfolio.php?s=2&ss=0
Allow: /portfolio.php?s=2&ss=1
Allow: /portfolio.php?s=2&ss=2
Allow: /portfolio.php?s=2&ss=3

 

То есть закрыл все ссылки где встречается ss= и открыл несколько конкретных, которые нужны. Так же открыл p= это номер страницы, то есть ссылка типа /portfolio.php?s=0&ss=1&p=1 будет тоже открыта, если я правильно понимаю?

Подскажите всё ли я верно сделал?

И ещё вопрос, можно ли как-то "зашаблонить" список allow, который написал выше, то есть к примеру поставить шаблон для Allow: /portfolio.php?s=символ&ss=символ

таким образом всё автоматизируется, подскажите пожалуйста как правильно это сделать?

Share this post


Link to post
Share on other sites

bandesign вам Не мешало бы изучить правила форума.

Пост № 14 - применение красного цвета.

Пост № 18 и следующий за ним пост № 19 - поднятие темы более одного раза в сутки.

Итог плачевный - 2 предупреждения в одной теме за один день.

Share this post


Link to post
Share on other sites

bandesign вам Не мешало бы изучить правила форума.

Пост № 14 - применение красного цвета.

Пост № 18 и следующий за ним пост № 19 - поднятие темы более одного раза в сутки.

Итог плачевный - 2 предупреждения в одной теме за один день.

Извиняюсь, исправлюсь, не думал что так всё критично.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...