maxville

Блокировка доступа к сайту от сайтов специализирующихся на сео анализе

16 posts in this topic

Товарищи, можно ли как-то исключить возможность сравнивать определённый сайт, с другими сайтам в сервисах анализа сайтов.
Например, тот же pr-cy чтобы не мог сканировать мой сайт, и ему подобные.

Не люблю когда мой сайт "потрашат" какие-то сеошники конкурентов.

Share this post


Link to post
Share on other sites

Можно закрыть доступ к сайту для известных ботов всяких сервисов в файле .htaccess
По типу:

RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule ^.* - [F,L]

Где SemrushBot - имя юзер-агента.
Необходимо знать только имена юзер-агентов сервисов и держать их в актуальном состоянии (иногда могут меняться).

Можно для тех же юзер-агентов еще для верности закрыть доступ в роботсе.
 

Share this post


Link to post
Share on other sites
Только что, Eserador сказал:

Можно закрыть доступ к сайту для известных ботов всяких сервисов в файле .htaccess
По типу:

RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule ^.* - [F,L]

Где SemrushBot - имя юзер-агента.
Необходимо знать только имена юзер-агентов сервисов и держать их в актуальном состоянии (иногда могут меняться).

Можно для тех же юзер-агентов еще для верности закрыть доступ в роботсе.
 

Для лиги лени, можно ссыль или список юзерагент таких серсивов? Авось есть у кого под рукой?

Share this post


Link to post
Share on other sites
Только что, SEO Thresh сказал:

Для лиги лени, можно ссыль или список юзерагент таких серсивов? Авось есть у кого под рукой?

у меня есть, где-то недавно и откопал, но это не спасает :) тк не все боты известны

# Блокируем плохие боты
SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|Aport|asterias|BDCbot|Birubot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|ProWebWalker|ptd-crawler|Purebot|PycURL|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wget|WordPress|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot
Deny from env=bad_bot

 

SEO Thresh likes this

Share this post


Link to post
Share on other sites
Только что, maxville сказал:

у меня есть, где-то недавно и откопал, но это не спасает :) тк не все боты известны


# Блокируем плохие боты
SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|Aport|asterias|BDCbot|Birubot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|ProWebWalker|ptd-crawler|Purebot|PycURL|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wget|WordPress|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot
Deny from env=bad_bot

 

Ну вот мб у кого-то есть максимально актуальные?)

Share this post


Link to post
Share on other sites
1 минуту назад, SEO Thresh сказал:

Ну вот мб у кого-то есть максимально актуальные?)

те которые были у меня, актуальны на январь 2019, но ежедневно ко мне всё равно кто-то попадает даже через pr-cy, и различных ресурсов для заказа и рерайтинга статей, типа:
text.ru
content-online.ru
etxt.ru
и т.д.
Закрывать доступы просто по IP, как-то грубо..

Share this post


Link to post
Share on other sites
Только что, maxville сказал:

те которые были у меня, актуальны на январь 2019, но ежедневно ко мне всё равно кто-то попадает даже через pr-cy, и различных ресурсов для заказа и рерайтинга статей, типа:
text.ru
content-online.ru
etxt.ru
и т.д.
Закрывать доступы просто по IP, как-то грубо..

Понял, спс!

Share this post


Link to post
Share on other sites
2 минуты назад, SEO Thresh сказал:

Для лиги лени, можно ссыль или список юзерагент таких серсивов? Авось есть у кого под рукой?

Я когда-то в инете встречал более-менее большие списки, но не знаю, насколько они сейчас актуальны.
Сейчас закрываем доступ только к этим:
AhrefsBot
SemrushBot
SemrushBot/3~bl
MJ12bot
MJ12bot/v1.4.8

Но вот нашел еще, vituson писал:

И files
https://seo-zona.ru/badbot
тут можно, если что, повытаскивать имена.

SEO Thresh likes this

Share this post


Link to post
Share on other sites
5 минут назад, Eserador сказал:

https://seo-zona.ru/badbot
тут можно, если что, повытаскивать имена.

я как раз свой список и создавал на основе этой статьи =)

Share this post


Link to post
Share on other sites

Вы можете запретить переходы с сайтов типа text.ru, инструкции по настройке htaccess есть в гугле

Вы можете запретить анализ сайта через prcy и пр.

Но вы никак не сможете запретить анализ своего сайта более-менее серьезным сео-софтом, т.к. он позволяет представляться хоть гуглом, хоть яндексом

Share this post


Link to post
Share on other sites
5 минут назад, petroff сказал:

т.к. он позволяет представляться хоть гуглом, хоть яндексом

Насколько я понимаю, гугл и яндекс не даёт доступ к той же панели вебмастера "третьим лицам", без разрешения самого вебмастера. Поэтому, как этот доступ может кому-то предоставляться без моего ведома? Почему я в вебмастере от яндекса и в гугл аналитике не вижу анализа похожих сайтов для сравнения?

Я вообще считаю деятельность сайтов, которые своими ботами (или чем-то там еще) анализируют чужое детище в интересах третьих лиц, абсолютно незаконным. Это как, например, нашему ОАК давать возможность свободно шариться с "бумажками" технологических процессов производства компаний Боинг и Локхид Мартин.

Добавить бы пару статеек в УК РФ насчёт всех подобных ресурсов и в бан их, или как минимум, предоставлять информацию только непосредственно владельцу без возможности сравнения с конкурентами. А кому сильно надо, пусть "ручками" сидят и перебирают каждую страничку своего конкурента. Может ЗП сеошников выше станет =))  Извиняюсь за оффтоп.

Share this post


Link to post
Share on other sites
1 час назад, maxville сказал:

Насколько я понимаю, гугл и яндекс не даёт доступ к той же панели вебмастера "третьим лицам", без разрешения самого вебмастера.

В User-Agent, как и в Referer можно подставлять что угодно. Эта информация не является достоверной. Поэтому реальные Гугл и Яндекс здесь не причем.

Share this post


Link to post
Share on other sites
31 минуту назад, WebProger сказал:

В User-Agent, как и в Referer можно подставлять что угодно. Эта информация не является достоверной. Поэтому реальные Гугл и Яндекс здесь не причем.

Не совсем понял смысл вашего комментария.

Я то как раз против гугла и яндекса ничего не имею. Это товарищ petroff утверждает, что яндекс и гугл предоставляет полученные данные для " более-менее серьезного сео-софта".

Share this post


Link to post
Share on other sites
1 час назад, maxville сказал:

Я то как раз против гугла и яндекса ничего не имею. Это товарищ petroff утверждает, что яндекс и гугл предоставляет полученные данные для " более-менее серьезного сео-софта".

Вы неверно поняли.
Есть софт, где в имя юзер-агента для сканирования ним сайта можно написать все что угодно. Пользователь сам задет это имя.

Share this post


Link to post
Share on other sites
1 час назад, maxville сказал:

Не совсем понял смысл вашего комментария.

Я то как раз против гугла и яндекса ничего не имею. Это товарищ petroff утверждает, что яндекс и гугл предоставляет полученные данные для " более-менее серьезного сео-софта".

Где я такое утверждал? Я написал, что серьезные анализаторы могут представиться кем угодно, т.е. зайти под любым юзер-агентом

А в htacces вы блочите именно user-agent

Share this post


Link to post
Share on other sites

Извиняюсь, не так вас понял. Теперь ясно.

Значит с блокировкой не так всё просто :(

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!


Register a new account

Sign in

Already have an account? Sign in here.


Sign In Now

  • Recently Browsing   0 members

    No registered users viewing this page.