Jump to content

Блокировка доступа к сайту от сайтов специализирующихся на сео анализе


Recommended Posts

Товарищи, можно ли как-то исключить возможность сравнивать определённый сайт, с другими сайтам в сервисах анализа сайтов.
Например, тот же pr-cy чтобы не мог сканировать мой сайт, и ему подобные.

Не люблю когда мой сайт "потрашат" какие-то сеошники конкурентов.

Link to post
Share on other sites

Можно закрыть доступ к сайту для известных ботов всяких сервисов в файле .htaccess
По типу:

RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule ^.* - [F,L]

Где SemrushBot - имя юзер-агента.
Необходимо знать только имена юзер-агентов сервисов и держать их в актуальном состоянии (иногда могут меняться).

Можно для тех же юзер-агентов еще для верности закрыть доступ в роботсе.
 

Link to post
Share on other sites
Только что, Eserador сказал:

Можно закрыть доступ к сайту для известных ботов всяких сервисов в файле .htaccess
По типу:

RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule ^.* - [F,L]

Где SemrushBot - имя юзер-агента.
Необходимо знать только имена юзер-агентов сервисов и держать их в актуальном состоянии (иногда могут меняться).

Можно для тех же юзер-агентов еще для верности закрыть доступ в роботсе.
 

Для лиги лени, можно ссыль или список юзерагент таких серсивов? Авось есть у кого под рукой?

Link to post
Share on other sites
Только что, SEO Thresh сказал:

Для лиги лени, можно ссыль или список юзерагент таких серсивов? Авось есть у кого под рукой?

у меня есть, где-то недавно и откопал, но это не спасает :) тк не все боты известны

# Блокируем плохие боты
SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|Aport|asterias|BDCbot|Birubot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|ProWebWalker|ptd-crawler|Purebot|PycURL|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wget|WordPress|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot
Deny from env=bad_bot

 

Link to post
Share on other sites
Только что, maxville сказал:

у меня есть, где-то недавно и откопал, но это не спасает :) тк не все боты известны


# Блокируем плохие боты
SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|Aport|asterias|BDCbot|Birubot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|ProWebWalker|ptd-crawler|Purebot|PycURL|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wget|WordPress|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot
Deny from env=bad_bot

 

Ну вот мб у кого-то есть максимально актуальные?)

Link to post
Share on other sites
1 минуту назад, SEO Thresh сказал:

Ну вот мб у кого-то есть максимально актуальные?)

те которые были у меня, актуальны на январь 2019, но ежедневно ко мне всё равно кто-то попадает даже через pr-cy, и различных ресурсов для заказа и рерайтинга статей, типа:
text.ru
content-online.ru
etxt.ru
и т.д.
Закрывать доступы просто по IP, как-то грубо..

Link to post
Share on other sites
Только что, maxville сказал:

те которые были у меня, актуальны на январь 2019, но ежедневно ко мне всё равно кто-то попадает даже через pr-cy, и различных ресурсов для заказа и рерайтинга статей, типа:
text.ru
content-online.ru
etxt.ru
и т.д.
Закрывать доступы просто по IP, как-то грубо..

Понял, спс!

Link to post
Share on other sites
2 минуты назад, SEO Thresh сказал:

Для лиги лени, можно ссыль или список юзерагент таких серсивов? Авось есть у кого под рукой?

Я когда-то в инете встречал более-менее большие списки, но не знаю, насколько они сейчас актуальны.
Сейчас закрываем доступ только к этим:
AhrefsBot
SemrushBot
SemrushBot/3~bl
MJ12bot
MJ12bot/v1.4.8

Но вот нашел еще, vituson писал:

И files
https://seo-zona.ru/badbot
тут можно, если что, повытаскивать имена.

Link to post
Share on other sites

Вы можете запретить переходы с сайтов типа text.ru, инструкции по настройке htaccess есть в гугле

Вы можете запретить анализ сайта через prcy и пр.

Но вы никак не сможете запретить анализ своего сайта более-менее серьезным сео-софтом, т.к. он позволяет представляться хоть гуглом, хоть яндексом

Link to post
Share on other sites
5 минут назад, petroff сказал:

т.к. он позволяет представляться хоть гуглом, хоть яндексом

Насколько я понимаю, гугл и яндекс не даёт доступ к той же панели вебмастера "третьим лицам", без разрешения самого вебмастера. Поэтому, как этот доступ может кому-то предоставляться без моего ведома? Почему я в вебмастере от яндекса и в гугл аналитике не вижу анализа похожих сайтов для сравнения?

Я вообще считаю деятельность сайтов, которые своими ботами (или чем-то там еще) анализируют чужое детище в интересах третьих лиц, абсолютно незаконным. Это как, например, нашему ОАК давать возможность свободно шариться с "бумажками" технологических процессов производства компаний Боинг и Локхид Мартин.

Добавить бы пару статеек в УК РФ насчёт всех подобных ресурсов и в бан их, или как минимум, предоставлять информацию только непосредственно владельцу без возможности сравнения с конкурентами. А кому сильно надо, пусть "ручками" сидят и перебирают каждую страничку своего конкурента. Может ЗП сеошников выше станет =))  Извиняюсь за оффтоп.

Link to post
Share on other sites
1 час назад, maxville сказал:

Насколько я понимаю, гугл и яндекс не даёт доступ к той же панели вебмастера "третьим лицам", без разрешения самого вебмастера.

В User-Agent, как и в Referer можно подставлять что угодно. Эта информация не является достоверной. Поэтому реальные Гугл и Яндекс здесь не причем.

Link to post
Share on other sites
31 минуту назад, WebProger сказал:

В User-Agent, как и в Referer можно подставлять что угодно. Эта информация не является достоверной. Поэтому реальные Гугл и Яндекс здесь не причем.

Не совсем понял смысл вашего комментария.

Я то как раз против гугла и яндекса ничего не имею. Это товарищ petroff утверждает, что яндекс и гугл предоставляет полученные данные для " более-менее серьезного сео-софта".

Link to post
Share on other sites
1 час назад, maxville сказал:

Я то как раз против гугла и яндекса ничего не имею. Это товарищ petroff утверждает, что яндекс и гугл предоставляет полученные данные для " более-менее серьезного сео-софта".

Вы неверно поняли.
Есть софт, где в имя юзер-агента для сканирования ним сайта можно написать все что угодно. Пользователь сам задет это имя.

Link to post
Share on other sites
1 час назад, maxville сказал:

Не совсем понял смысл вашего комментария.

Я то как раз против гугла и яндекса ничего не имею. Это товарищ petroff утверждает, что яндекс и гугл предоставляет полученные данные для " более-менее серьезного сео-софта".

Где я такое утверждал? Я написал, что серьезные анализаторы могут представиться кем угодно, т.е. зайти под любым юзер-агентом

А в htacces вы блочите именно user-agent

Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...