VIP campusboy 912 Posted July 31, 2015 VIP Report Share Posted July 31, 2015 Приветствую, ребята. Решил защититься от ненужных (плохих в данном контексте) пауков/роботов, чтобы снизить нагрузку на сайт, всё равно от них толку-то нет. В интернете, конечно, инфа есть, но возникли вопросы, да и мнение Форумчан интересно. Для начала выложу решения, чтобы было с чем работать. Надеюсь, общими силами сможем списки таких ботов расширить. Итак, один из подобных списков: # Блокируем плохие домены RewriteEngine on RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?anonym.to/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?anonym.to.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?anonyme.ru/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?anonyme.ru.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?priceg.com.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?ilovevitaly.com.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?ilovevitaly.com/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?cenoval.ru/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?cenoval.ru.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?darodar.com.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?darodar.com/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?urls.topdownloads.ru/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?urls.topdownloads.ru.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?topdownloads.ru/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?topdownloads.ru.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?ftns.ru.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?ftns.ru/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?forum.advokateg.ru/topic/888/.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?vodkoved.ru.*$ [NC,OR] RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?site.name.tr/.*$ [NC] Options All -Indexes RewriteEngine on # Блокируем плохие боты SetEnvIfNoCase User-Agent "Aboundex" bad_bot SetEnvIfNoCase User-Agent "80legs" bad_bot SetEnvIfNoCase User-Agent "360Spider" bad_bot SetEnvIfNoCase User-Agent "^Java" bad_bot SetEnvIfNoCase User-Agent "^Cogentbot" bad_bot SetEnvIfNoCase User-Agent "^Alexibot" bad_bot SetEnvIfNoCase User-Agent "^asterias" bad_bot SetEnvIfNoCase User-Agent "^attach" bad_bot SetEnvIfNoCase User-Agent "^BackDoorBot" bad_bot SetEnvIfNoCase User-Agent "^BackWeb" bad_bot SetEnvIfNoCase User-Agent "Bandit" bad_bot SetEnvIfNoCase User-Agent "^BatchFTP" bad_bot SetEnvIfNoCase User-Agent "^Bigfoot" bad_bot SetEnvIfNoCase User-Agent "^Black.Hole" bad_bot SetEnvIfNoCase User-Agent "^BlackWidow" bad_bot SetEnvIfNoCase User-Agent "^BlowFish" bad_bot SetEnvIfNoCase User-Agent "^BotALot" bad_bot SetEnvIfNoCase User-Agent "Buddy" bad_bot SetEnvIfNoCase User-Agent "^BuiltBotTough" bad_bot SetEnvIfNoCase User-Agent "^Bullseye" bad_bot SetEnvIfNoCase User-Agent "^BunnySlippers" bad_bot SetEnvIfNoCase User-Agent "^Cegbfeieh" bad_bot SetEnvIfNoCase User-Agent "^CheeseBot" bad_bot SetEnvIfNoCase User-Agent "^CherryPicker" bad_bot SetEnvIfNoCase User-Agent "^ChinaClaw" bad_bot SetEnvIfNoCase User-Agent "Collector" bad_bot SetEnvIfNoCase User-Agent "Copier" bad_bot SetEnvIfNoCase User-Agent "^CopyRightCheck" bad_bot SetEnvIfNoCase User-Agent "^cosmos" bad_bot SetEnvIfNoCase User-Agent "^Crescent" bad_bot SetEnvIfNoCase User-Agent "^Custo" bad_bot SetEnvIfNoCase User-Agent "^AIBOT" bad_bot SetEnvIfNoCase User-Agent "^DISCo" bad_bot SetEnvIfNoCase User-Agent "^DIIbot" bad_bot SetEnvIfNoCase User-Agent "^DittoSpyder" bad_bot SetEnvIfNoCase User-Agent "^Download\ Demon" bad_bot SetEnvIfNoCase User-Agent "^Download\ Devil" bad_bot SetEnvIfNoCase User-Agent "^Download\ Wonder" bad_bot SetEnvIfNoCase User-Agent "^dragonfly" bad_bot SetEnvIfNoCase User-Agent "^Drip" bad_bot SetEnvIfNoCase User-Agent "^eCatch" bad_bot SetEnvIfNoCase User-Agent "^EasyDL" bad_bot SetEnvIfNoCase User-Agent "^ebingbong" bad_bot SetEnvIfNoCase User-Agent "^EirGrabber" bad_bot SetEnvIfNoCase User-Agent "^EmailCollector" bad_bot SetEnvIfNoCase User-Agent "^EmailSiphon" bad_bot SetEnvIfNoCase User-Agent "^EmailWolf" bad_bot SetEnvIfNoCase User-Agent "^EroCrawler" bad_bot SetEnvIfNoCase User-Agent "^Exabot" bad_bot SetEnvIfNoCase User-Agent "^Express\ WebPictures" bad_bot SetEnvIfNoCase User-Agent "Extractor" bad_bot SetEnvIfNoCase User-Agent "^EyeNetIE" bad_bot SetEnvIfNoCase User-Agent "^Foobot" bad_bot SetEnvIfNoCase User-Agent "^flunky" bad_bot SetEnvIfNoCase User-Agent "^FrontPage" bad_bot SetEnvIfNoCase User-Agent "^Go-Ahead-Got-It" bad_bot SetEnvIfNoCase User-Agent "^gotit" bad_bot SetEnvIfNoCase User-Agent "^GrabNet" bad_bot SetEnvIfNoCase User-Agent "^Grafula" bad_bot SetEnvIfNoCase User-Agent "^Harvest" bad_bot SetEnvIfNoCase User-Agent "^hloader" bad_bot SetEnvIfNoCase User-Agent "^HMView" bad_bot SetEnvIfNoCase User-Agent "^HTTrack" bad_bot SetEnvIfNoCase User-Agent "^humanlinks" bad_bot SetEnvIfNoCase User-Agent "^IlseBot" bad_bot SetEnvIfNoCase User-Agent "^Image\ Stripper" bad_bot SetEnvIfNoCase User-Agent "^Image\ Sucker" bad_bot SetEnvIfNoCase User-Agent "Indy\ Library" bad_bot SetEnvIfNoCase User-Agent "^InfoNaviRobot" bad_bot SetEnvIfNoCase User-Agent "^InfoTekies" bad_bot SetEnvIfNoCase User-Agent "^Intelliseek" bad_bot SetEnvIfNoCase User-Agent "^InterGET" bad_bot SetEnvIfNoCase User-Agent "^Internet\ Ninja" bad_bot SetEnvIfNoCase User-Agent "^Iria" bad_bot SetEnvIfNoCase User-Agent "^Jakarta" bad_bot SetEnvIfNoCase User-Agent "^JennyBot" bad_bot SetEnvIfNoCase User-Agent "^JetCar" bad_bot SetEnvIfNoCase User-Agent "^JOC" bad_bot SetEnvIfNoCase User-Agent "^JustView" bad_bot SetEnvIfNoCase User-Agent "^Jyxobot" bad_bot SetEnvIfNoCase User-Agent "^Kenjin.Spider" bad_bot SetEnvIfNoCase User-Agent "^Keyword.Density" bad_bot SetEnvIfNoCase User-Agent "^larbin" bad_bot SetEnvIfNoCase User-Agent "^LexiBot" bad_bot SetEnvIfNoCase User-Agent "^lftp" bad_bot SetEnvIfNoCase User-Agent "^libWeb/clsHTTP" bad_bot SetEnvIfNoCase User-Agent "^likse" bad_bot SetEnvIfNoCase User-Agent "^LinkextractorPro" bad_bot SetEnvIfNoCase User-Agent "^LinkScan/8.1a.Unix" bad_bot SetEnvIfNoCase User-Agent "^LNSpiderguy" bad_bot SetEnvIfNoCase User-Agent "^LinkWalker" bad_bot SetEnvIfNoCase User-Agent "^lwp-trivial" bad_bot SetEnvIfNoCase User-Agent "^LWP::Simple" bad_bot SetEnvIfNoCase User-Agent "^Magnet" bad_bot SetEnvIfNoCase User-Agent "^Mag-Net" bad_bot SetEnvIfNoCase User-Agent "^MarkWatch" bad_bot SetEnvIfNoCase User-Agent "^Mass\ Downloader" bad_bot SetEnvIfNoCase User-Agent "^Mata.Hari" bad_bot SetEnvIfNoCase User-Agent "^Memo" bad_bot SetEnvIfNoCase User-Agent "^Microsoft.URL" bad_bot SetEnvIfNoCase User-Agent "^Microsoft\ URL\ Control" bad_bot SetEnvIfNoCase User-Agent "^MIDown\ tool" bad_bot SetEnvIfNoCase User-Agent "^MIIxpc" bad_bot SetEnvIfNoCase User-Agent "^Mirror" bad_bot SetEnvIfNoCase User-Agent "^Missigua\ Locator" bad_bot SetEnvIfNoCase User-Agent "^Mister\ PiX" bad_bot SetEnvIfNoCase User-Agent "^moget" bad_bot SetEnvIfNoCase User-Agent "^Mozilla/3.Mozilla/2.01" bad_bot SetEnvIfNoCase User-Agent "^Mozilla.*NEWT" bad_bot SetEnvIfNoCase User-Agent "^NAMEPROTECT" bad_bot SetEnvIfNoCase User-Agent "^Navroad" bad_bot SetEnvIfNoCase User-Agent "^NearSite" bad_bot SetEnvIfNoCase User-Agent "^NetAnts" bad_bot SetEnvIfNoCase User-Agent "^Netcraft" bad_bot SetEnvIfNoCase User-Agent "^NetMechanic" bad_bot SetEnvIfNoCase User-Agent "^NetSpider" bad_bot SetEnvIfNoCase User-Agent "^Net\ Vampire" bad_bot SetEnvIfNoCase User-Agent "^NetZIP" bad_bot SetEnvIfNoCase User-Agent "^NextGenSearchBot" bad_bot SetEnvIfNoCase User-Agent "^NG" bad_bot SetEnvIfNoCase User-Agent "^NICErsPRO" bad_bot SetEnvIfNoCase User-Agent "^niki-bot" bad_bot SetEnvIfNoCase User-Agent "^NimbleCrawler" bad_bot SetEnvIfNoCase User-Agent "^Ninja" bad_bot SetEnvIfNoCase User-Agent "^NPbot" bad_bot SetEnvIfNoCase User-Agent "^Octopus" bad_bot SetEnvIfNoCase User-Agent "^Offline\ Explorer" bad_bot SetEnvIfNoCase User-Agent "^Offline\ Navigator" bad_bot SetEnvIfNoCase User-Agent "^Openfind" bad_bot SetEnvIfNoCase User-Agent "^OutfoxBot" bad_bot SetEnvIfNoCase User-Agent "^PageGrabber" bad_bot SetEnvIfNoCase User-Agent "^Papa\ Foto" bad_bot SetEnvIfNoCase User-Agent "^pavuk" bad_bot SetEnvIfNoCase User-Agent "^pcBrowser" bad_bot SetEnvIfNoCase User-Agent "^PHP\ version\ tracker" bad_bot SetEnvIfNoCase User-Agent "^Pockey" bad_bot SetEnvIfNoCase User-Agent "^ProPowerBot/2.14" bad_bot SetEnvIfNoCase User-Agent "^ProWebWalker" bad_bot SetEnvIfNoCase User-Agent "^psbot" bad_bot SetEnvIfNoCase User-Agent "^Pump" bad_bot SetEnvIfNoCase User-Agent "^QueryN.Metasearch" bad_bot SetEnvIfNoCase User-Agent "^RealDownload" bad_bot SetEnvIfNoCase User-Agent "Reaper" bad_bot SetEnvIfNoCase User-Agent "Recorder" bad_bot SetEnvIfNoCase User-Agent "^ReGet" bad_bot SetEnvIfNoCase User-Agent "^RepoMonkey" bad_bot SetEnvIfNoCase User-Agent "^RMA" bad_bot SetEnvIfNoCase User-Agent "Siphon" bad_bot SetEnvIfNoCase User-Agent "^SiteSnagger" bad_bot SetEnvIfNoCase User-Agent "^SlySearch" bad_bot SetEnvIfNoCase User-Agent "^SmartDownload" bad_bot SetEnvIfNoCase User-Agent "^Snake" bad_bot SetEnvIfNoCase User-Agent "^Snapbot" bad_bot SetEnvIfNoCase User-Agent "^Snoopy" bad_bot SetEnvIfNoCase User-Agent "^sogou" bad_bot SetEnvIfNoCase User-Agent "^SpaceBison" bad_bot SetEnvIfNoCase User-Agent "^SpankBot" bad_bot SetEnvIfNoCase User-Agent "^spanner" bad_bot SetEnvIfNoCase User-Agent "^Sqworm" bad_bot SetEnvIfNoCase User-Agent "Stripper" bad_bot SetEnvIfNoCase User-Agent "Sucker" bad_bot SetEnvIfNoCase User-Agent "^SuperBot" bad_bot SetEnvIfNoCase User-Agent "^SuperHTTP" bad_bot SetEnvIfNoCase User-Agent "^Surfbot" bad_bot SetEnvIfNoCase User-Agent "^suzuran" bad_bot SetEnvIfNoCase User-Agent "^Szukacz/1.4" bad_bot SetEnvIfNoCase User-Agent "^tAkeOut" bad_bot SetEnvIfNoCase User-Agent "^Teleport" bad_bot SetEnvIfNoCase User-Agent "^Telesoft" bad_bot SetEnvIfNoCase User-Agent "^TurnitinBot/1.5" bad_bot SetEnvIfNoCase User-Agent "^The.Intraformant" bad_bot SetEnvIfNoCase User-Agent "^TheNomad" bad_bot SetEnvIfNoCase User-Agent "^TightTwatBot" bad_bot SetEnvIfNoCase User-Agent "^Titan" bad_bot SetEnvIfNoCase User-Agent "^True_Robot" bad_bot SetEnvIfNoCase User-Agent "^turingos" bad_bot SetEnvIfNoCase User-Agent "^TurnitinBot" bad_bot SetEnvIfNoCase User-Agent "^URLy.Warning" bad_bot SetEnvIfNoCase User-Agent "^Vacuum" bad_bot SetEnvIfNoCase User-Agent "^VCI" bad_bot SetEnvIfNoCase User-Agent "^VoidEYE" bad_bot SetEnvIfNoCase User-Agent "^Web\ Image\ Collector" bad_bot SetEnvIfNoCase User-Agent "^Web\ Sucker" bad_bot SetEnvIfNoCase User-Agent "^WebAuto" bad_bot SetEnvIfNoCase User-Agent "^WebBandit" bad_bot SetEnvIfNoCase User-Agent "^Webclipping.com" bad_bot SetEnvIfNoCase User-Agent "^WebCopier" bad_bot SetEnvIfNoCase User-Agent "^WebEMailExtrac.*" bad_bot SetEnvIfNoCase User-Agent "^WebEnhancer" bad_bot SetEnvIfNoCase User-Agent "^WebFetch" bad_bot SetEnvIfNoCase User-Agent "^WebGo\ IS" bad_bot SetEnvIfNoCase User-Agent "^Web.Image.Collector" bad_bot SetEnvIfNoCase User-Agent "^WebLeacher" bad_bot SetEnvIfNoCase User-Agent "^WebmasterWorldForumBot" bad_bot SetEnvIfNoCase User-Agent "^WebReaper" bad_bot SetEnvIfNoCase User-Agent "^WebSauger" bad_bot SetEnvIfNoCase User-Agent "^Website\ eXtractor" bad_bot SetEnvIfNoCase User-Agent "^Website\ Quester" bad_bot SetEnvIfNoCase User-Agent "^Webster" bad_bot SetEnvIfNoCase User-Agent "^WebStripper" bad_bot SetEnvIfNoCase User-Agent "^WebWhacker" bad_bot SetEnvIfNoCase User-Agent "^WebZIP" bad_bot SetEnvIfNoCase User-Agent "Whacker" bad_bot SetEnvIfNoCase User-Agent "^Widow" bad_bot SetEnvIfNoCase User-Agent "^WISENutbot" bad_bot SetEnvIfNoCase User-Agent "^WWWOFFLE" bad_bot SetEnvIfNoCase User-Agent "^WWW-Collector-E" bad_bot SetEnvIfNoCase User-Agent "^Xaldon" bad_bot SetEnvIfNoCase User-Agent "^Xenu" bad_bot SetEnvIfNoCase User-Agent "^Zeus" bad_bot SetEnvIfNoCase User-Agent "ZmEu" bad_bot SetEnvIfNoCase User-Agent "^Zyborg" bad_bot # Блокируем плохие сканеры SetEnvIfNoCase User-Agent "Acunetix" bad_bot SetEnvIfNoCase User-Agent "FHscan" bad_bot # Блокируем ненужные поисковики SetEnvIfNoCase User-Agent "Baiduspider" bad_bot <Limit GET POST HEAD> Order Allow,Deny Allow from all # Блокируем плохие IP deny from 38.100.19.8/29 deny from 38.100.21.0/24 deny from 38.100.41.64/26 deny from 38.105.71.0/25 deny from 38.105.83.0/27 deny from 38.112.21.140/30 deny from 38.118.42.32/29 deny from 65.213.208.128/27 deny from 65.222.176.96/27 deny from 65.222.185.72/29 Deny from env=bad_bot </Limit> Вот ещё видео https://youtu.be/dvjcrCaIUzg Также постоянно редактируемый список таких ботов от HackRepair.com http://pastebin.com/5Hw9KZnW Далее в плагине для Wordpress под названием All in One SEO Pack есть модуль Bad Bot Blocker, который на уровне PHP или htaccess запрещает доступ к сайту по определенным правилам (можно менять), по дефолту выглядит так для htaccess: # BEGIN Bad Bot Blocker SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|asterias|BDCbot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|ca\-crawler|CCBot|Cegbfeieh|CheeseBot|CherryPicker|CopyRightCheck|cosmos|Crescent|discobot|DittoSpyder|DOC|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Fasterfox|FeedBooster|Foobot|Genieo|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|ieautodiscovery|InfoNaviRobot|IstellaBot|Java/1\.|JennyBot|k2spider|Kenjin Spider|Keyword Density/0\.9|larbin|LexiBot|libWeb|libwww|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LNSpiderguy|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|moget|MSIECrawler|NetAnts|NICErsPRO|Niki\-Bot|NPBot|Nutch|Offline Explorer|Openfind|panscient\.com|PHP/5\.\{|ProPowerBot/2\.14|ProWebWalker|Python\-urllib|QueryN Metasearch|RepoMonkey|RMA|SemrushBot|SeznamBot|SISTRIX|sitecheck\.Internetseer\.com|SiteSnagger|SnapPreviewBot|Sogou|SpankBot|spanner|spbot|Spinn3r|suzuran|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|turingos|TurnitinBot|UbiCrawler|UnisterBot|URLy Warning|VCI|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Xenu|yandex|Zao|Zeus|ZyBORG|coccoc|Incutio|lmspider|memoryBot|SemrushBot|serf|Unknown|uptime files" bad_bot SetEnvIfNoCase Referer "Abonti|aggregator|AhrefsBot|asterias|BDCbot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|ca\-crawler|CCBot|Cegbfeieh|CheeseBot|CherryPicker|CopyRightCheck|cosmos|Crescent|discobot|DittoSpyder|DOC|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Fasterfox|FeedBooster|Foobot|Genieo|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|ieautodiscovery|InfoNaviRobot|IstellaBot|Java/1\.|JennyBot|k2spider|Kenjin Spider|Keyword Density/0\.9|larbin|LexiBot|libWeb|libwww|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LNSpiderguy|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|moget|MSIECrawler|NetAnts|NICErsPRO|Niki\-Bot|NPBot|Nutch|Offline Explorer|Openfind|panscient\.com|PHP/5\.\{|ProPowerBot/2\.14|ProWebWalker|Python\-urllib|QueryN Metasearch|RepoMonkey|RMA|SemrushBot|SeznamBot|SISTRIX|sitecheck\.Internetseer\.com|SiteSnagger|SnapPreviewBot|Sogou|SpankBot|spanner|spbot|Spinn3r|suzuran|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|turingos|TurnitinBot|UbiCrawler|UnisterBot|URLy Warning|VCI|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Xenu|yandex|Zao|Zeus|ZyBORG|coccoc|Incutio|lmspider|memoryBot|SemrushBot|serf|Unknown|uptime files" bad_bot Deny from env=bad_bot # END Bad Bot Blocker Запись уже другая, какая-то более компактная. Сразу скажу, при активации этих дефолтных параметров через секунд 20 пришло извещение от Метрики, что пауку отдаётся 403 ошибка. Хочу, в общем, эту тему разобрать, особенно с помощью htaccess, так как кеш работает через него. Особенно это актуально для сайтов с большим количеством страниц, потому что даже если посещалка маленькие, пауки нагружают сайт вхолостую. Также исключив таких пауков можно сделать статистку в Метрики и Аналистике более точной (так ведь?), так как такие роботы дают всегда 100% отказов. Ну и теперь сами вопросы: 1) Защищаетесь ли вы от "плохих" роботов. Если "Да", то какими путями? 2) При включении этих правил в htaccess, его размер увеличивается до 15кб и выше. Не создаст ли это большую нагрузку, чем было с роботами? 3) Какой метод более правильный из приведенных в статье, если есть вообще в данном случае понятие правильности. Рад буду услышать мнения специалистов, дополнения. Если тема интересна, то может будем обновлять список? dontfear, silence1988, simbo and 1 other 4 Quote Link to post Share on other sites
silence1988 340 Posted July 31, 2015 Report Share Posted July 31, 2015 Тоже интересно, есть ли смысл ломать голову над этим, особенно интересно про яндекс и отказы ) Quote Link to post Share on other sites
dontfear 762 Posted July 31, 2015 Report Share Posted July 31, 2015 Спасибо за подборку, никак руки не доходили всех собрать. Quote Link to post Share on other sites
Модератор files 2802 Posted July 31, 2015 Модератор Report Share Posted July 31, 2015 Вы сами задали вопрос и сами на него ответили. Да, нужно блокировать. А чтобы списки ботов не распухали, в первую очередь блокируйте тех, что особенно рвутся. Quote Link to post Share on other sites
rafonets 508 Posted July 31, 2015 Report Share Posted July 31, 2015 Решайте проблемы по мере поступления, в списке увидел очень много записей, лишних, некоторые браузеры и нужные роботы/поисковики отправляют эти записи в User агент. Увидели рыпается робот какой-то - добавили. Тоже интересно, есть ли смысл ломать голову над этим, особенно интересно про яндекс и отказы ) На отказы это не играет роли, т.к. яндекс метрика через javascript вставляется, а роботы грузят HTML код сайта и JS не выполняется, т.е. метрика их не засекает - грубо говоря. Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 этих как закрыть с них нет трафика. Nigma, Tut.by,DuckDuckGo,search.softonic.com,search.avg.com,Metabot.ru, QIP.ru,Babylon Search,GoGo, Ukr.net ,Poisk.ru campusboy 1 Quote Link to post Share on other sites
VIP campusboy 912 Posted July 31, 2015 Author VIP Report Share Posted July 31, 2015 Вы сами задали вопрос и сами на него ответили. Да, нужно блокировать. А чтобы списки ботов не распухали, в первую очередь блокируйте тех, что особенно рвутся. Меня больше интересует оптимальный вид записи этих запретов. Первый более понятный, но большой по объему (слышал, что чем больше .htaccess, тем сильнее нагружается хост, сам не проверял), а второй сокращенный - но менее понятный. Надо эти правила выучить На отказы это не играет роли, т.к. яндекс метрика через javascript вставляется, а роботы грузят HTML код сайта и JS не выполняется, т.е. метрика их не засекает - грубо говоря. Как раз на видео есть пример, где Метрика засекает такое. И помните ЛавВиталити ещё гремел на весь интрнет? Тоже ведь засекала. Quote Link to post Share on other sites
Модератор files 2802 Posted July 31, 2015 Модератор Report Share Posted July 31, 2015 На отказы это не играет роли, т.к. яндекс метрика через javascript вставляется, а роботы грузят HTML код сайта и JS не выполняется, т.е. метрика их не засекает - грубо говоря. Даже очень играет. Некоторый реф.спам имитирует реальные "нулевые" посещения (внимательно изучите домены с которых к вам заходят в аналитике) , так что блокировать и еще раз блокировать http://seo-zona.ru/ostanovite-veb-spam-na-svoix-sajtax-2015-05-30.html Яндекс Метрика, в принципе сам с ними старается бороться (есть фильтры в аналитике), но в любом случае у вас получается накрученная необъективная стата. campusboy 1 Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 помогите мне пожалуйста кто разбирается этих всех роботов заблокировать http://prntscr.com/7z87yy Quote Link to post Share on other sites
Модератор files 2802 Posted July 31, 2015 Модератор Report Share Posted July 31, 2015 помогите мне пожалуйста кто разбирается этих всех роботов заблокировать http://prntscr.com/7z87yy это не роботы. это клоны поисковиков Quote Link to post Share on other sites
k-park 807 Posted July 31, 2015 Report Share Posted July 31, 2015 помогите мне пожалуйста кто разбирается этих всех роботов заблокировать http://prntscr.com/7z87yy Дык, по аналогии с первым примером ТС сделайте, только вместо егосписка доменов нужные подставьте Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 но вот этих мне надо заблокировать. а как правильно сделать, я боюсь накасячу Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 Дык, по аналогии с первым примером ТС сделайте, только вместо егосписка доменов нужные подставьте но там наверно User-Agent блокировать. или не так Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 переходы с них это ладно. они ресурсы выкачивают Quote Link to post Share on other sites
k-park 807 Posted July 31, 2015 Report Share Posted July 31, 2015 Вот такой код я использую когда нужно запретить переход с определённого домена: Options +FollowSymlinks RewriteCond %{HTTP_REFERER} badsite.com [NC] RewriteCond %{HTTP_REFERER} badsite2.com [NC] RewriteCond %{HTTP_REFERER} badsite3.com [NC] RewriteRule .* – [F] Соответственно вместо badsite, свои знасчения подставляете Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 мне чтоб они не именно индексировали Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 а для этого нужно знать как они представляются каким User-Agent Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 когда индексировать не будет тогда и переходов не будет Quote Link to post Share on other sites
k-park 807 Posted July 31, 2015 Report Share Posted July 31, 2015 Options +FollowSymlinks RewriteCond %{HTTP_REFERER} tut.by [NC] RewriteCond %{HTTP_REFERER} metabot.ru [NC] RewriteCond %{HTTP_REFERER} qip.ru [NC] ........ RewriteRule .* – [F] Вот как-то так, и далее по списку. Вставляете в корневой htaccess и при переходе с данного сайта должна отдаваться сервером ошибка 500 Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 это человек а сам робот будет индексировать? Quote Link to post Share on other sites
k-park 807 Posted July 31, 2015 Report Share Posted July 31, 2015 Причём тут человек? если идёт запрос с данного домена, то отдаётся ошибка 500 попробуйте на паре сайтов Quote Link to post Share on other sites
roman48 57 Posted July 31, 2015 Report Share Posted July 31, 2015 вы вообще не понимаете о чем я. заблокировал я этого робота RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?Site-Shot/.*$ [NC] так и так SetEnvIfNoCase User-Agent "^Site-Shot" bad_bot в метрике он виден как Site-Shot а он все равно делает снимки Quote Link to post Share on other sites
direct808 5 Posted July 31, 2015 Report Share Posted July 31, 2015 В качестве эксперимента пробовал вручную отправлять запросы в яндекс метрику и у меня получилось http://hkar.ru/COngВ этом случае .htaccess не поможет Quote Link to post Share on other sites
k-park 807 Posted July 31, 2015 Report Share Posted July 31, 2015 Скриншот это немного другое. Он к вам не с данного домена соотвественно заходит. Тут логи смотреть нужно и закрывать по IP, а это немного сложнее Изачально же разговор про переходы и пауков вопрос был, не? Quote Link to post Share on other sites
VIP campusboy 912 Posted August 22, 2015 Author VIP Report Share Posted August 22, 2015 Прошло 22 дня с момента установки кода по 2 варианту. В целом, нагрузка на сайт осталась прежней, а вот проблемы добавились. На всех сайтах, где был установлен такой код, я не мог попадать на большинство страниц в админке, отдавалась 403 ошибка, Гугл ругался, что не может проанализировать css и js, Не стал вникать в суть проблемы и просто удалил код, так как не вижу в нем на данный момент пользы. Сразу полноценно заработала админка. webostrov 1 Quote Link to post Share on other sites
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.