Jump to content

Защита от кражи контента


Recommended Posts

Сегодня проверяя уникальность краткой информации о публикации наткнулся на такую проблему: кто то парсит с моего сайта краткую информацию 300-400 сим на свой сайт. Причём у этого сайта уже более 4к материалов (думаю все спарсено) и более 1к посетителей в сутки. Думаю парсинг идёт из rss канала, что можно с этим поделать? Кто ни будь сталкивался с такой проблемой?

Link to post
Share on other sites

И как мне его вычислить? Думаю парсинг идёт с помощью какого то бота, который при обновлении все парсит!

для этого придумали логи.

Link to post
Share on other sites

забить и развивать свой сайт, заколибетесь пыль глотать если будете обращать на каждого такого!

Все же не приятно, когда кто то ворует твой труд что в конечном итоге приводит к тому что ПС считает это его текстом!
Link to post
Share on other sites

Зачем кого то банить? и осложнять себе жизнь, делайте в небольших описаниях перелинковку, и получите на халяву ссылки на ваш сайт. Превратите зло в добро)

А как на счёт Минусинска?
Link to post
Share on other sites
  • VIP

А как на счёт Минусинска?

А причем здесь минусинск, вы доклады по минусинску смотрели, анализировали их, делали какие то выводы и заключения, если нет, тогда я вам расскажу что вам ничего не будет ссылка является естественной а не покупной, ваш контент ограбили, вот и все так что смелее ставьте ссылку в тело статьи.

Link to post
Share on other sites

Зачем кого то банить? и осложнять себе жизнь, делайте в небольших описаниях перелинковку, и получите на халяву ссылки на ваш сайт. Превратите зло в добро)

 

А что помешает добавить в парсер лишнюю строчку и убрать эти ссылки?

 

Сегодня проверяя уникальность краткой информации о публикации наткнулся на такую проблему: кто то парсит с моего сайта краткую информацию 300-400 сим на свой сайт. Причём у этого сайта уже более 4к материалов (думаю все спарсено) и более 1к посетителей в сутки. Думаю парсинг идёт из rss канала, что можно с этим поделать? Кто ни будь сталкивался с такой проблемой?

 

Можно и забанить по IP. но его можно сменить, в итоге запаритесь отслеживать

Если есть RSS - уберите

Вывод всех материалов сделайте через АЯКС - пусть болит голова у тех кто парсит

Link to post
Share on other sites

А что помешает добавить в парсер лишнюю строчку и убрать эти ссылки?

 

 

Можно и забанить по IP. но его можно сменить, в итоге запаритесь отслеживать

Если есть RSS - уберите

Вывод всех материалов сделайте через АЯКС - пусть болит голова у тех кто парсит

Можно подробнее про АЯКС?
Link to post
Share on other sites

А причем здесь минусинск, вы доклады по минусинску смотрели, анализировали их, делали какие то выводы и заключения, если нет, тогда я вам расскажу что вам ничего не будет ссылка является естественной а не покупной, ваш контент ограбили, вот и все так что смелее ставьте ссылку в тело статьи.

Спасибо за идею, попробуем. Посмотрим что с этого выйдет.
Link to post
Share on other sites

Я забиваю на это. Всех не заблокируешь. Оригинальные тексты Яндекса + сразу закидываю в индекс Гугла. Они разберутся, кто автор, кто вор. Правда, пару раз отправлял запрос на удаление урлов Гуглу. DMCA. Они были удалены из индекса. Попробуйте.

Link to post
Share on other sites

Зачем кого то банить? и осложнять себе жизнь, делайте в небольших описаниях перелинковку, и получите на халяву ссылки на ваш сайт. Превратите зло в добро)

Все известные мне RSS - грабберы тырят только голый текст (очищают от html - тегов). 

 

Можно и забанить по IP. но его можно сменить, в итоге запаритесь отслеживать

Я так понимаю он ворует контент с нескольких источников. Менять IP ради одного - глупо, либо банально лень.

 

Вывод всех материалов сделайте через АЯКС - пусть болит голова у тех кто парсит.

RSS останется на месте. Возможны проблемы с ботами поисковых систем (более мелких, чем Яндекс и Гугл). Воровать контент, выводимый через Ajax легче.

Link to post
Share on other sites

Воровать контент, выводимый через Ajax легче.

 

Это почему легче? возможно тот кто парсит так же как и автор не знает про Ajax - это первое

а второе что на аякс хоть какую никакую защиту поставить можно - это 2

да и вообще можно защиту простую поставить на количество открываемых страниц в интервал времени  :D  :D  :D  :D  :D 

против глупого бота может и поможет

Link to post
Share on other sites

Все известные мне RSS - грабберы тырят только голый текст (очищают от html - тегов). 

 

Я так понимаю он ворует контент с нескольких источников. Менять IP ради одного - глупо, либо банально лень.

 

RSS останется на месте. Возможны проблемы с ботами поисковых систем (более мелких, чем Яндекс и Гугл). Воровать контент, выводимый через Ajax легче.

как вариант, уже выше предложенный, можно более активно ставить перелинковку внутри своих статей, если парсят грабером на автонаполнеи врятли вычищают ссылки, или можно добавить код в файлы темы, чтобы вместе со статьей  парсилась ссылка на ваш сайт.

Link to post
Share on other sites

Все известные мне RSS - грабберы тырят только голый текст (очищают от html - тегов).

 

Я так понимаю он ворует контент с нескольких источников. Менять IP ради одного - глупо, либо банально лень.

 

RSS останется на месте. Возможны проблемы с ботами поисковых систем (более мелких, чем Яндекс и Гугл). Воровать контент, выводимый через Ajax легче.

И что мне делать?
Link to post
Share on other sites

парсинг по рсс очень хорошая штуковина, к слову вы зря так напрягаетесь, в частности, если я на каком-то из проектов настраиваю такой парсинг по рсс, в обязательном порядке проставляю активную гиперссылку на источник информации. к ому же парсинг по рсс проходит как правило не полностью всей новости/статьи и т.п., а в среднем 20-40% или меньше от первоисточника... плюс ссыль на источник, как я уже сказал - вам вреда точно никакого, скорее польза и минусинск тут никак не действует

Link to post
Share on other sites

парсинг по рсс очень хорошая штуковина, к слову вы зря так напрягаетесь, в частности, если я на каком-то из проектов настраиваю такой парсинг по рсс, в обязательном порядке проставляю активную гиперссылку на источник информации. к ому же парсинг по рсс проходит как правило не полностью всей новости/статьи и т.п., а в среднем 20-40% или меньше от первоисточника... плюс ссыль на источник, как я уже сказал - вам вреда точно никакого, скорее польза и минусинск тут никак не действует

Но там вообще нету ссылок на первоисточник. Парсят тупо текст, да и сам сайт навешан рекламой.
Link to post
Share on other sites

Да ссылок на первоисточник нет, но заметил что парсер парсит все не очищая html. Будем пробовать ставить сами ссылки на первоисточник.

Link to post
Share on other sites

это неприятно, но не трагично - вам уже рекомендовали и правильно, яндекс сразу информируйте о своих новых оригинальных текстах, ну и если уж очень принципиально, то можно и рсс канал свой просто отключить

Link to post
Share on other sites

Please sign in to comment

You will be able to leave a comment after signing in



Sign In Now
  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...