Sign in to follow this  
Followers 0
Tru

Программы анализа текста на плагиат, критический обзор

17 posts in this topic

 

 

Подарочек получил, под Новый Год, заказчик письмецо прислал: у Вас уникальность текста 1%.  :angry: 

Вовремя сжег адреналин на тренажерах, а то бы Кондратий хватил, - думал из команды кто-то ссучился, и работает на лево, готовыми текстами.Хотя при оплате 1$, 1000 знаков, это не мудрено...

 

Оказалось, зря грешил, проверка на серии разных программ показала уник далеко за 90, причем, это с популярными ключами в тексте.

 

Решил сделать обзорчик, на базе этого же, текста 3500+ знаков без пробела, с заголовком и 2 подзаголовками в тексте.

Естественно подзаголовки и заголовок насыщенными ключами, и плюс в тексте подготовлены 2 метатега,  дискрипшн и тайтл, тоже пересыщены ключами.

Мелкие тайтлы и дискрипшны для описания картинок в тексте мы из текста убираем, ибо они идут бонусом.

 

 

Итак, первым по статистике у нас идет Адвего, знаменитый ресурс  advego.ru/plagiatus/

Определимся с терминами и настройками

 

"Размер Шингл" (от англ. shingle "черепица", "кирпичик") — отдельные части текста, количество слов в его последовательности для проверки его на уникальность.

 

Шингл может быть, к примеру, четырехсловный или десятисловный. Текст делится на шинглы определенной величины программой при помощи лингвистического анализа. Размер шингла можно установить в настройках Advego Plagiatus.

 

Чем короче шингл, тем точнее проверка уникальности текста. Как правило, для проверки достаточно размера шингла 4-5. Можно установить размер шингла 3, но такая проверка наверняка найдет множество совпадений, ведь существует масса словосочетаний, используемых практически в любом тексте на данную тематику.

Можно установить шингл 2 и сойти с ума, от попыток добится уникальности хотя бы 25%, ибо варианты из 2х слов бесконечны.

 

"Размер фразы" определяет, сколько слов, заключенных в кавычки, будет направлено в виде запроса к поисковой системе для получения совпадений. Если отправить слишком короткую фразу, совпадений может быть найдено довольно много, при этом среди них дубликатов может не быть. На текущий момент рекомендуемым значением длины фразы для глубокой проверки является 4.

 

 

Ставим  в настройках самый крутой из рекомендуемых шинглов "4", и размер фразы "4", жмем кнопку глубокая проверка, - поехали!

 

Уникальность текста 98%  Отличная уникальность текста. 

Найдены совпадения следующих фраз: для мужчин и женщин,  в любую точку мира, мужская и женская одежда, все они выделены в тексте желтым цветом.

В принципе, фразы штампы, которые украшают текст, и ключи я не подчищаю.

Подчистили синонимами только длинные совпадения фраз, разбив их на логические куски.

Усложняем задачу Шинг 3 и фраза 3

Уникальность текста 88%  Удовлетворительная уникальность текста. 

Это класс!

Причем все тексты совпадений малыши, типа описания товаров на 300-500 знаков.

Обычно микротексты и не индексируются

 

Совпадения только по жирным СЧ ключам, и ВЧ   -   рядом цифры запросов по вордстату. И это очень хорошо.

мужская и женская одежда 3 061, интернет магазины одежды 1 100 121, распродажи и акции 3 923, одежда со скидками 3 452, и т.п.

 

Не буду палить, все тематические запросы.

 

Такой текст с шинглом 3, на textsale.ru стоит от 2,5х и выше WMZ за 1000 знаков. Во всяком случае, так пишут ребята со звездами 1-2, на условиях 2-х подзаголовков, и включая,  метатели Дискрипшн и Тайтл. И еще надо их выловить, для работы.

 

Следующий ресурс eTXT Антиплагиат - мощная программа проверки уникальности текста 

 

Ставим для начала в настройках, шингл 4.

Уникальность текста 97% . Весьма неплохо учитывая, что подключены,  кроме Гул и Индекса, дополнительно Рамблер и Бинг. 

Ставим шингл 3 и фраза 3.В программе eTXT Антиплагиат, есть возможность сделать выборку не на весь документ, кусками по 1000 слов, что усложняет задачу, на больших текстах.

Уникальность текста получилась 97%, что очень хорошо.

 

Следующий ресурс antiplagiat.ru

 

Оригинальность: 100%

Заимствования: 0%

Цитирование: 0%

Дата: 29.12.2014

Как говорил Станиславский: - "Не верю!"

Этого не может быть, программа явно шлангует, или просит денег на платный тариф.

 

И еще одна программа Double Content Finder (DCFinder)

 

Ну это вообще брак, Станиславский таких артистов, и на площадку не пускал.

Тем более ресурс не поддерживается уже несколько лет.

 

Ну и на конец, Гвоздь Программы, наш дорогой  http://pr-cy.ru/unique/

 

Шингл и длинна фразы не выставляется.

Ну, может, я не знаю как?

Вводим текст в окно....

Оба на!

Уникальность 5%, Т.Е., на 95 % плагиат?

Не уникальные фрагменты выделены цветом. Для того, чтобы посмотреть более подробную информацию о не уникальном фрагменте кликните на нем левой кнопкой мышки.

 

Тут даже не Станиславский.

Это круче! Они нашли мой текст в паралелльной вселенной!

Попахивает межгалактическим интернетом!

 

Фильм "Люди в черном", как говорила трупу инопланентянина, дама прозектор (Клори́нда Фиоренти́но) из морга,  -

"Милый, кто ты такой?", где Вы взяли мой текст?

 

d9d12497cbd9.jpg

Ибо RU.net не тянет.

И вы знаете, хочется верить  в  это, а не в простой глюк программы.

 

Ибо бесконечность Вселенной, при вариантах из 32 букв в лингвистике, (или же аминокислот в биологии)  еще нескольких десятков служебных цифр и знаков,  может быть заполнена лишь подобиями и варианциями.

 

Ну, а для нас многострадальных, остается только Адвего Плагиатус и еще ресурс eTXT Антиплагиат, как наиболее рабочие, на данный период.

С уважением

 

Добавлено из нижнего сообщения, по просьбе читателей:

 

Слона то, (text.ru/seo/unauthorized) я и не заметил...

 


Ну ка проверим тот самый текст на text.ru


 


Всего символов:4203, Без пробелов: 3578, Количество слов: 579, Заспамленность: 56%, Вода: 11%


 


Уникальность: 89,45%, В тексте найдено 57 ошибок:


По уникальности, даже автор не признает уникальности текста в 100%.


По видимому разница в подходах, терминах и методике.


57 ошибок несут словарный абенд.


Латинские наименования сайтов, магазинов, и новые слова, типа промокод, бутик и т.п.


Неплохо, при заспамленности ключами 56%, 89% уника, - отличный результат.


Edited by Tru
murchiktv and Androidmen like this

Share this post


Link to post
Share on other sites

Стараюсь не засорять свой ноутбук различными программами - пользуюсь пока онлайн сервисами: текст (постоянно надо ждать в очереди) и контентвач( пока очередей не наблюдал - поэтому и быстро).

Share this post


Link to post
Share on other sites

Для Яндекса считаю оптимальной проверку на text.ru. Приходится ждать очереди, но проверка на уникальность учитывает и такую немаловажную функцию как морфология русского языка. Да и получается полный отчет по содержанию воды и заспамленности ключевыми словами. Подредактировать можно там же  в панели и запустить проверку снова.

webostrov likes this

Share this post


Link to post
Share on other sites

Я работаю с одной студией копирайтинга. Общаюсь с менеджером, вот итог:

 

 

Ранее была популярна етхт - теперь она дает промашки, причем серьезные. украденный на 100% текст видит как текст с уникальностью 17% (это было реально).

 

Далее был Адвего, но после введения порядка   копирайт/рерайт, стало понятно, что Адвего предназначена не для реального выявления сходств буквознаков, а для выявления недобросовестных копирайтеров. Доходит до смешного: при уникальности текста 70% копи и 25% рерайт достаточно подправить пару слов, и уникальность может подскочить до 100%/100%. И это в тексте на 2000 знаков. 

 

Теперь, после апгрейда техт.ру Студия копирайтинга перещла на этот антиплагиатус. Там масса новшеств, но главное - перестановка слов, букв, предложений и т.п. - не мешают выявлеть неуникальные тексты. 

 

 

Итог: у каждого своя колокольня, с которой он смотрит на СЕО. Пусть ваша колокольня будет самой высокой, с которой видно дальше. ))

Tru, k-park and MaksimPW like this

Share this post


Link to post
Share on other sites

Техт.ру лучший сейчас.

Адвеги и етхт в топку, устаревшие методы.

Контентвотчи и подобные ему проаерялки в топку, они вообще по-моему ничерта не проверяют, у меня напостой 100% показывает.

Здешний сервис я вообще не знаю как проверяет, с шинглом 1 может? Он неадекватный:)

Заказчики все чаще просят техт.ру. С текстами для себя тоже использую его.

Tru likes this

Share this post


Link to post
Share on other sites

Да, уж!

Слона то, (text.ru/seo/unauthorized) я и не заметил...

 

Ну ка проверим тот самый текст на text.ru

 

Всего символов:4203, Уникальность 89,45%, Без пробелов: 3578, Количество слов: 579, Заспамленность: 56%, Вода: 11%

Порадовало определением новых терминов:

Определение процента водности текста
Данный параметр отображает процент наличия в тексте стоп-слов, фразеологизмов, а также словесных оборотов, фраз, соединительных слов, являющихся не значимыми и не несущими смысловой нагрузки. Небольшое содержание «воды» в тексте является естественным показателем, при этом:

  • до 15% - естественное содержание «воды» в тексте;
  • от 15% до 30% - превышенное содержание «воды» в тексте;
  • больше 30% - высокое содержание «воды» в тексте.  
  • Определение процента заспамленности текста

Процент заспамленности текста отражает количество поисковых ключевых слов в тексте. Чем больше в тексте ключевых слов, тем выше его заспамленность:

  • до 30% - отсутствие или естественное содержание ключевых слов в тексте;
  • от 30% до 60% - SEO-оптимизированный текст. В большинстве случаев поисковые системы считают данный текст релевантным ключевым словам, которые указаны в тексте.
  • от 60% - сильно оптимизированный или заспамленный ключевыми словами текст.

Перенес часть текста наверх, в 1-е сообщение, для полноты обзора.

Share this post


Link to post
Share on other sites

Нет , самая лучшая text.ru , она показывает как раз точно .

 

Проверяю так же на text, но несколько раз для сравнения проверял в программе «Etxt Антиплагиат» теперь только онлайн, а то в проге ввод капчи достал!

Share this post


Link to post
Share on other sites

@webostrov

Ранее была популярна етхт - теперь она дает промашки, причем серьезные. украденный на 100% текст видит как текст с уникальностью 17% 

 

 

Так 17%  уника - это и есть на 83% украденный текст, чуть до 100 не дотягивает, видно плагиаторы на сканере колбасу резали, или селедку положили на текст. перед копированием..

Как бы намекает, етхт 

 

С уважением ))

Share this post


Link to post
Share on other sites

@webostrov

Ранее была популярна етхт - теперь она дает промашки, причем серьезные. украденный на 100% текст видит как текст с уникальностью 17% 

 

 

Так 17%  уника - это и есть на 83% украденный текст.

Как бы намекает, етхт

С уважением ))

 

"Как бы намекает" - повеселили! ))

 

Я взял старый, не менявшийся 2 года текст (тупо скопировал с сайта), загнал его в етхт, и тут же получил 17% уникальности. Как бы намек  ;)  :D А должно быть 0%. 

 

Я не рекламирую техт.ру, но есть устойчивые фразы, которые ПС вряд ли относят к плагиату, а вот антиплагиатусы (доморощенные в любом случае) это не учитывают.

 

Отсюда один вывод:  просто хорошо пишите своими словами или ищите добросовестного копирайтера с мозгами. Все остальные антиплагиатусы перед таким фактом - малышня в детском саду. 

 

С уважением! ))

Share this post


Link to post
Share on other sites

"Как бы намекает" - повеселили! ))

 

Я взял старый, не менявшийся 2 года текст (тупо скопировал с сайта), загнал его в етхт, и тут же получил 17% уникальности. Как бы намек  ;)  :D А должно быть 0%. 

 

Я не рекламирую техт.ру, но есть устойчивые фразы, которые ПС вряд ли относят к плагиату, а вот антиплагиатусы (доморощенные в любом случае) это не учитывают.

 

Отсюда один вывод:  просто хорошо пишите своими словами или ищите добросовестного копирайтера с мозгами. Все остальные антиплагиатусы перед таким фактом - малышня в детском саду. 

 

С уважением! ))

 

Собственно говоря, у меня противоположная проблема, ни за что завалили уникальность текста на pr-cy.ru/unique с 90+ до 5%.

Тут уже на форуме, подозревали, что у них шингл 1, и любой текст при этом становится уник 5 %, остаток это латинские термины с ошибками, как неопознанные словарем слова. 

Share this post


Link to post
Share on other sites

Собственно говоря, у меня противоположная проблема, ни за что завалили уникальность текста на pr-cy.ru/unique с 90+ до 5%.

Тут уже на форуме, подозревали, что у них шингл 1, и любой текст при этом становится уник 5 %, остаток это латинские термины с ошибками, как неопознанные словарем слова. 

Не пользуйтесь данным сервисом. Данный сервис предназначен (видимо) для подтверждения того, что вы написали текст кириллицей.  ;)  :D  :D

Tru likes this

Share this post


Link to post
Share on other sites

Следует отметить, что вдумчивый прогон текста, по анонимайзерам позволяет выявить массу слов паразитов и интереснейшие словарные  штампы о которых и не подозреваешь.
 
Причем штампы с шинглом 4 или 5, о которых не подумал бы никогда, пишутся на автомате.

Например, просто из последнего (первого в 2015 году)  проверяемого текста:

 

На Адвего показана уникальность 96%

 

к тому же, в 

 

средства по уходу за лицом

 

по самым выгодным ценам

 

воплоти в жизнь свою мечту

 

лидеров в производстве товаров

 

На Text.ru показана уникальность 91%

 

покупки и бронирования авиабилетов 

 

электроника и бытовая техника

Share this post


Link to post
Share on other sites

Пользуюсь Advego + text.ру. По обоим догоняю уникальность до 95-100%  и все нормально.

Share this post


Link to post
Share on other sites

@CRYPO

Пользуюсь Advego + text.ру. По обоим догоняю уникальность до 95-100%  и все нормально.

 

 Тоже пришел, к тому же выводу: Advego + text.ру..

Какой размер шингла ставите в настройках на Адвего?

 

С уважением

Share this post


Link to post
Share on other sites

Всегда проверяю исполнителей по адвего) но теперь расширю список сервисов)

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!


Register a new account

Sign in

Already have an account? Sign in here.


Sign In Now
Sign in to follow this  
Followers 0

  • Recently Browsing   0 members

    No registered users viewing this page.