25 янв. 2014 г.

Враг номер два, или вода в тексте

Про моего врага номер один вы, конечно, наслышаны. Нет, я не про Я-кс. Это мой враг номер один в ипостаси вебмастера. А вот в копирайтерской, практически заброшенной мной ипостаси, мой враг номер один был Плагиатус. Как вспомню, как он меня доканывал - так вздрогну. Ну так спешите радоваться - теперь у меня есть враг номер два: семантический анализатор текста.


Почему я невзлюбила Плагиатус? Потому что мне практически из-за него пришлось бросить копирайтинг. Ведь заказчики - они как красны девицы. Они сами не знают, чего хотят. Они слышали что-то умное про уникальность, про проценты. Вот и начинают выпендриваться, кто во что горазд. И никак им не объяснить, что даже накачанная всеми правдами и неправдами 100% отметка - просто пшик. Потому что уникальность информации, изложенной в тексте, и уникальность текста - это две большие разницы. Людей, читателей, обычных пользователей, забивающих запрос в поисковую строку, волнует только первое. Поисковых роботов - только второе. И если вы с пеной у рта утверждаете, что вам нужен "текст для людей" - сбавьте обороты.


К примеру, вы сделали выдающееся открытие, способное в корне перевернуть всю историю человечества. Создали альтернативную теорию Большого Взрыва или теорию того, почему всегда теряется парный носок. Вольно или невольно при изложении своей теории вы будете использовать слова, термины, речевые обороты, которые уже использовали до вас предыдущие исследователи данной проблемы. И совершенно запросто может так получиться, что ваша совершенно новаторская и оригинальная, уникальная теория будет с точки зрения поисковиков (и Плагиатуса) иметь весьма среднюю уникальность. Помню, как Плагиатус добивал меня на статьях по истории замков Франции, где у всех графьёв и прочих представителей гнилого аристократизма были четырёхэтажные имена. И сократить их было никак нельзя, потому как с трёхэтажными было абсолютно неясно, о котором из Луёв идёт речь. Самое интересное, что он тыкал меня моим неуникальным носом не в исторические источники, как это можно было бы полагать, а в форумы и сайты собаководов, на которых тусовались хозяева аристократически-породистых питомцев, имевших аналогичные графинским четырёхэтажные клички.


вода в тексте

Вот и приходилось каждый раз уныло объяснять господам-заказчикам, что 96-98% уникальности по некоторым тематикам - это тоже очень хорошо. В конце концов моё терпение лопнуло, и я сначала ушла работать с теми, кого не приходилось уговаривать, а после и вовсе замастырила свои сайты.


И вот, внезапно... Смеркалось... Польстилась я на лёгкий доход. Дела для меня на две минуты. Быстрый рерайт, исходники у меня были, по 2.500-3.000 знаков каждый, из них надо было сделать статейки по 1.500 знаков. И совершенно не обратила я внимание на странное требование заказчика - мол, чтобы воды в тексте было не больше 60%. Я только плечами эдак дёрнула - издеваетесь, что ли? Какая такая вода в тексте, отродясь такого не водилось за мной. Проверила свой нежный рерайт обновлённым, заматеревшим в боях Плагиатусом, который теперь обрёл свойство этот самый рерайт определять... Бессовестно надула старика, показавшего 100%\100% при глубокой проверке... А вот поинтересоваться, какой хренью определяет заказчик процент воды в тексте, и позабыла. Как оказалось, зря.


Что такое вода в тексте - это я понимаю очень хорошо, спасибо. Это всякие как говориться и как всем известно, разные украшательства, лишние велеречия, слова-паразиты - короче говоря, попытки либо приблизить написанный текст к человеческой речи, либо придать ему оттенок "художественности". В так называемых "текстах для людей" умеренное присутствие этих слов необходимо; в статьях справочников и энциклопедий - недопустимо. Биржа сеомонстр имеет свой инструмент для определения процентов воды. В базе "лишних" (с точки зрения его создателей) слов содержится более 500 всяких "исходя из всего вышеперечисленного". Обычно такими словечками разбавляют текст, чтобы лишних знаков до недостающего объёма текста набить, ну или чтобы Плагиатус старой версии обмануть (новый так уже не надуешь). И когда мне вернули мой текст на доработку с пометкой: "воды в тексте 68%" - я чуть этой водой не подавилась.


То есть я вообще в текстах для сайтов водичкой не балуюсь, но если бы я делала из 1.500 знаков 3.000, я могла бы себя в чём-то заподозрить, а тут, ёлки зелёные, всё наоборот. Ну и пошла я на адвегу проверять свой текст по семантическому анализатору. То, что он мне выдал, не лезло ни в какие ворота. В список стоп-слов, то есть слов лишних, ненужных, не несущих смысловой нагрузки, он занёс... предлоги, союзы и местоимения. Он счёл, что у меня в тексте слишком много и, на, в, с, он и они. И ещё - почему-то - что я не к месту (наверное) употребила слово "должен" (1 раз за весь текст). И вот тут я зависла, как мой модем в летнюю жару. Переписала все сложные предложения, сделав из каждого по три простых. Но куда мне было предлоги девать? Это же бред!


Одно "он" заменила на слово "человек". При повторной проверке меня ждал сюрприз: слово "человек" было признано анализатором стоп-словом. Лишним. Ненужным. Как будто я писала текст не о человеческом жилище (а речь шла именно о нём), а о медвежьей норе. Воды (то есть предлогов, союзов и местоимений) осталось на 59,8%. Но это было уже меньше 60%, и условие заказчика я выполнила.


Мне только одно интересно. Если он вручную проверял процент воды в тексте - он что, не видел, что анализатор в список стоп-слов занёс? Или ему этот идиотский и в корне неправильно вычисленный показатель важнее? И стоит ли дальше работать с таким заказчиком? И не права ли я была, оставив копирайтинг?


Ну а по сеомонстровскому анализатору процент воды в том тексте был прямо чемпионский - 0%. В исходной версии.


З.Ы.:


Показатели данной статьи:


Количество символов 5696
Количество символов без пробелов 4816
Количество слов 842
Количество уникальных слов 415
Количество значимых слов 240
Количество стоп-слов 375
Вода 71.5 %
Количество грамматических ошибок 6
Классическая тошнота документа 4.58
Академическая тошнота документа 6.9 %


Возможно, ошибки в словах: Луёв, адвегу, вебмастера, рерайт, сеомонстр, хренью


Стоп-слова:


Слово Количество Частота, %
я 32 3.80
и 31 3.68
в 29 3.44
быть 17 2.02
не 17 2.02
что 15 1.78
как 11 1.31
на 10 1.19
он 9 1.07
а 8 0.95
с 8 0.95
по 7 0.83
это 7 0.83
вот 6 0.71


Ноу комментс.

18 коммент.:

Отправить комментарий

 
Rambler's Top100