Удаление повторяющихся фрагментов текста

Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

При обработке текстовых данных иногда возникает необходимость выявления повторяющихся фрагментов. Нахождение и удаление повторяющихся фрагментов, при условии, что само понятие "повторяющегося фрагмента" четко определено, позволяет улучшить качество данных. Многие инструменты текстового анализа, такие как кластеризация текстов, извлечение ключевых слов и др., выполняют статистический анализ на основе частоты слов. Полезность этих статистических моделей напрямую зависит от частоты терминов, а также от того, какие термины считаются характеристиками исследуемого документа.

Это относится, прежде всего, к терминам с высокой частотностью употребления, которые обычно оказывают существенное влияние на модели, созданные в ходе анализа текстов. Обычно, но не всегда, частотные термины описывают то, о чем идет речь в документе, но такое общее предположение на практике вызывает много трудностей.

Например, использование артикля the в англоязычных текстах в качестве одного из атрибутов модели, очевидно, приведет к искажению модели, и она вряд ли будет чем-то полезна. Это понятно: мало кому интересно знать, что в тексте чаще чем другие слова встречается артикль the. Эта информация будет абсолютно бесполезной. Следовательно, удаление артикля посредством включения его в список слов, которые должны быть проигнорированы, помогает улучшить результаты исследования.

Удаление отдельных фрагментов из данных также позволяет улучшить полезность модели. Например, при работе с набором электронных писем или форумных сообщений, мы часто имеем дело с контекстными фрагментами, которые на самом деле не имеют прямого отношения к самим данным. Например, когда вы отвечаете кому-то по электронной почте и включаете в свое сообщение то письмо, на которое вы отвечаете, клиентская программа электронной почты часто вставляет префикс в каждую строку, например, From Bob (Боб пишет)> текст письма. Каждая строка электронного письма, содержащая исходное письмо, будет начинаться с последовательности слов From Bob. Однако From Bob фактически не является частью данных, интерес представляет содержимое электронного письма. К сожалению, если собрать все электронные письма в сводную таблицу данных, то она будет содержать большое количество электронных писем с похожими строками с указанием авторов писем. Алгоритм, который обрабатывает эти данные, не способен определить, какие слова представляют интерес для исследователя, а какие из них являются избыточными, но сохраняются в данных. В идеале, перед тем, как приступить к поиску шаблонов и закономерностей в этих письмах, вам нужно удалить избыточные префиксы, поскольку имеется большая вероятность искажения модели. Кроме того, такие префиксы встречаются часто, и, как говорилось ранее, частотные термины, скорее всего, характеризуют содержимое данного документа или ряда документов.

Узел Удаление фрагментов – одна из попыток автоматически идентифицировать такую избыточную информацию и удалить ее из данных. Другими словами, вы можете использовать узел Удаление фрагментов, чтобы очистить данные. Обычно этот узел используется после импорта данных вместе с другими операциями очистки, например, вместе с узлом Проверка орфографии. Перед поиском повторяющихся фрагментов лучше исправить орфографические ошибки. Этот узел используется не всегда, а лишь в тех случаях, когда в начале исследования (например, при просмотре частот терминов и фраз, используя такие узлы, как Извлечение ключевых слов) вы обнаружите, что в тексте или в корпусе текстов имеются часто повторяющиеся фрагменты. Если вы создадите модель на основе этих неочищенных данных, или будете выполнять поиск по этим данным, модель и результаты поиска не будут оптимальными. Следовательно, данные следует очистить прежде, чем создавать модель на их основе.

После выполнения узла Удаление фрагментов вам нужно будет просмотреть отчет и изучить удаленные узлом фрагменты. Если обнаружится, что узел удалил не только избыточную, но и важную информацию, придется изменить настройки узла. Таким образом, вы можете задать оптимальные настройки для удаления избыточных фрагментов и сохранения важной, значимой информации. К сожалению, эти метрики коррелируют друг с другом. Если сделать параметры алгоритма менее строгими для нахождения дополнительной избыточной информации, то, скорее всего, алгоритм будет ошибочно удалять значимую информацию. Для любых данных всегда существует некий оптимальный набор параметров, при котором узел удалит наибольшее количество избыточных фрагментов, сохранив при этом максимально возможное количество значимых фрагментов. Для того, чтобы подобрать эти оптимальные параметры, может потребоваться несколько попыток настройки узла. Если вы работаете с очень большой таблицей данных, то вам, возможно, нужно будет создать выборку из этих данных, и посмотреть, как узел работает с этой выборкой.

Если при просмотре отчета узла выяснится, что алгоритм не обнаружил никаких повторяющихся фрагментов, это может означить следующее: либо в тексте действительно нет повторяющихся фрагментов, либо повторяющиеся фрагменты имеются, но узел не может найти их из-за того, что вы используете слишком строгие параметры поиска. Попробуйте изменить эти параметры. Однако обратите внимание на то, что ослабление параметров поиска может привести к увеличению количества ложноположительных решений, а это значит, что из данных могут быть удалены такие фрагменты, которые содержат данные, имеющее важное значение для последующего анализа и создания модели.