Использование узла Проверка орфографии
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Для работы с данным руководством необходимо знать, как создавать проекты и узлы, импортировать CSV-файлы, используя узел Файлы CSV, искать и заменять слова в тексте, используя узел Замена терминов. На изучение данного руководства потребуется около 5 минут. В данном руководстве рассматривается пример использования узла Проверка орфографии и способы его применения для оптимизации результатов текстового анализа.

В качестве исходных данных используются результаты опроса постояльцев отеля, которых попросили поделиться своими впечатлениями. Для получения качественных результатов из таких узлов, как Извлечение ключевых слов, Связь терминов и Кластеризация текстов, в первую очередь необходимо "очистить" тексты ответов от ошибок. Проверить орфографию нескольких сотен ответов вручную трудно, поэтому для подготовки данных к анализу мы будем использовать узел Проверка орфографии для автоматического обнаружения орфографических ошибок в данных и их исправления.

Создайте новый проект и откройте его. Создайте узел Файлы CSV и импортируйте файл CitizensData.csv из папки Examples.

sc csv wizard.rus

Выполните узел. Убедитесь в том, что колонка Comment содержит данные текстового типа.

sc csv view.rus

Затем создайте новый узел Проверка орфографии. Поскольку исследует тексты, узел расположен в палитре узлов в разделе Текстовый анализ. Соедините узлы Файлы CSV и Проверка орфографии.

sc csv sc flowchart.rus

Откройте свойства узла Проверка орфографии. Выберите колонку Comment в качестве колонки для анализа. Обратите внимание, что узел Проверка орфографии может работать с несколькими текстовыми колонками одновременно.

sc sc wizard.rus

Не изменяйте опции на второй вкладке, которые заданы по умолчанию. Выполните узел. Во время выполнения PolyAnalyst проверяет каждый комментарий в колонке Comment. Комментарий разбивается на слова. Каждое слово сопоставляется с орфографическим словарем.

Откройте окно просмотра результатов узла Проверка орфографии после того, как узел будет выполнен. Переключитесь на вкладку Проверка орфографии. В основной таблице на этой вкладке представлен список неправильно написанных слов.

sc sc view.rus

В колонке Ошибки показаны слова с неверной орфографией, а колонка Заменить содержит предлагаемые исправления. Исправление выбирается из нескольких предлагаемых вариантов, в зависимости от того, какой из этих вариантов имеет наибольшую достоверность.

Если вы прокрутите таблицу вниз, то заметите, что для некоторых ошибок колонка Заменить не содержит значений. Это значит, что PolyAnalyst не смог выбрать наиболее вероятный из предлагаемых вариантов для этих слов; ни один из предложенных вариантов исправлений этих слов не смог преодолеть заданный порог достоверности.

sc sc empty.rus

Мы также можем создать предварительно настроенный узел Замена терминов на основе выявленных орфографических ошибок с помощью кнопки Сгенерировать на панели инструментов в окне просмотра результатов. Выберите Замена терминов в выпадающем меню, подтвердите действие и вернитесь на скрипт.

sc view generate tutorial.rus

Откройте свойства узла. На вкладке Настройки представлен уже заполненный список соответствий, построенный на основе орфографических ошибок, выявленных узлом Проверка орфографии, и предложенных исправлений.

sc rt options.rus

По желанию мы можем внести некоторые изменения в эти пары ошибок и замен, однако это не рекомендуется, поскольку повторное создание данного узла из окна просмотра узла Проверка орфографии приведет к конфликту с текущими результатами.

Выполните узел Замена терминов. Окно результатов узла будет содержать исправленный текст. Обратите внимание, что мы удалили исходную колонку на вкладке Колонки.

sc rt wizard col.rus

Теперь мы можем использовать колонку Comment в качестве входных данных для других узлов.