Использование узла Проверка орфографии
| Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server. |
Для работы с данным руководством необходимо знать, как создавать проекты и узлы, импортировать CSV-файлы, используя узел Файлы CSV, искать и заменять слова в тексте, используя узел Замена терминов. На изучение данного руководства потребуется около 5 минут. В данном руководстве рассматривается пример использования узла Проверка орфографии и способы его применения для оптимизации результатов текстового анализа.
Создайте новый проект и откройте его. Создайте узел Файлы CSV и импортируйте файл CitizensData.csv из папки Examples.
Выполните узел. Убедитесь в том, что колонка Comment содержит данные текстового типа.
Затем создайте новый узел Проверка орфографии. Поскольку исследует тексты, узел расположен в палитре узлов в разделе Текстовый анализ. Соедините узлы Файлы CSV и Проверка орфографии.
Откройте свойства узла Проверка орфографии. Выберите колонку Comment в качестве колонки для анализа. Обратите внимание, что узел Проверка орфографии может работать с несколькими текстовыми колонками одновременно.
Не изменяйте опции на второй вкладке, которые заданы по умолчанию. Выполните узел. Во время выполнения PolyAnalyst проверяет каждый комментарий в колонке Comment. Комментарий разбивается на слова. Каждое слово сопоставляется с орфографическим словарем.
Откройте окно просмотра результатов узла Проверка орфографии после того, как узел будет выполнен. Переключитесь на вкладку Проверка орфографии. В основной таблице на этой вкладке представлен список неправильно написанных слов.
В колонке Ошибки показаны слова с неверной орфографией, а колонка Заменить содержит предлагаемые исправления. Исправление выбирается из нескольких предлагаемых вариантов, в зависимости от того, какой из этих вариантов имеет наибольшую достоверность.
Если вы прокрутите таблицу вниз, то заметите, что для некоторых ошибок колонка Заменить не содержит значений. Это значит, что PolyAnalyst не смог выбрать наиболее вероятный из предлагаемых вариантов для этих слов; ни один из предложенных вариантов исправлений этих слов не смог преодолеть заданный порог достоверности.
Мы также можем создать предварительно настроенный узел Замена терминов на основе выявленных орфографических ошибок с помощью кнопки Сгенерировать на панели инструментов в окне просмотра результатов. Выберите Замена терминов в выпадающем меню, подтвердите действие и вернитесь на скрипт.
Откройте свойства узла. На вкладке Настройки представлен уже заполненный список соответствий, построенный на основе орфографических ошибок, выявленных узлом Проверка орфографии, и предложенных исправлений.
По желанию мы можем внести некоторые изменения в эти пары ошибок и замен, однако это не рекомендуется, поскольку повторное создание данного узла из окна просмотра узла Проверка орфографии приведет к конфликту с текущими результатами.
Выполните узел Замена терминов. Окно результатов узла будет содержать исправленный текст. Обратите внимание, что мы удалили исходную колонку на вкладке Колонки.
Теперь мы можем использовать колонку Comment в качестве входных данных для других узлов.