Словари Embeddings (векторы слов)

Словарь Embeddings (векторы слов) – это специальный словарь, который представляет собой список слов и показатели связи этих слов с другими словами. Данные показатели основаны на представлении слов в виде ряда векторов в n-мерном пространстве.

Связь слов показана в колонке Схожесть, значение которой уникально для каждого слова.

emb overview.rus

Векторное представление слов основано на их контекстуальной близости: слова, которые встречаются в тексте рядом с одними и теми же словами, имеют высокое косинусное сходство (cosine similarity) в векторном представлении.

Косинусное сходство (cosine similarity) показывает меру сходства между последовательностью чисел, где каждое слово в числовом представлении имеет свою собственную координату, а анализируемый текст представлен вектором чисел, которые показывают вхождения слова в данном документе.

emb vector.rus

Редактирование словарей Embeddings

Окно редактора словаря Embeddings разделено на две части: слева представлен список слов и их частей речи, справа – карточка выбранного слова. Щелкните на любое слово в списке, чтобы увидеть его ближайшие лексемы и их сходство.

emb wordcard.rus

Чтобы изменить настройки внешнего вида словарной статьи, нажмите кнопку Настройки отображения emb viewer settings.

emb appearance.rus

Вы можете установить максимальное количество отображаемых лексем, а также расстояние между ближайшими лексемами. Установите чекбокс Использовать фильтрацию по одной и той же части речи, чтобы отфильтровать записи по выбранной части речи.

Нажмите на кнопку кнопка-переключатель, чтобы перейти в расширенный режим просмотра словаря.

emb edit mode.rus

В этом режиме вы можете отфильтровать список лексем, установить минимальное расстояние между лексемами, а также указать количество загружаемых лексем.

emb edit mode top.rus

Генерация словаря Embeddings

Словарь Embeddings может быть сгенерирован через узел Индекс.

Откройте окно просмотра результатов узла и выберите вкладку Лексемы

stat index view.rus

Откройте выпадающее меню Сгенерировать и выберите опцию Словарь векторов слов (Embeddings).

emb generate.rus

Заполните необходимые поля и нажмите OK.

emb new dict.rus

Созданный словарь появится в Менеджере словарей.

emb crimedata.rus

Генерация словаря Синонимов из словаря Embeddings

Вы можете создать словарь синонимов из словаря Embeddings. Для этого нажмите кнопку Создание синонимов на панели инструментов.

emb syn.rus

Введите название словаря, установите расстояние между записями и максимальное количество соседей. Выберите хотя бы одну часть речи. Если часть речи не выбрана, будет создан пустой словарь.

Установите чекбокс Использовать заранее рассчитанные расстояния, чтобы объединить записи нового словаря на предварительно рассчитанной основе.

Как только операция будет завершена, перейдите в словарь Синонимов и проверьте наличие сгенерированного словаря.

emb new syn dict.rus

Дважды щелкните на созданный словарь, чтобы просмотреть извлеченные синонимы.

emb new syn entries.rus

Работа со словарем синонимов описана здесь.