Анализ данных

Узлы анализа данных предназначены для выполнения анализа исходных таблиц данных для создания модели или отчета, которые могут быть отображены на экране и изучены с целью выявления скрытых тенденций в данных. Такие модели могут быть использованы в процессе принятия решений, а также применены к новым данным. Как правило, узлы анализа данных на входе принимают одну таблицу данных.

Моделирование и анализ данных

В PolyAnalyst имеется целый ряд инструментов для моделирования данных. Они делятся на разные категории:

  • Анализ структурированных данных - создание статистических моделей на основе дат, числовых и категориальных данных.

  • Текстовый анализ - исследование текстов на естественном языке.

  • Визуализация - создание графиков или диаграмм, представляющих собой информацию о данных в какой-либо визуальной форме.

  • Многомерный анализ - разбиение данных в соответствии с логическими принципами и исследование пересечений данных (называемых измерениями).

Обратите внимание на то, что некоторые виды анализа могут быть смешанными, поскольку в них для создания модели, объяснения данных или создания графика применяется как глубокий анализ данных, так и анализ текста.

Глубокий анализ данных – анализ структурированных данных

Анализ структурированных данных включает создание моделей данных с учителем, без учителя и с частичным участием учителя.

Участие "учителя" / обучение с учителем (supervision / supervised learning) – термин, определяющий степень участия человека в подготовке модели. Модели, создаваемые без учителя / обучение без учителя (unsupervised learning), иногда называют моделями, управляемыми данными, поскольку участие человека минимально, и в процессе обучения модели используются только сами данные.

Термины анализ данных (data analysis) и глубокий анализ данных (data mining) часто используются как синонимы. Однако анализ данных обычно предполагает обучение с учителем (supervised modelling) и часто используется только для создания простых статистических моделей, которые служат конкретной цели или предназначены для доказательства/опровержения какого-либо утверждения. Глубокий анализ данных чаще обозначает моделирование без учителя и используется в тех случаях, когда цель анализа заранее неизвестна, и задача исследователя – просто выявить любые закономерности и шаблоны в данных или отсутствие таковых. Большинство аналитических инструментов системы PolyAnalyst требуют минимального участия человека (уточнение общей цели и того, какие данные нужно использовать для подготовки моделей). Вы не найдете в PolyAnalyst многих статистических инструментов, которые обычно присутствуют в статистических программных пакетах, поскольку PolyAnalyst не предназначен для выполнения простых статистических операций.

В PolyAnalyst используются следующие виды анализа данных (и соответствующие узлы):

Узлы анализа данных, работающие с Python

В разделе узлов анализа данных имеется ряд узлов, которые работают с использованием языка Python:

  • Python (Классификация);

  • Python (Регрессия);

  • Python (Кластеризация);

  • Python (Декомпозиция).

Данные узлы предназначены для выполнения различных манипуляций с данными в PolyAnalyst. Их основная цель – реализовать машинное обучение при работе с данными.