Анализ данных
Узлы анализа данных предназначены для выполнения анализа исходных таблиц данных для создания модели или отчета, которые могут быть отображены на экране и изучены с целью выявления скрытых тенденций в данных. Такие модели могут быть использованы в процессе принятия решений, а также применены к новым данным. Как правило, узлы анализа данных на входе принимают одну таблицу данных.
Моделирование и анализ данных
В PolyAnalyst имеется целый ряд инструментов для моделирования данных. Они делятся на разные категории:
-
Анализ структурированных данных - создание статистических моделей на основе дат, числовых и категориальных данных.
-
Текстовый анализ - исследование текстов на естественном языке.
-
Визуализация - создание графиков или диаграмм, представляющих собой информацию о данных в какой-либо визуальной форме.
-
Многомерный анализ - разбиение данных в соответствии с логическими принципами и исследование пересечений данных (называемых измерениями).
Обратите внимание на то, что некоторые виды анализа могут быть смешанными, поскольку в них для создания модели, объяснения данных или создания графика применяется как глубокий анализ данных, так и анализ текста.
Глубокий анализ данных – анализ структурированных данных
Анализ структурированных данных включает создание моделей данных с учителем, без учителя и с частичным участием учителя.
Участие "учителя" / обучение с учителем (supervision / supervised learning) – термин, определяющий степень участия человека в подготовке модели. Модели, создаваемые без учителя / обучение без учителя (unsupervised learning), иногда называют моделями, управляемыми данными, поскольку участие человека минимально, и в процессе обучения модели используются только сами данные.
Термины анализ данных (data analysis) и глубокий анализ данных (data mining) часто используются как синонимы. Однако анализ данных обычно предполагает обучение с учителем (supervised modelling) и часто используется только для создания простых статистических моделей, которые служат конкретной цели или предназначены для доказательства/опровержения какого-либо утверждения. Глубокий анализ данных чаще обозначает моделирование без учителя и используется в тех случаях, когда цель анализа заранее неизвестна, и задача исследователя – просто выявить любые закономерности и шаблоны в данных или отсутствие таковых. Большинство аналитических инструментов системы PolyAnalyst требуют минимального участия человека (уточнение общей цели и того, какие данные нужно использовать для подготовки моделей). Вы не найдете в PolyAnalyst многих статистических инструментов, которые обычно присутствуют в статистических программных пакетах, поскольку PolyAnalyst не предназначен для выполнения простых статистических операций.
В PolyAnalyst используются следующие виды анализа данных (и соответствующие узлы):
-
Обучение с учителем:
-
Классификация - создание модели, которая прогнозирует значение категории (или класса) на основе других значений. Другими словами, задача классификации - отнести объект к определенному классу объектов:
-
Регрессия - обнаружение зависимости одной переменной от других переменных:
-
Прогнозирование временных рядов:
-
-
Обучение без учителя:
-
Кластеризация - разделение записей на отдельные группы или подмножества на основе их похожести (ее трудно определить, поскольку понимание похожести варьируется в зависимости от подхода к кластеризации данных). Кроме того, этот анализ похож на классификацию, когда перед исследователем стоит задача определить, к какому кластеру принадлежит какая-либо запись (при этом кластер рассматривается как категория):
-
Снижение размерности - выявление характерных признаков для групп сущностей:
-
Анализ связей - оценка взаимодействия различных объектов в определенной сети для определения свойств данной сети:
-
Обучение ассоциативным правилам:
-
-
Нормализация данных: следующие узлы не относятся к конкретному классу машинного обучения, но могут упростить анализ данных:
-
Дистрибутивный анализ: анализ, основанный на распределении числовых переменных:
-
Валидация и тестирование модели:
Узлы анализа данных, работающие с Python
В разделе узлов анализа данных имеется ряд узлов, которые работают с использованием языка Python:
-
Python (Классификация);
-
Python (Регрессия);
-
Python (Кластеризация);
-
Python (Декомпозиция).
Данные узлы предназначены для выполнения различных манипуляций с данными в PolyAnalyst. Их основная цель – реализовать машинное обучение при работе с данными.