Основные понятия глубокого анализа данных

Алгоритм – это пошаговая процедура решения некой проблемы.

Классификация – действия по распределению наблюдений по классам; распределение по группам, классам, рядам, семьям и т.д. в соответствии с некоторыми общими отношениями или атрибутами. В анализе – логическая организация записей по группам (определенная первичным классом переменной). Например, классификация людей по группам в зависимости от уровня их дохода. Алгоритмы классификации – это задачи машинного обучения, предназначенные для нахождения правила, которое позволяет точно отнести записи в таблице к выделенным категориям. Для классификации в PolyAnalyst имеется несколько алгоритмов, например, Дерево решений. Выделенные классы обычно обозначаются переменной класса (известной как целевая или зависимая переменная).

Кластеризация – это процесс группировки похожих записей. Кластеризация предполагает измерение степени сходства, которое для разных алгоритмов кластеризации определяется по-разному. В ходе кластеризации максимально похожие записи объединяются в одну группу (кластер), записи из других кластеров при этом имеют минимальную степень сходства с записями данного кластера. Кластеризация не обязательно рассматривается как задача классификации, поскольку число групп, которые нужно выделить, не всегда известно заранее, а каждая из групп не всегда точно обозначена.

Перекрестная проверка – это метод проверки статистической значимости модели, в котором часть обучающих данных исключается из процесса обучения модели, после чего на этих данных проверяется полученная модель.

Глубокий анализ данных – это "процесс выявления достоверной, новой, потенциально полезной и подлежащей интерпретации информации в базах данных, которая используется для принятия важнейших бизнес-решений" (G. Piatecki-Shapiro, http://www.kdnuggets.com). Синоним: обнаружение знаний.

Дерево решений – особый алгоритм глубокого анализа данных, помогающий решить задачи классификации путем построения древовидной структуры данных, содержащей условия разбиения данных в узлах дерева, по которым проверяется каждый рассматриваемый случай.

Эмпирическая модель – это прогностическая модель, разработанная в ходе глубокого анализа базы данных с помощью алгоритма машинного обучения.

Генетический алгоритм – это техника глубокого анализа данных для эффективного решения комбинированных проблем с большим количеством независимых атрибутов. Имеет механизмы выбора атрибутов, похожие на механизмы, которые встречаются в естественной эволюции – изменение, взаимное обогащение, мутация и естественный отбор – и направленные на быстрый поиск оптимального набора параметров.

Анализ покупательских корзин – техника глубокого анализа данных, предназначенная для выявления групп свойств, признаков или событий, которые часто встречаются вместе в данных по транзакциям, а также для выявления направленных ассоциативных правил внутри этих групп свойств. Название заимствовано из области розничной торговли, но может успешно применяться и в других областях.

Вывод путем сопоставления – это техника глубокого анализа данных, основанная на выделении ряда наиболее схожих случаев и создании прогноза для значения целевого атрибута в рассматриваемом случае как среднего значения тех же значений атрибутов в этих похожих случаях. Наиболее известным использованием этой техники является метод k-ближайших соседей.

Нейронная сеть – это программная или аппаратная нелинейная прогнозирующая система моделирования, которая по структуре похожа на нервную ткань и которую можно тренировать на данных за прошлое время для прогнозирования исходов ситуаций в будущем.

Переобучение (переподгонка) – выполняется в том случае, когда алгоритм разрабатывает модель, прогнозирующую значение целевого атрибута со слишком высокой точностью. Этот алгоритм точен для обучающих данных, но будет выполняться плохо при работе с проверочными или прочими данными, которые модель в ходе обучения не видит. Считается, что такую модель невозможно будет применить к другим таблицам данных. Таким образом, эта модель не имеет особой ценности, поскольку на нее слишком сильно влияют случайные элементы ненужной информации (информационного шума), которые не должны учитываться. Все алгоритмы в PolyAnalyst имеют средства защиты от переподгонки.

Выброс – точка данных (обычно это конкретная запись или наблюдение), которая не соответствует шаблону или которая находится за пределами указанного количества стандартных отклонений от среднего значения дистрибуции. Также называется аномалией.

Рандомизированное тестирование – метод проверки статистической значимости разработанных моделей на основе смешивания значений целевого атрибута в различных примерах и попытке решить случайную задачу параллельно с реальной. Этот метод имеет несколько важных вычислительных преимуществ по сравнению с методом Перекрестной проверки для тестирования статистической значимости моделей.