Настройка узла Анализ социальных сетей
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Окно настроек узла Анализ социальных сетей разбито на несколько вкладок: Выбор колонок, Настройки и Общие. Как правило, настройки выполняются слева направо, поскольку вид вкладок, которые расположены правее, зависит от того, как настроены предыдущие вкладки.

Настройка вкладки Выбор колонок

На вкладке Выбор колонок в левой части окна отображается список доступных колонок из родительского узла. Если родительский узел не выполнен или настроен неправильно, то список будет пустым. Вкладка Выбор колонок настраивается путем выбора доступных колонок и указания ролей, которые каждая колонка выполняет в алгоритме анализа социальных сетей. Обычно настройка вкладки выполняется сверху вниз, начиная с поля Источник. Ниже представлено описание полей. Настройка некоторых из них не является обязательной.

properties selectcolumns.rus

Выберите колонку из списка доступных слева, а затем нажмите на кнопку [>] для того, чтобы переместить ее в соответствующее поле справа.

Поле Источник должно содержать категориальную переменную (например, строковую колонку). Свойство Источник обозначает в алгоритме источник каждой транзакции (каждой записи) в исходной таблице. Например, если ваша таблица содержит данные об электронной переписке между сотрудниками компании, то колонка Отправитель будет обозначать отправителя (источник) каждого электронного письма. Если таблица описывает финансовые транзакции, то колонка Отправитель может быть колонкой, содержащей имя или ID плательщика, – лица, уплатившего некую сумму денег в каждой сделке.

Атрибут Конечный объект противоположен атрибуту Источник. Если электронный адрес человека, который отправил письмо, – источник, то электронный адрес человека, который получил электронную почту, – получатель (конечный объект). Однако в отличие от свойства Источник, вы можете назначить несколько получателей, указав несколько назначений, например, если в таблице электронных писем имеется поле CC (копия) или BCC (скрытая копия). Еще один пример: наличие нескольких получателей платежа при анализе финансовых транзакций.

Обратите внимание на то, что атрибут Источник не является обязательным. По сути, узел АСС можно настроить на исследование направленных связей между отправителями и получателями, либо между плательщиками и получателям платежа, или наоборот, его можно настроить на исследование ненаправленных связей. Другими словами, можно настроить узел для исследования ненаправленных связей в том случае, если для вашего анализа не имеет значения, является ли лицо отправителем или получателем, плательщиком или получателем платежа, а важен лишь сам факт взаимодействия между ними. Для этого нужно просто переместить колонку отправителя в поле Конечный объект. Другими словами, если у вас есть одна колонка с указанием отправителей и одна колонка с указанием получателей, поместите обе колонки в поле Конечный объект. Поле Источник при этом останется пустым. При такой конфигурации система PolyAnalyst выполнит анализ ненаправленных связей. Помните, что, если вы анализируете ненаправленные связи, нужно обязательно выбрать как минимум две колонки для поля Конечный объект, чтобы узел работал правильно.

На скриншоте выше мы переместили колонки ProviderID и PatientID из тренировочного набора данных PatientData.csv в поля Источник и Конечный объект соответственно. Таким образом, с помощью узла АСС мы планируем определить характер взаимодействия между поставщиками услуг медицинского страхования и пациентами.

Свойства Источник и Конечный объект – самые важные. Однако помимо этих свойств имеется несколько факультативных настроек, которые, возможно, придется использовать для дальнейшего описания типов взаимодействия между людьми.

Чтобы выявить дату каждой транзакции, настройте дату/время в поле Ось времени. Если это свойство настроено, алгоритм может учитывать время взаимодействия между людьми и исследовать некоторые тренды в данных в зависимости от времени.

Если вам нужно агрегировать транзакции по какой-то переменной, и вы не хотите готовить таблицу заранее, используя узел Агрегирование, вы можете использовать атрибут Тема. Если это свойство настроено, то транзакции с совпадающими значениями в колонке Тема группируются вместе в самом начале анализа.

Представим, что вы анализируете таблицу с электронными письмами, среди которых были сообщения между людьми на одну и ту же тему, и во всех письмах использовались одинаковые слова в поле письма Тема. Каждое электронное письмо – отдельная транзакция, т.е. отдельная запись в таблице. В поле Тема на первой вкладке вы можете указать тему электронных писем, чтобы эти письма рассматривались как одна транзакция. Помните, что если этого не сделать, PolyAnalyst будет рассматривать каждую запись как отдельный акт коммуникации (отдельную транзакцию).

Почему это важно? Во-первых, когда вы просматриваете статистику транзакций, вам может быть удобнее просмотреть серию писем по одной теме между двумя людьми как одну транзакцию. Если два человека обменялись друг с другом большим количеством писем, взаимодействие между ними, скорее всего, представляет интерес для исследователя. Однако, если все эти письма имеют одну и ту же тему, и это не отдельные письма на разные темы, отправленные и полученные в течение определенного периода времени, то эти транзакции могут и не быть значимыми. К сожалению, алгоритм не может определить, что для вас важнее. Таким образом, настраивая агрегирование или исключая его, вы сообщаете алгоритму о том, как именно ему нужно поступать в том случае, если имеется несколько электронных писем на одну и ту же тему. Другими словами, вы сообщаете алгоритму, что именно вас интересует: то, что два человека обменялись 50 письмами, или то, что это были 5 тематических блоков сообщений по 10 писем в каждом.

При работе с финансовыми транзакциями вы можете настроить свойство Количество.

Например, колонка во входной таблице данных, означающая сумму денег, переведенную от плательщика получателю платежа, либо сумму страховой выплаты. Свойство Количество, как правило, не влияет на работу алгоритма, но это может увеличить информативность отчета узла. Как и в поле Тема, настройка алгоритма зависит от того, хотите ли вы просмотреть транзакции в агрегированном виде. Что для вас важнее? Просмотреть 50 платежей по одному доллару между двумя людьми или платеж одного человека другому на общую сумму в 50 долларов? Что важнее: наличие 50 отдельных транзакций или общая сумма независимо от количества транзакций. Если важна общая сумма, то вам лучше указать Количество. Это поле можно игнорировать при работе с электронными письмами.

Если пользователь указывает переменную Количество, то система рассчитывает общее количество неких единиц для каждого объекта. Затраты каждого объекта определяются как разница между полученной суммой и расходом с учетом всех транзакций объекта. Отрицательное значение затрат говорит о том, что объект выплатил больше, чем получил.

Поле Шаблон имени модели используется для указания имени создаваемой узлом модели. Подробное описание см. здесь.

Вкладка Настройки
properties options.rus

Опция Расстояние зависит от времени и частоты связей определяет способ вычисления длительности каждой связи. Если эта опция включена, то длительность каждой связи вычисляется как среднее временных интервалов между событиями для пары объектов, объединенных этой связью. Она вычисляется как отношение временного интервала между первым и последним событием применительно к этой связи к общему количеству событий применительно к этой связи (поддержка). Если эта опция отключена, то длительность каждой связи считается равной 1.

Минимальная поддержка объекта определяет минимальную поддержку объекта, необходимую для включения этого объекта в результаты анализа.

Минимальное число связей объекта определяет минимальное число связей применительно к паре объектов, необходимое для включения этой связи в результаты анализа.

Минимальная поддержка связи – минимальное количество событий, связанных с парой объектов, необходимое для включения связи в результаты анализа.

Алгоритм размещения – выпадающее меню, которое позволяет выбрать один из трех доступных алгоритмов расчета положения (координат) каждого узла графа на плоскости:

  • По умолчанию (MDS+ACE) – MDS используется для графов размером меньше 1000 узлов, в противном случае применяется ACE;

  • MDS (англ. Multidimensional scaling – "многомерное шкалирование") – более точный метод, который требует больше времени на выполнение, в связи с чем алгоритм удобен при работе с небольшими графами;

  • ACE (англ. Algebraic Multigrid Computation of Eigenvectors – "алгебраический многосеточный метод собственных векторов") – быстрый алгоритм создания крупных графов, которые могут содержать миллионы узлов.