Рекомендации по настройке колонок при импорте данных
Чтобы отфильтровать колонки, вы можете использовать узлы Фильтрация колонок или Модификации колонок на скрипте после узла-источника данных. Вы можете удалить колонки либо в ходе загрузки, либо позже. Далее рассматриваются преимущества каждого подхода.
Фильтрация колонок в ходе импорта имеет следующие преимущества:
-
таблица данных, созданная узлом-источником данных, занимает меньше места на диске;
-
окна настроек упрощены, т.к. отображается меньше колонок;
-
при фильтрации колонок в узле-источнике данных не нужно создавать отдельный узел, загромождающий скрипт;
-
узел-источник данных выполняет обработку данных быстрее, т.к. ему нужно считать и записать меньшее количество данных.
Фильтрация колонок в последующем узле имеет следующие преимущества
-
фильтрация колонок практически не влияет на производительность системы PolyAnalyst;
-
данная операция легко повторяется, масштабируется и быстро выполняется;
-
запуск узла-источника данных требует больше ресурсов, в то время как узлы Модификации колонок и Фильтрация колонок могут выполняться за несколько секунд, обрабатывая таблицу данных любого размера.
-
если вы изменили решение о том, какие колонки нужно включить или исключить из дальнейшего анализа, вы можете перенастроить последующий узел без повторной загрузки данных. В целом, рекомендуется не перенастраивать выполненный узел, особенно при работе с большим количеством данных.
-
можно создать фильтры, используя различные узлы фильтрации, вместо того, чтобы ограничиваться только одним набором колонок. Скрипт может вместить тысячи узлов, которые можно удобно организовать, благодаря таким инструментам, как группировка узлов, предметная область, мини-карта и дерево проекта.
-
разграничение операций посредством использования различных узлов на скрипте делает рабочий процесс, который отражается на скрипте, более понятным. Исключение колонок в узле-источнике данных не отображается на скрипте, и не сразу можно понять, что эта операция выполняется данным узлом, в то время как специально настроенный узел Фильтрация колонок на скрипте всегда означает выполнение данного действия, и мы его воспринимаем как отдельный шаг. Скрипт будет более понятным, если процессы загрузки данных и удаления колонок будут выполнены в двух узлах отдельно, а не в одном узле-источнике данных.