Импорт документов, электронных писем и новостных лент

PolyAnalyst позволяет импортировать документы разных типов, хранящиеся в разных местах. В зависимости от того, где и как хранятся документы, используются различные узлы-источники данных.

Например, узел Файлы импортирует набор документов или даже подпапок, содержащихся в одной папке. Узел FTP импортирует ряд документов с одного или нескольких FTP-серверов. Узел Интернет импортирует содержимое веб-страниц в виде документов.

PolyAnalyst не сохраняет импортируемые документы в виде отдельных файлов во время импорта. Вместо этого набор документов сохраняется в одной таблице. Каждая строка в таблице соответствует одному импортируемому документу. В отдельных колонках таблицы хранятся метаданные (сведения об отдельных свойствах документов), например, расположение исходного документа, название документа, автор документа, если таковой имеется. В таблице также имеется большая текстовая колонка, которая обычно называется Contents (Содержание), и содержит полный текст документа. Например, импортированная таблица данных может выглядеть следующим образом:

Document Location

Title

Contents

C:\My documents\document1.pdf

Как импортировать документы

Процесс импорта документов происходит следующим образом: Сначала вам нужно …​

C:\document2.docx

Бизнес-план

Настоящий бизнес-план предполагает следующее …​

Обратите внимание на то, что в ходе импорта некоторые элементы форматирования текста не сохраняются. Новые строки могут быть сохранены, но информация о стиле оформления документа, например, об использовании жирного шрифта, не сохраняется.

RSS-каналы

RSS - известный стандарт формирования новостных каналов и результатов поиска в структурированном, поддерживающем экспорт, формате. К нему имеют доступ сторонние приложения, которые могут преобразовать его в нужный формат. Сотни программных систем и вебсайтов имеют каналы RSS, средства для чтения и RSS-агрегаторы. Средство для чтения RSS - любой программный инструмент, способный подключаться к каналу RSS и отображать его содержимое. Многие интернет-браузеры, такие как Internet Explorer и Firefox, имеют встроенные средства для чтения RSS-каналов. Узел RSS в PolyAnalyst является средством для чтения RSS, который позволяет сохранить данные RSS-канала в виде таблицы данных, которую можно исследовать. Узел соединяется с каналом RSS (с помощью указанного URL), загружает данные и сохраняет их. Узел RSS в системе PolyAnalyst имеет одно преимущество перед традиционными средствами для чтения RSS-каналов: он захватывает URL-ссылки, которые встречаются в статьях канала, загружает их содержимое, а затем разбивает текст (выполняет его парсинг). Это удобно, поскольку URL-ссылки позволяют загрузить полный текст страниц, которые RSS-канал лишь резюмирует. Полный текст статей позволяет пользователям получить более репрезентативную выборку данных для анализа.

Как PolyAnalyst импортирует сжатые файлы

Когда PolyAnalyst имеет дело со сжатыми или заархивированными файлами (например, "myfile.zip"), все содержимое архива извлекается и сохраняется в виде отдельных файлов. Каждый файл, извлеченный из архива, сохраняется в виде отдельной записи в выходной таблице данных. Сам же архивированный файл в выходной таблице не отображается. Пути к файлам, извлеченным из архива, отображаются следующим образом: "C:\folder\myzipfile.zip:embeddedfile.doc".

Импорт электронных писем

В PolyAnalyst имеются следующие узлы для импорта электронных писем:

  • Узел E-mail способен устанавливать соединение с аккаунтом электронной почты, например, Google Gmail или Microsoft Outlook.com, либо с вашим аккаунтом корпоративной электронной почты, загружать письма и сохранять их содержимое в виде таблицы данных.

  • Узел E-mail Архив может извлекать электронные письма из сжатого файла электронного сообщения. Наиболее популярным сжатым форматом является формат Microsoft PST. Если вы работаете в Microsoft Outlook и сохраняете письма в Outlook, то эти файлы сохраняются в файле PST на вашем компьютере. Вы также можете создать файл PST прямо из Outlook.

  • Узел Файлы может импортировать файлы .msg. Расширение файла .msg представляет собой сокращение от message (сообщение). Файлы сообщений являются текстовыми файлами, каждое из которых представляет электронное письмо. Различные почтовые клиенты поддерживают экспорт электронных писем в виде файлов сообщений или используют файлы формата msg для хранения электронных писем.

Формат таблицы данных, которую производят такие узлы, идентичен формату выходной таблицы узла, импортировавшего данные.

Импорт приложений к электронным письмам

Узлы E-mail и E-mail Архив могут импортировать приложения к электронным письмам наряду с самими сообщениями. В настройках обоих узлов вы можете отфильтровать типы приложений, подлежащие импорту.

Импортированные файлы приложений сохраняются в виде отдельных записей вместе с записями, содержащими тексты сообщений. Приложения хранятся примерно так же, как электронные сообщения. Информация о форматировании (например, жирный шрифт, курсив) не сохраняется в ходе импорта файла. Импортируется только текстовое содержимое файла. Содержимое файла приложения сохраняется в той же колонке, что и содержимое электронных писем. В колонке пути PolyAnalyst отображает приложение, используя значение типа "E-mail Identifier:Attachment identifier".

Например, если электронное письмо сохранено в формате электронного сообщения .eml (похож на формат .msg), PolyAnalyst может отобразить путь к данному приложению как "C:\MailFile.eml:Attachment.txt".

Обратите внимание на то, что поскольку электронные письма могут иметь вложенные электронные письма, эти вложенные электронные письма рассматриваются так же, как и любое другое приложение.

Например, если PolyAnalyst имеет дело с электронным письмом с вложенным электронным письмом c приложением к нему, то путь к приложению будет выглядеть как "C:\MailFile.eml:SubMailFile.eml:Attachment.txt".

Фильтрация типов документов во время импорта (например, импорт только файлов Microsoft Word)

Данная информация применяется к нескольким узлам-источникам данных в PolyAnalyst, включая Файлы, Интернет и FTP.

Типы документов обозначаются как типы MIME. MIME - сокращение от англ. Multipurpose Internet Mail Extensions - многоцелевые разрешения интернет-почты. Тип MIME похож на формат файлов, например, Microsoft Word DOC или Adobe PDF. Узел Интернет изначально настроен на поддержку двух типов MIME: текст/html (веб-страницы) и текст/простой текст (простые текстовые документы, например, редактируемые в NotePad). Пользователи могут настроить поддержку загрузки дополнительных типов страниц или использовать список типов MIME для ограничения типа содержимого, загружаемого узлом. В ходе выполнения узла оцениваются все ссылки, встречающиеся на загружаемой веб-странице. PolyAnalyst проверяет тип MIME всех страниц и сравнивает их с составленным пользователем списком типов документов, подлежащих импорту. Если какой-то из обнаруженных по ссылкам типов MIME в списке отсутствует/не отмечен, содержимое страницы не попадает в таблицу выходных данных.

Не путайте тип MIME веб-страницы с расширением файла в его названии. Независимо от расширения веб-страницы (html, htm, asp, jsp, php и др.), тип MIME зависит от того, как данная страница сохраняется и передается из места хранения в узел Интернет в вашем проекте в PolyAnalyst. В отдельных случаях наблюдается некоторое совпадение типов, например, файлы *.txt, которые относятся к типу "текст/простой текст" и файлы *.html, которые относятся к типу "текст/html". Однако файл *.doc (формат Microsoft Word) не относится к типу "текст/документ", как может показаться на первый взгляд.