v¦bo project
Бизнес-данные
Нужно больше данных
Структурирование
Структурирование
Свойства
Автор: Тюрин Владислав
Дата публикации: 09 сентября 2015
Поделиться
Файлы
Новое
Чем хороши шаблоны, условия для бизнеса на старте, как менеджеры теряют время,...
Как работать по 12 часов в день, какая экономика может себе позволить инновации,...
Абсолютная экономическая эффективность, как статистика измеряет прошлое, ещё...
Поиск
c l i c k ! m e
В публикации рассматривается понятие больших данных с точки зрения потребностей и возможностей бизнеса. Сфера внедрения технологий, основанных на больших данных, обширна. Но именно для бизнеса стоит насущная проблема их обработки исходя из экономической целесообразности и извлечения практической выгоды от больших и разнородных объемов данных. Цель публикации дать представление о больших данных и аналитики, рационального их применения в бизнес среде.

Структурирование данных

Не зависимо от того, являются ли данные для бизнеса большими или традиционными, они могут быть представлены (собраны и сохранены) в структурированном и не структурированном виде.

Для структурированных данных характерно их разделение на некоторые, сформированные по правилам, единицы и наборы данных, связанные или зависимые от других данных. В структурированных данных выделяются отдельные простые единицы данных, которые по определенным правилам составляют наборы данных. Для структурированных данных важно наличие разнообразных зависимостей.

Структурированные данные – это данные в которых на основе их содержимого и формата выделены отдельные элементы данных, между которыми установлены заданные взаимные соответствия.

Индексированные данные – это данные для которых на основе их содержимого и формата выявлен набор указателей (индексов), которые позволяют осуществлять поиск целевых фрагментов данных.

Прямая регистрация данных позволяет сформировать некоторый поток слабо структурированных или совсем неструктурированных данных. С потоком практически ничего толкового нельзя сделать и уж тем более провести какой-либо вразумительный анализ. Структурирование потребуется в любом случае, если поток необходимо каким-либо образом обработать. Это может быть простое индексирование или разметка, а может быть построение целой модели взаимосвязанных элементов данных и метаданных.

Без некоторого минимального уровня структурирования данных они превращаются в бесконечный поток без начала и конца и теряют всякий смысл. Красиво именуемые «озера данных» легко могут превратиться в сточные канавы, если в них сливать всё подряд и без разбора. Не стоит верить тем, кто убеждает в существовании необработанных массивов информации в «озерах». Уже при помещении данных в него, они как минимум оцениваются и индексируются по содержимому, источнику, свойствам. А как же иначе их потом изъять из озера? И чем более структурированы данные при помещении в хранилище, тем удобнее и полезнее они становятся для последующего извлечения, обработки и анализа. Отсутствие какой-либо структуры данных делает их практически бесполезными.

Озеро данных – массив данных, хранимых в необработанном виде.

Кстати метафора «озера данных» не совсем подходит к таким понятиям как «данные», «информация». Обратите внимание, что вода имеет очевидное свойство интенсивно смешиваться. Это категорически исключается в области данных: перемешивание на низком структурном уровне приводит к потере смысла.

Структурирование данных включает три базовых этапа.

Во-первых, в потоке данных выделяются некоторые минимально допустимые целостные единицы данных. Эти целостные единицы представляют собой значимую информацию и не должны утрачивать смысл в результате их вычленения в потоке. В зависимости от систем обработки и хранения информации целостными единицами данных могут быть: отдельные слова, характеристики, числовые данные, выражения, функции, объекты, документы, фрагменты, снимки, сегменты и т.п. Выделение в данных целостных единиц может сопровождаться их изменением для приведения к единому формату. Кроме того, при выделении единиц данных возможно добавление недостающих данных либо удаление избыточно-повторяющихся.

Во-вторых, выделенные в потоке целостные единицы данных упорядочиваются в контейнеры. Это могут быть таблицы, реляционные базы данных, иерархические структуры, наборы, списки, домены, классификаторы, библиотеки и т.п. Вводятся и соблюдаются правила упорядочивания единиц данных, что в какой-то степени позволяет проверить их корректность и полноту.

В-третьих, между единицами данных и между упорядоченными наборами единиц данных устанавливаются связи. При этом такие связи могут иметь дифференцированные атрибуты и назначение. Важно указать для дальнейшей обработки данных: что с чем, как и почему увязано. Так же, как и упорядочивание, определение связей в данных позволяет отследить их корректность и полноту.

Существуют различные методы и форматы структурирования данных. Их выбор зависит от конкретной ситуации и задач по хранению информации. Само содержание данных обуславливает такой выбор. Например, для хранения записей журнала о входящей корреспонденции разумно употребить таблицу или реляционную базу данных, а для хранения музыкальных альбомов – библиотеку аудио треков с индексацией по названию, исполнителю, длительности, году издания.

Структурирование данных сопряжено с распознаванием образов. В частности, это касается изображений и видеопотоков. Когда-то документы приходилось перепечатывать вручную или снимать фотокопии – сегодня на рынке предлагаются мощные средства распознавания текстов. Проблемы структурирования и индексации изображений, аудио и видео данных сегодня легко решаются, если у бизнеса есть в этом потребность.

Разные специалисты смотрят на структурирование данных и единицы данных по-разному. Для программиста – это типы и структуры языка программирования. Для разработчика реляционных баз данных – это типы полей таблиц, структуры и связи таблиц базы данных. Для аналитика – это типы количественных и качественных показателей, комплекты расчетных и аналитических сводных индексов (коэффициентов, функций).

Структурирование данных базируется на понятиях: единица данных, набор единиц данных, целостность данных и их зависимость.

Структурирование упорядочивает и связывает данные создавая читаемую и понятную основу, наделяя их дополнительными «данными о данных» – метаданными.

Хранение данных только в структурированном виде на практике малопригодно для решения актуальных задач. Может потребоваться сохранить данные в первоначальном виде как поток. А значит данные предпочтительно формировать по слоям:

- первый слой – это данные в первичном виде (как получены);

- второй слой – это структуры данных (в том числе индексы);

- третий слой – это аналитические данные (обработки, расчеты, коэффициенты);

- четвертый слой – это агрегированные данные и сводные показатели;

- пятый слой – это публичные презентационные данные, которые допускается представить широкой аудитории или руководству бизнеса.

Многослойное хранение данных удобно и обеспечивает эффективное их использование для различных целей как в настоящем, так и в будущем. Послойное хранение не имеет аппаратных и программных ограничений и существенно не влияет на издержки, связанные с информационной аналитикой.

Главная задача структурирования данных – это приведение их к такому виду, с которым результативно работать:

- обрабатывать,

- извлекать по запросам,

- формировать новое,

- обновлять,

- находить и исправлять ошибки,

- представлять в удобном виде,

- обнаруживать закономерности и проблемы,

- соотносить с целевыми объектами.

Работа с плохо структурированными данными сопряжена с трудностями, непредсказуемыми результатами и ошибками. Работа же с неструктурированными или слабо структурированными данными невозможна.

В подавляющем большинстве случаев человек имеет дело со структурированными данными, хотя и не фокусируется на этом, что удобно и правильно. Также, удобно и правильно передавать структурированные данные.

Есть структуры данных, которые мы даже не замечаем, потому что всегда имели и будем иметь с ними дело, потому что мы их знаем, мы их изучаем постоянно и постепенно обновляем в своей памяти, совершенствуем – это, например:

- тексты (строго структурированные по правилам лингвистики данные);

- изображения (образно-структурированные данные с различаемыми и узнаваемыми формами и цветами объектов).

Большие данные ещё больше нуждаются в структурировании. Это приоритетный способ разумно и эффективно их извлекать для обработки из мест хранения и обрабатывать без потери значимости. Без структурирования большие данные подвержены спутыванию, смешиванию, утрате смысла. Они теряются в огромных потоках информации и исчезают из поля зрения аналитиков. Когда мы говорим о возможности получать преимущества от использования больших данных, мы понимаем, что эти преимущества основаны на потенциале управления структурами данных.

Скачайте полную версию публикации и дополнительные материалы
по ссылкам в разделе 'Файлы' в левой части страницы.