v¦bo project
Бизнес-данные
Нужно больше данных
Разные виды данных
Свойства
Автор: Тюрин Владислав
Дата публикации: 09 сентября 2015
Поделиться
Файлы
Новое
Чем хороши шаблоны, условия для бизнеса на старте, как менеджеры теряют время,...
Как работать по 12 часов в день, какая экономика может себе позволить инновации,...
Абсолютная экономическая эффективность, как статистика измеряет прошлое, ещё...
Поиск
c l i c k ! m e
В публикации рассматривается понятие больших данных с точки зрения потребностей и возможностей бизнеса. Сфера внедрения технологий, основанных на больших данных, обширна. Но именно для бизнеса стоит насущная проблема их обработки исходя из экономической целесообразности и извлечения практической выгоды от больших и разнородных объемов данных. Цель публикации дать представление о больших данных и аналитики, рационального их применения в бизнес среде.

Разные виды данных

Для управления большими данными потребуется разбираться в их сущности. Сопоставление данных, объединение, разделение, пересечение и иные способы обработки могут осуществляться только при понимании характеристик данных. Большие данные нуждаются в определении типа и вида, классификации, индексировании, ранжировании, стандартизации, в установлении приоритетов.

Классификация данных – определение характерных свойств данных, которые позволяют разделять их на отдельные группы с учетом особенностей их сбора, обработки, (в том числе структурирования), хранения и извлечения.

Само понятие «большие данные» наделяет информацию некоторым дополнительным смыслом. Например, традиционно для бизнеса было достаточным собрать и сохранить информацию о сделке в виде транзакционных сведений о покупке:

- какой товар куплен и сколько,

- по какой цене,

- какая скидка предоставлена,

- в какое время совершена покупка.

Теперь, учитывая понятие «больших данных», бизнес вынужден расширить традиционное представление о собираемых сведениях по сделке и увеличить плотность данных о регистрируемом событии, включив в данные о покупке:

- профиль клиента,

- предпочтения покупателя,

- передвижение покупателя по торговому залу,

- вопросы покупателя продавцам-консультантам,

- реакцию покупателя на обращение работников торговой точки,

- время, проведенное в торговом зале и в зоне кассового обслуживания,

- способ расчетов,

- инциденты, связанные с покупателем и работниками, которые с ним общались.

Соответственно, может оказаться полезным при структурировании и классификации выделять «традиционные» данные и «дополнительные данные». В том числе это позволит оценить эффект от использования больших данных.

По своей сути, когда для некоторых данных устанавливается определенная классификация – это введение дополнительных данных о других данных. Такие дополнительные данные не регистрируются и не собираются относительного некоторого субъекта, а формируются как характеристика других данных.

Метаданные – данные о данных.

Метаданные обеспечивают богатые возможности при обработке данных и их анализе. Как правило метаданные – это результат оценки обычных данных, наделяющий их дополнительными свойствами – что само по себе означает аналитическое («кабинетное») увеличение массивов больших данных.

Метаданные – это относительная категория: когда в отношении одних данных говориться, что они являются метаданными для других данных. Без такой относительности метаданные бессмысленны.

Несколько другая, но тоже относительная категория данных, это – контекстные данные.

Контекстные данные – данные сопровождающие (окружающие) другие данные.

Контекстными называются данные, которые показывают в какой ситуации были собраны, сохранены, обработаны, структурированы прямые данные. Нужны ли контекстные данные аналитику? Несомненно, они влияют на определение закономерностей, взаимных связей, формулирование выводов.

Чаще данные контекстно связываются через указание времени их регистрации (сбора, обработки). Контекст, как правило, зависит от последовательного изменения бизнеса и трансформации внешней среды и время - это основной элемент сопряжения прямых и контекстных данных. Так же, как и для метаданных, говорить о контекстных данных целесообразно в отношении каких-то других (прямых) данных. Часто данные составляют взаимный контекст друг другу.

Обработка данных неминуемо ведет к созданию новых массивов, которые уже не собраны от первоисточников и не являются результатом скрупулёзной регистрации, а представляют собой итоги расчетов, сортировки, фильтрации, слияния, пересечения. Разные уровни обработки данных порождают различные категории получаемых данных. За этим приходится следить и учитывать в дальнейшем. Исключить путаницу, специалистам помогает разделение на:

- первичные данные – это простые данные непосредственно полученные от источника информации;

- вторичные данные – это обработанные данные, которые определяют или иллюстрируют выводы, полученные на базе первичных данных;

- третичные данные – это обработанные и нормализованные данные, которые устанавливают и стандартизируют информацию (знания).

В целом же данные, в зависимости от степени их обработки, формируют некоторые слои в хранилище. Для последующего анализа требуется сохранить взаимные отношения между слоями, между первичными данными и полученными на их основе вторичными и третичными данными.

Классификацию данных можно осуществлять по:

- смысловому содержимому данных;

- плотности собираемых данных;

- размерности единиц данных;

- целям использования данных;

- источникам данных;

- способам обработки данных;

- форматам хранения данных;

- приоритету данных для бизнеса;

- отраслям данных;

- культурным особенностям данных.

Классифицируя данные принципиально понимать различие их источников. Данные объекта, это не то же самое, что данные события. Данные процесса, это совсем не то же самое, что данные атрибута. Всегда следует помнить, о чем и от какого источника получены ваши данные.

Почему большие данные нуждаются в классификации? Да потому что работать с большими данными сложно. Крайне сложно в больших данных уследить за отдельными элементами или наборами. Крайне сложно извлекать нужные, актуальные, релевантные данные для аналитики и принятия решения. Классификация – это инструмент управления большими данными и это тот инструмент, который разделив данные на группы, существенно повышает их управляемость.

Скачайте полную версию публикации и дополнительные материалы
по ссылкам в разделе 'Файлы' в левой части страницы.