v¦bo project
Бизнес-данные
Нужно больше данных
Сбор и хранение данных
Сбор и хранение данных
Свойства
Автор: Тюрин Владислав
Дата публикации: 09 сентября 2015
Поделиться
Файлы
Новое
Чем хороши шаблоны, условия для бизнеса на старте, как менеджеры теряют время,...
Как работать по 12 часов в день, какая экономика может себе позволить инновации,...
Абсолютная экономическая эффективность, как статистика измеряет прошлое, ещё...
Поиск
c l i c k ! m e
В публикации рассматривается понятие больших данных с точки зрения потребностей и возможностей бизнеса. Сфера внедрения технологий, основанных на больших данных, обширна. Но именно для бизнеса стоит насущная проблема их обработки исходя из экономической целесообразности и извлечения практической выгоды от больших и разнородных объемов данных. Цель публикации дать представление о больших данных и аналитики, рационального их применения в бизнес среде.

Сбор и хранение данных

Сбор и хранение данных – это процесс получения данных, их преобразования, упаковывания и упорядочивания в форматы хранения, их внесение в некоторое место хранения в дополнение к уже имеющимся там.

Получение данных осуществляется двумя способами: непосредственно их сбором (регистрацией) от некоторого источника информации или получением от стороннего лица ранее собранных и обработанных массивов данных. Каждый из способов имеет свои преимущества и недостатки. Для примера достаточно указать, что сбор данных от источника занимает время и специальные инструменты, а приобретение данных у стороннего лица влечет финансовые затраты.

Традиционно, бизнес уделяет много внимания сбору транзакционных экономических и технологических данных. Для этого предназначены учетные системы, автоматизированные системы управления, корпоративные информационные системы. Данные полученные таким образом имеют весьма высокую степень релевантности и достоверности. В противовес транзакционным данным, покупка больших маркетинговых данных для соответствующего анализа сопряжена с финансовыми и репутационными рисками. Очевидно, что необходим тщательный выбор способов получения информации и её источников.

Источник информации – это объект (процесс, событие, явление) от которого можно получить информацию о нем самом, либо о другом объекте (процессе, событии, явлении).

Обычно источники делят на две большие группы: внутренние и внешние. Внутренние источники находятся внутри бизнеса, зависимы от него и в определенной степени подконтрольны. Внешние источники – вне бизнес-модели, относительно независимы от бизнеса и не всегда доступны. В наибольшей степени бизнес может влиять на сбор данных от внутренних источников и в наименьшей – от внешних. Иногда это оказывает решающее влияние на качество данных и мешает получению пригодной для дальнейшего оборота информации. Умение находить внешние и выявлять внутренние источники – это составляющая системы управления большими данными.

Получение данных сопряжено с некоторыми оценками их качества. Весьма полезно собирая наборы данных и помещая их на хранение, оценивать их с качественной стороны.

Показатели качества данных:

- актуальность данных – соответствие данных временному и смысловому контексту сбора, хранения и последующей их обработки;

- объективность и достоверность данных – насколько данные отражают реальную ситуацию и не противоречат ли действительности;

- полнота данных – в достаточном ли объеме собраны данные, для всестороннего анализа и не упущена ли какая-то их составляющая;

- релевантность данных – соответствие данных целям и задачам их сбора, хранения и последующей обработки;

- чистота данных – присутствие в данных избыточного их количества, дублирования, не нужных фрагментов и т.п.

- примитивность данных – являются ли данные объективно зарегистрированными или обработаны какими-либо инструментами;

- ценность данных – насколько важны данные для бизнеса в процессе сбора, хранения и последующей их обработки.

Приходится вводить простые и комплексные критерии качества данных. Но совершенно необходимо их вводить для оценки данных и их использования в последующих операциях обработки, хранения, извлечения. Именно по критериям качества существенно разняться внутренние и внешние источники. А во многих случаях оценка качества данных сопряжена с оценкой качества их источника.

Общепринятые методы сбора информации: наблюдение, считывание, тестирование, интервью, эксперимент, моделирование. В общей схеме сбора информации присутствуют такие элементы как источник информации, сборщик информации, фильтр (отбор) источников информации, метод сбора информации, информационный фильтр (критерии отбора данных). Организация сбора данных требует профессиональных знаний, опыта и предварительной подготовки с учетом специфики бизнеса.

Полученные данные для последующего использования необходимо сохранить. Структурирование имеет особое значение при сохранении данных в хранилищах (местах долговременного размещения данных). Отчетливо надо понимать, что в хранилища должны попадать управляемые данные. При этом технологии хранения строго устанавливают правила форматов и типов данных, которые допускается в них размещать. Конечно же любые правила можно обойти и искусно упаковать любую информацию в любое хранилище, по крайней мере в самом примитивном виде или представлении. Но такие нарушения окажут плохую службу в дальнейшем, когда возникнет потребность получить с хранения информацию, а обнаружить её и извлечь в целостности просто невозможно.

Во многом правила мест хранения, обусловленные технологиями и форматами, предъявляют существенные ограничения к структуре сохраняемых данных и к параметрам их индексации. Для решения ряда вопросов привлекается специалист по технологиям хранения данных. И может выйти так, что требования хранилища будут противоречить потребностям бизнеса. Эти противоречия придется рано или поздно устранять, изменяя потребности, корректирую поведение хранилища или перемещая данные в другое хранилище. Соответственно, приступая к работе с большими данными не стоит недооценивать вопрос выбора хранилища.

Задача хранилища – это выдать данные по требованию его клиента. Казалось бы, место хранения решает вопрос размещения данных. Но ведь по сути, мы сохраняем данные, чтобы потом их каким-то способом обработать. Извлечение данных из хранилища – это вторая и, пожалуй, наиболее важная сторона проблемы хранения данных. Зачастую клиент обращается в хранилище имея общее представление о запрашиваемой информации. Кроме того, получая какие-то данные, клиент должен понимать связаны ли с ними иные данные и какие. Извлечь некий набор конечных данных из места хранения – это половина дела. С целевыми данными могут быть соотнесены метаданные, контекстные данные или любые иные данные имеющиеся (или даже не имеющиеся) в хранилище. Да и сам процесс получения данных имеет ряд технологических особенностей, начиная от конкуренции за конкретные их фрагменты и кончая нарушением их целостности в хранилище. Возникает потребность в подготовке и проведении исследования данных в хранилищах.

Теперь, когда мы оценили сложность больших данных, разберемся, как и что с ними делать, чтобы существенно повысить их результативность для бизнеса.

Скачайте полную версию публикации и дополнительные материалы
по ссылкам в разделе 'Файлы' в левой части страницы.