| Александр Рындин
, Oracle СНГ |
Источник: блог Alexander Ryndin, 9 Февраль 2012, http://www.oraclegis.com/blog/?p=2501
![]() |
Термин “big data” в последнее время наделал много шуму, но если проанализировать, то за маркетинговой шелухой можно увидеть довольно простые посылы. Десятилетиями компании принимали решения основываясь лишь на транзакционных данных, хранящихся в реляционных базах данных. Помимо этих, очевидно очень ценных, данных существует ряд нетрадиционных, менее структурированных источников: журналы веб-серверов (logs), социальные сети, почта, датчики, фотографии и т.д., которые могут быть использованы для получения довольно полезной информации.
Снижение стоимости хранения данных и увеличение доступных вычислительных мощностей делает возможным сбор этих данных. Как следствие, все больше компаний исследуют возможности по включению этих ценных данных в орбиту бизнес-аналитики.
Для получения выгоды от big data необходимо использовать “правильные” инструменты для сбора и организация данных из различных источников, а также иметь возможность легко анализировать их в контексте традиционных корпоративных данных. Oracle предлагает исчерпывающий, интегрированный набор продуктов для этих целей.
Введение
Недавно Oracle анонсировал программно-аппаратный комплекс Oracle Big Data Appliance, что сделало ее первым вендором, предлагающим исчерпывающее, интегрированное решения для обработки всего спектра корпоративных данных, в т.ч. big data.
Стратегия Oracle по отношению к big data построена вокруг идеи интеграции инфраструктуры big data в существующую корпоративную инфраструктуру, т.е. big data это не замена существующих хранилищ, а дополнение.
Определение понятия “big data”
Говоря о big data, обычно ссылаются на следующие типы данных:
По оценка McKinsey Global Institute объем данных растет на 40% каждый год и приведет к 44-кратному росту в период 2009-2020. Объем это наиболее очевидная, но не единственная характеристика big data. Следующие 4 характеристики обычно свойственные big data:
Компаниям необходимо эволюционно изменять ИТ инфраструктуру, чтобы интегрировать такие данные в общее информационное поле и иметь возможность обработки быстро генерируемых, объемных, слабо-структурированных типов данные.
Важность Big Data
После сбора, очистки и анализа big data совместно с традиционными корпоративными данными компании могут лучше понять свой бизнес, что приведет к повышению эффективности, лучшим позициям по сравнению с конкурентами и инновационному развитию – все это влияет на прибыль.
Например, в медицине, отслеживание состояния хронических больных достаточно дорогой процесс. Использования домашних измерительных устройств для измерения и исследования динамики жизненно важных показателей улучшает состояние пациентов и минимизирует необходимость посещения больниц и поликлиник.
Компании, занимающиеся промышленным производством, встраивают серию датчиков в свои продукты, чтобы постоянно получать поток телеметрии. Некоторые компании, предоставляющие сервисы (например, OnStar) предоставляют коммуникационные и навигационные сервисы, а также сервисы безопасности. Важно также то, что телеметрия позволяет выявить шаблоны использования, пороги отказа и другие возможности для улучшения продуктов, что влияет на стоимость разработки и сборки.
Широкое распространение смартфонов и других устройств со встроенным GPS предоставляет еще одну возможность для таргетирования маркетинга потребителей, находящихся в непосредственной близости от магазина или кафе. Это создает дополнительный доход для сервисных провайдеров, а для бизнеса дает возможность привлечь новых клиентов.
Ритейлеры обычно знают, кто покупает их продукты. Использование социальных сетей и журналов веб-сервером может помочь им понять “кто не купил” и почему. Сейчас такая информация обычно недоступна. Это дает возможность микросегментации клиентов и более таргетированных маркетинговых кампаний, а также повысить эффективность цепочек поставки (supply chain).
Социальные сети, такие как Facebook и ВКонтакте просто не могут существовать без big data. Их бизнес-модель требует персонализированного подхода к каждому пользователю, а он может быть обеспечен только при условии сбора и использования всех данных о пользователях.
Общие подходы к построению решения Big Data
Подобно хранилищу данных, веб-магазину и любой другой ИТ платформе инфраструктура для big data имеет ряд уникальных требований. Выбирая компоненты платформы big data нужно держать в уме, что конечной целью является ее простая интеграция с другими корпоративными данными, чтобы получить не 2 отдельных информационных поля, а одно расширенное с большими возможностями.
Требование к инфраструктуре
Требования к инфраструктуре big data простираются на 3 этапа обработки информации: сбор, организация и анализ.
Сбор Big Data
Эта фаза претерпевает наибольшие изменения по сравнению с тем, что было до big data. Big data подразумевает большие потоки данных и их разнообразность. Поэтому инфраструктура должна поддерживать:
Базы данных NoSQL часто используются для хранения big data. Они приспособлены для динамических структур данных и хорошо масштабируются. Данные, хранимые в NoSQL базах данных обычно довольно разнообразны, поскольку такие системы предназначены для простого сбора всех данных без их категоризации и парсинга.
Например, базы данных NoSQL часто используются для сбора и хранения данных в социальных сетях. Поскольку приложения с которыми работают пользователи очень быстро меняются структура данных делается максимально простой. Вместо того, чтобы разрабатывать схему данных со связями между сущностями создают простые структуры, содержащие основной ключ для идентификации данных и привязанное к нему содержимое (ключ-значение). Такие простые и динамические структуры позволяют проводить изменения, не выполняя сложную и дорогую реорганизацию на уровне хранилища.
Организация Big Data
В терминах классических хранилищ данных организация данных называет интеграцией. Поскольку объем big data очень велик наблюдается тенденция к “организации” данных там, где они хранятся, тем самым за счет исключения переноса данных экономится время и деньги. Для организации данных нужна инфраструктура, способная:
Hadoop это новая технология, позволяющая организовывать и обрабатывать большие объемы данных, сохраняя их в исходном месте – кластере хранения. Как пример – Hadoop Distributed File System (HDFS) может служить долгосрочная системой хранения журналов веб-серверов. Эти журналы можно организовать: по сессия пользователей, а затем агрегировать с помощью программ MapReduce. Результаты агрегации можно загрузить в реляционную базу данных для всестороннего анализа.
Анализ Big Data
Поскольку данные во время фазы организации не выносятся за пределы первоначального хранения, то и их анализ можно выполнить в распределенной среде непосредственно там, где эти данные хранятся. Хранилище данных должно прозрачно получать доступ к результатам анализа вне зависимости от того, как он производится. Инфраструктура анализа big data должна:
Также очень важно, чтобы инфраструктура могла интегрировать анализ big data и традиционных корпоративных данных. Ценные знания зачастую появляются из анализа новых big data в контексте старых традиционных данных.
Например, анализ данных о запасах товара в торговых аппаратах совместно с календарем мероприятий и местом установки может дать оптимальный набор товаров и график их пополнения.
Спектр решений
Появилось довольно много новых технологий, которые призваны решить задачи, описанные выше. По последним подсчетам существует уже около 120 баз данных ключ-значение с открытым исходным кодом, предназначенных для сбора и хранения big data; реляционные базы данных расширяют свои возможности, чтобы хранить и анализировать big data. Все эти новые системы можно подразделить на следующие группы:
Системы NoSQL разработаны, чтобы собирать все данных без их категоризации и парсинга в момент поступления их в систему, поэтому данные в них довольно разнообразны. С другой стороны, SQL системы обычно помещают данные в довольно жесткую структуру и предоставляют полноценные метаданные, чтобы контролировать целостность и корректность типов данных.
![]()
Рисунок 1. Спектр решений
Распределенные файловые системы и транзакционные (ключ-значение) базы данных используются как основное средство хранения данные и обычно соответствуют требованиям, описанным ранее. Для извлечения и очистки информации из данных в этих решениях используется парадигма программирования, называемая MapReduce. Программы MapReduce это специально разработанные программы, способные работать в параллельном режиме на распределенных узлах данных.
NoSQL базы данных ключ-значение это OLTP базы данных мира big data; они оптимизированы для быстрого сбора данных и очень простых запросов. NoSQL базы могут обеспечить очень высокую производительность, поскольку собираемые данные сохраняются без преобразования их к жесткой схеме данных.
Однако вследствие своей изменчивой структуры базы NoSQL требуют больших усилий от программистов для интерпретации логики хранения данных. Кроме того базы NoSQL не поддерживают сложные запросы. Все это делает сложным использование таких баз данных конечными пользователями для самостоятельно анализа.
Чтобы извлечь максим выгоды из решений NoSQL и превратить их из “разработчико-центричных” систем в решения для корпораций, нужно интегрировать их с SQL-решениями единой инфраструктурой, удовлетворяющей требованиям управляемости и безопасности современных компаний.
Заключение
Направление Big Data появилось в недрах крупных интернет-компаний, которым нужно было решение способное:
Можно считать, что интернет-компании нашли и эффективно используют такое решение. На текущий момент в корпоративной среде при внедрении Big Data мы имеем:
Чтобы решить эти проблемы Oracle выпускает программно-аппаратный комплекс, который:
В следующей статье я расскажу о самом решении Oracle Big Data Appliance.