Oracle Big Data Appliance–готовое решения для Big Data

Александр Рындин       ,
Oracle СНГ
       

 

Источник: блог Alexander Ryndin, 11 Февраль 2012, http://www.oraclegis.com/blog/?p=2523

Итак, мы рассмотрели предпосылки появления Oracle Big Data Appliance. Давайте теперь рассмотрим, какие компоненты взял Oracle для своего решения. Среди этих компонент есть Open Source и коммерческие решения, а также оборудование. Не следует забывать о том, что платформа Big Data внедряется не в чистом поле, а вписываются в общее информационное пространство, поэтому в конце мы рассмотрим место Oracle Big Data Appliance в стеке решений Oracle.

Программная платформа

Полный список ПО следующий

Если рассматривать компоненты решения в свете этапов использования Big Data (сбор, организация и анализ), то можно увидеть следующую картину:

Рисунок 1. Интегрированное решение Oracle для Big Data.

Сбор

Из этого рисунка можно видеть, что структурированная информация накапливается (вводится) в обычной СУБД Oracle. Эта часть обычно есть в любой компании.

Есть менее структурированная – она имеет вид ключ-значение. Ключ – это идентификатор, по которому осуществляется доступ, а значение – все что угодно: учетная запись пользователя, документ, скалярное значение и т.д. Такую информацию мы храним в базе данных Oracle NoSQL.

Есть также полностью неструктурированная информация абсолютно любого вида складируется в файловой системе. Она хранится в “обычной”, но распределенной файловой системе, что дает возможность использовать эти данные с любого узла в кластере Big Data. Эта файловая система – HDFS.

Все это, с точки зрения ETL, – источники данных: плоские файлы, базы данных  и т.д. Фактически в этой части ничего нового в Big Data не появляется.

Организация

Наибольший интерес, с точки зрения обработки информации, представляет уровень организации данных. Вот здесь, как раз, Hadoop играет ключевую роль. Его задача опустить предварительную обработку данных на уровень узла, хранящего это информацию.

На рисунке Hadoop обозначен маленьким прямоугольником, но если посмотреть внутрь, то можно увидеть, как много всего включено в этот квадратик. Если мы будем инсталлировать и настраивать его самостоятельно на многоузловой системе, то уйдет довольно много времени. Oracle не стал придумывать велосипед, а заключил союз с Cloudera. В рамках этого союза Oracle обеспечивает 1ый уровень технической поддержки, а Cludera берет на себя 2ой и 3ий.

Помимо этого Oracle предоставляет 4 модуля для интеграции с хранилищем данных, называемых коннекторами:

Часть из них предназначена для подключения Big Data к хранилищу на лету, а часть для загрузки данных.

Анализ

Как можно видеть из показанного выше рисунка предварительная обработка данных ложится на плечи Hadoop, а задачи по анализу данных решает СУБД Oracle, которую мы используем в качестве хранилища уже подготовленных данных. Oracle предоставляет следующим набор инструментов для анализа:

Есть также возможность перенести анализ данных с уровня СУБД Oracle на уровень Hadoop. Делается это за счет модуля In-Database MapReduce (на рисунке обозначен Oracle MR).

Аппаратная платформа

Аппаратная платформа Oracle Big Data представляет собой стандартный Sun Rack II 1242 Base:


Рисунок 2. Аппаратная платформа.

В этом Rack установлены:

Каждый из серверов Sun Fire X4270 M2 содержит:

Все программное обеспечение уже проинсталлировано и готово к работе.

Место Oracle Big Data Appliance в инфраструктуре Oracle

Рисунок 3 показывает место Oracle Big Data Appliance в полной экосистеме программно-аппаратных платформ Oracle для big data.  В рамках этой инфраструктуры Oracle Big Data Appliance  решает задачу сбора данных (в т.ч. долгосрочного хранения) и задачу организации данных, хранящихся в NoSQL решениях:


Рисунок 3. Место Oracle Big Data в инфраструктуре Oracle

Заключение

Анализ новых, разнообразных потоков электронных данных может дать дополнительные преимущества компаниям за счет более осмысленного взгляда на поведение клиентов, а также выявить рыночные тренды на самых ранних этапах. Но такие потоки данных создают дополнительную высокую нагрузку на ИТ департаменты. Для получения выгоды от использования Big Data нужно использовать правильные инструменты для сбор и организации данных из широкого спектра источников, а также иметь возможность легко анализировать эти данные в контексте всего информационного поля.

Oracle Big Data Appliance – это программно-аппаратная платформа, состоящая как из ПО, так и из оборудования. Она предоставляется следующие преимущества:

Используя совместно Oracle Big Data Appliance и Oracle Exadata, корпорации могу эффективно использовать все накопленные данных, включая структурированные и неструктурированные, для принятия грамотных решений.