Новое слово в Oracle: Advanced Analytics

Александр Рындин,
Oracle СНГ

 

Источник: блог Alexander Ryndin, 16 Январь 2012, http://www.oraclegis.com/blog/?p=2375

Oracle Database Advanced Analytics Option (далее просто Advanced Analytics) – это дальнейшее развитие опции Data Mining, присутствовавшей в СУБД Oracle начиная с версии 9.2. В этой серии статей я расскажу о том, что появилось в Oracle, чтобы переименовывать Oracle Data Mining в Advanced Analytics (забегая вперед, это Enterprise R, поддержка Hadoop и т.д.). Но начнем мы со старого доброго Oracle Data Mining – это нужно для понимания того, куда идет Oracle и почему такие подходы исповедует.

Oracle Data Mining это компонент СУБД Oracle, обеспечивающий необходимую Data Mining функциональность. Oracle Data Mining позволяет исследовать данные и выявлять скрытые закономерности, повторно эксплуатируя вложения, сделанные в СУБД Oracle. С помощью Oracle Data Mining можно строить и применять прогнозирующие модели, помогающие выявить лучших клиентов, строить детализированный профили и находить мошенические транзакции. Oracle Data Mining

Краткая история

Oracle Data Mining (ODM) – это развитие программного продукта Darwin от компании Thinking Machines Corporation. Компания была куплена Oracle в 1999. Продукт был довольно интересный, но не был широко распространен. Дистрибутив был доступен для Sun Solaris. Мне в свое время довелось использовать его для написания курсовой работы, но в последствие я отказался от его использования в пользу более молодого решения, развиваемого энергичной командой компании Megaputer.

ODM, хотя и использовал наработки Thinking Machines, но был практически полностью переписан, у него поменялась архитектура. Darwin был довольно классическим инструментом Data Mining – по сути рабочим местом аналитика. ODM же представляет собой Data Mining, тесно интегрированный в ядро СУБД Oracle, а вот сама GUI – это лишь тонкий клиент, обеспечивающий простой интерфейс к движку ODM.

В сентябре 2009, на презентации Oracle DB 11.2 было объявлено о том, что Oracle переписывает GUI-интерфейс ODM заново. Но выход релиз был задержан и его объявление прошло как-то незаметно. В настоящее время ODM доступен с новым интерфейсом.

Набор алгоритмов Data Mining

В Oracle Data Mining включены 12 алгоритмов. Ниже приведена их краткая классификация и области применения:

Техника Применимость Алгоритм
Классификация
Техника классификации использует исторические данные для построения модели, которая может быть использована для классификации новых данных и прогнозирования о принадлежности к классу (0 или 1) или классового значения (числовое)
  • Логистическая регрессия (GLM)
  • Naive Bayes
  • Support Vector Machine
  • Дерево решений
Регрессия
Прогнозирование недискретной 
величины. Например, lifetime value, house value, process yield rates
  • Множественная регрессия (GLM)
  • Support Vector Machine
Важность атрибута

Ранжирует атрибуты по влиянию на целевой атрибут. Например, поиск фактора, который влияет на положительный отклик на предложение

  • Minimum Description Length
Обнаружение аномалий
Выявляет необычные и подозрительные случаи на основе их отклонения от нормы. Например, обнаружение мошенничества в страховании, уплате налогов и т.д.
  • One-Class Support Vector Machine
Кластеризация
Полезен для исследования данных и обнаружения естественных групп. Члены каждого кластера обладают некоторым сходством. Например, построение клиентских сегментов.
  • Enhanced K-Means
  • Orthogonal Partitioning Clustering
Ассоциативные правила
Ищет правила, отражающие часто совместно встречающиеся события. Например, анализ покупательской корзины, кросс-продажи, размещение товаров в магазинах.
  • Apriori
Выделение признаков (feature extraction)
Создает новые атрибуты как линейную комбинацию существующих. Применимо для анализа текстов, семантического анализа, распознавания образов
  • Non-negative Matrix Factorization
    (NMF)

Новый GUI

Заслуживает отдельного упоминания, поскольку исторически ODM отличался бедным интерфейсом. Теперь это не так. Интерфейс ODM построен на базе SQL Developer.

Отличительные особенности Oracle Data Mining

Заключение

Oracle Data Mining – это мощный, масштабируемый движек data mining, интегрированный с базой данных Oracle. Он полезен для аналитиков, ищущих новую ценную информацию, а также для разработчиков приложений, которым нужна инфраструктура для разработки инфраструктуры прогнозирующей аналитики.

Широкий спектр алгоритмов Oracle Data Mining полностью интегрирован с СУБД и позволяет обрабатывать информацию максимально эффективно.

В следующей статье я расскажу об инсталляции ODM и покажу, как легко можно разработать модель для прогнозирования.