| Александр Рындин, Oracle СНГ |
Источник: блог Alexander Ryndin, 16 Январь 2012, http://www.oraclegis.com/blog/?p=2375
Скрипт для автоматического запуска GoldenGate на Linux
![]()
![]() |
Oracle Database Advanced Analytics Option (далее просто Advanced Analytics) – это дальнейшее развитие опции Data Mining, присутствовавшей в СУБД Oracle начиная с версии 9.2. В этой серии статей я расскажу о том, что появилось в Oracle, чтобы переименовывать Oracle Data Mining в Advanced Analytics (забегая вперед, это Enterprise R, поддержка Hadoop и т.д.). Но начнем мы со старого доброго Oracle Data Mining – это нужно для понимания того, куда идет Oracle и почему такие подходы исповедует.
Oracle Data Mining это компонент СУБД Oracle, обеспечивающий необходимую Data Mining функциональность. Oracle Data Mining позволяет исследовать данные и выявлять скрытые закономерности, повторно эксплуатируя вложения, сделанные в СУБД Oracle. С помощью Oracle Data Mining можно строить и применять прогнозирующие модели, помогающие выявить лучших клиентов, строить детализированный профили и находить мошенические транзакции. Oracle Data Mining
Oracle Data Mining (ODM) – это развитие программного продукта Darwin от компании Thinking Machines Corporation. Компания была куплена Oracle в 1999. Продукт был довольно интересный, но не был широко распространен. Дистрибутив был доступен для Sun Solaris. Мне в свое время довелось использовать его для написания курсовой работы, но в последствие я отказался от его использования в пользу более молодого решения, развиваемого энергичной командой компании Megaputer.
ODM, хотя и использовал наработки Thinking Machines, но был практически полностью переписан, у него поменялась архитектура. Darwin был довольно классическим инструментом Data Mining – по сути рабочим местом аналитика. ODM же представляет собой Data Mining, тесно интегрированный в ядро СУБД Oracle, а вот сама GUI – это лишь тонкий клиент, обеспечивающий простой интерфейс к движку ODM.
В сентябре 2009, на презентации Oracle DB 11.2 было объявлено о том, что Oracle переписывает GUI-интерфейс ODM заново. Но выход релиз был задержан и его объявление прошло как-то незаметно. В настоящее время ODM доступен с новым интерфейсом.
В Oracle Data Mining включены 12 алгоритмов. Ниже приведена их краткая классификация и области применения:
| Техника | Применимость | Алгоритм |
| Классификация |
Техника классификации использует исторические данные для построения модели, которая может быть использована для классификации новых данных и прогнозирования о принадлежности к классу (0 или 1) или классового значения (числовое) |
|
| Регрессия |
Прогнозирование недискретной величины. Например, lifetime value, house value, process yield rates |
|
| Важность атрибута |
Ранжирует атрибуты по влиянию на целевой атрибут. Например, поиск фактора, который влияет на положительный отклик на предложение |
|
| Обнаружение аномалий |
Выявляет необычные и подозрительные случаи на основе их отклонения от нормы. Например, обнаружение мошенничества в страховании, уплате налогов и т.д. |
|
| Кластеризация |
Полезен для исследования данных и обнаружения естественных групп. Члены каждого кластера обладают некоторым сходством. Например, построение клиентских сегментов. |
|
| Ассоциативные правила |
Ищет правила, отражающие часто совместно встречающиеся события. Например, анализ покупательской корзины, кросс-продажи, размещение товаров в магазинах. |
|
| Выделение признаков (feature extraction) |
Создает новые атрибуты как линейную комбинацию существующих. Применимо для анализа текстов, семантического анализа, распознавания образов |
|
Заслуживает отдельного упоминания, поскольку исторически ODM отличался бедным интерфейсом. Теперь это не так. Интерфейс ODM построен на базе SQL Developer.
![]()
Oracle Data Mining – это мощный, масштабируемый движек data mining, интегрированный с базой данных Oracle. Он полезен для аналитиков, ищущих новую ценную информацию, а также для разработчиков приложений, которым нужна инфраструктура для разработки инфраструктуры прогнозирующей аналитики.
Широкий спектр алгоритмов Oracle Data Mining полностью интегрирован с СУБД и позволяет обрабатывать информацию максимально эффективно.
В следующей статье я расскажу об инсталляции ODM и покажу, как легко можно разработать модель для прогнозирования.