Advanced Analytics
Опция Oracle Advanced Analytics объединяет среду статистических исследований Oracle R Enterprise и Oracle Data Mining (ODM).
Технология Oracle Data Mining предназначена для анализа данных методами, относящимися к классу извлечения знаний (Data Mining). Основная задача этой технологии состоит в выявлении в больших наборах данных скрытых закономерностей, зависимостей и взаимосвязей, полезных при принятии решений на различных уровнях управления. Такие закономерности представляются в виде моделей различного типа, позволяющих проводить классификацию ситуаций или объектов, прогнозировать их поведение, выявлять группы сходных объектов и т.п. Существенно, что модели строятся автоматически на основе анализа имеющихся данных об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов.
Методы извлечения знаний применяются в различных областях для решения таких практических задач, как привлечение новых клиентов, выявление наиболее перспективных групп и удержание клиентов, повышение эффективности маркетинговой деятельности по продвижению продуктов и услуг, выявлению причин сбоев оборудования и т.д.
Основу Data Mining составляют процедуры, реализующие различные алгоритмы построения моделей классификации, регрессии, кластеризации. Версия Data Mining 12с поддерживает широкий спектр таких алгоритмов :
- Классификация использует исторические данные для построения модели, которая может быть использована для прогнозирования принадлежности новых данных к тому или иному классу. Для решения задач классификации в Data Mining доступны алгортмы:
- обобщенные линейные модели (GLM),
- наивные байесовские классификаторы (Naive Bayes),
- метод опорных векторов (SVM),
- деревья принятия решений;
- Кластеризация полезна для исследования данных и обнаружения естественных групп. Например, построения клиентских сегментов:
- улучшенный алгоритм k-means (на основе метрики расстояния),
- метод Orthogonal Partitioning Clustering (на основе плотности);
- Регрессия используется для прогнозирования недискретных величин:
- обобщенные линейные модели (GLM),
- метод опорных векторов (SVM);
- Определение важности атрибутов – поиск фактора, который влияет на положительный отклик на предложение – решается с помощью алгоритма Minimum Description Length;
- Обнаружение аномалий с помощью метода опорных векторов позволяет построить профиль одного класса и затем при применении отмечать случаи, так или иначе отличающиеся от этого профиля (т.е. «ненормальные» или «подозрительные»); это дает возможность обнаруживать редкие случаи, необязательно связанные друг с другом, выявить которые с помощью классификации практически невозможно.
- Поиск ассоциативных правил с помощью алгоритма Apriori позволяет выявлять часто совместно встречающиеся события. Например, выявлять совместно приобретаемые товары.
- Выделение признаков позволяет создавать новые атрибуты как линейную комбинацию уже существующих. Алгоритм применим для анализа текстов, семантического анализа, распознавания образов.
Важная особенность алгоритмов состоит в том, что все они работают непосредственно в реляционной базе данных Oracle и не требуют выгрузки и сохранения данных в специальных форматах. Кроме собственно алгоритмов, Oracle предлагает средства подготовки данных, оценки результатов, применения моделей к новым наборам данных. Использовать все эти возможности можно как на программном уровне с помощью Java API или PL/SQL API, так и с помощью графической среды Oracle Data Miner, которая представляет собой расширение для среды SQL Developer и ориентирована на работу аналитиков, решающих задачи прогнозирования, выявления тенденций, сегментации и др.
Среда Oracle R Enterprise (ORE), используя возможности Oracle Database 12с, существенно повышает производительность приложений, разработанных с помощью некоммерческого языка статистических исследований и графической визуализации R, а также на несколько порядков увеличивает объемы данных, с которыми могут работать эти приложения.
Oracle R Enterprise позволяет применять статистические и аналитические модели, разработанные на R, к данным, которые хранятся в базе данных Oracle, и использовать возможности параллельного выполнения и масштабируемость базы данных. ORE делает таблицы и представления базы данных доступными для R-среды, как если бы они были объектами R. R Enterprise умеет транслировать команды манипуляции данными R в SQL-операторы, исполнять их в базе данных и возвращать результат в привычную для аналитика среду R.
Можно также использовать встроенный в Oracle Database движок R (R Embedded) и выполнять готовые R-скрипты параллельно несколькими экземплярами R Embedded на разных наборах данных, что позволяет значительно увеличить скорость статистической обработки данных, моделирования и прогнозирования.