|
| Краткая справка к.т.н. Горчинская Ольга Юрьевна —• директор ФОРС по исследовательским проектам, Профессиональные интересы• Информационные технологии в области бизнес-анализа [От редакции FORS Magazine: Дополнительная информация по затрагиваемым в беседе вопросам приводится в двух презентациях О. Горчинской, специально обновленных для данной публикации. |
Анатолий Бачин. Добрый день, Ольга Юрьевна! Разрешите поздравить Вас с наступившим Новым 2013 годом и пожелать Вам всего самого доброго и хорошего, как полагается в таких случаях.
Ольга Горчинская. Спасибо. Всех читателей журнала также поздравляю с Новым годом!
А.Б. Вы недавно «вернулись» в ФОРС. Точнее, как я знаю по нашему многолетнему знакомству, что Вы, работая в Российском представительстве корпорации Oracle, никогда не теряли добрых и плодотворных контактов с нашей организацией, часто консультируя и непосредственно участвуя в некоторых ФОРС-проектах. Для наших читателей я скажу даже больше. Вы были в числе тех ИТ-специалистов (А. Голосов, Д. Безруков, Л. Шеметова, О. Горчинская, C. Мосин, …), которые примерно 25-30 лет назад одними из первых в нашей стране начинали изучать и работать с СУБД и другими продуктами Oracle..
О.Г. Да, я с большой радостью вернулась в ФОРС, в родной, знакомый коллектив, в атмосферу, которая мне очень близка и менее формализована. Я надеюсь, что здесь буду больше заниматься исследовательской деятельностью, изучать и внедрять новые технологии и не ограничиваться только продвижением конкретных продуктов. А поскольку корпорация Oracle является моно-вендором компании "ФОРС", то и взаимодействия с представительством Oracle в России и СНГ я постараюсь не потерять.
А.Б. К сожалению, веяния времени таковы, что бизнес и деловые отношения все-таки довольно часто мешают отношениям человеческим.
О.Г. Деловые отношения не должны зависеть от личных симпатий. Мне кажется, что сейчас все уже научились отделять одно от другого и благополучно решают возникающие проблемы. Любая компания должна продавать что-то полезное и нужное, чтобы просто существовать и жить. Но есть еще задача производства и подготовки этого нужного. И я как раз ближе к тому направлению, которое скорее отвечает за предложение, за то, чтобы было что предлагать. Другие же люди должны уметь хорошо предлагать и продавать произведенное, сделанное, взаимодействовать с заказчиками. В любом случае важны всё-таки не взаимоотношения, а направления активной и целесообразной деятельности.
А.Б.. В связи с этим принципиален первый вопрос, который я хочу задать Вам: в современном ИТ-мире термин, понятие, словосочетание Big Data стало как бы расхожим маркетинговым клише, банальным словечком. Существует большое количество определений Big Data, кто-то наивно связывает Большие Данные с сокращением объемов требуемой для хранения данных памяти, что совершеннейшая, по-моему, нелепость. Пожалуйста, изложите Ваше принципиальное понимание этого ИТ-явления, которым Вы будете руководствоваться при работе своего отделения.
О.Г. Для меня Big Data, если не вдаваться в детали, довольно понятное явление. Это новое ИТ-направление, которое появилось в связи с интенсивным использованием для бизнес-задач окружающих нас всевозможных данных. До определенного момента мы работали с данными, которые все-таки были нашими. В любой организации есть данные, с которыми она работает, для которых известны структуры, объемы, время обработки и пр., которые можно очистить, пересортировать, реструктурировать, агрегировать и тому подобное. Очень часто эти данные генерируются в результате выполнения внутренних бизнес-процессов, и ответственность за данные лежит на самой организации. В соответствии с требованиями прикладных задач организация может повысить качество данных, отбросить ненужные, добавить недостающую информацию и в любом случае хранит эти данные в своих реляционных базах данных. Сейчас всё больше стали обращать внимание на то, что для решения определенных очень важных бизнес-задач полезно использовать и ту информацию, которая нам не принадлежит, от нас не зависит, и которая может сегодня быть, а завтра может куда-то исчезнуть. То есть, некоторая ненадежность, никакого заранее гарантированного качества и достоверности,...
Но! - такая информация есть вокруг нас, и было бы хорошо её использовать. Это другая постановка задачи, и данных не только очень много, но и, что еще более существенно, сами они совершенно другие, и традиционные реляционные технологии для них не работают или оказываются неэффективными. Поэтому и нужны новые технологии и образовалось новое направление – Big Data.
А.Б. Но ведь данные и информация – это разные вещи. Из данных нужно извлекать полезную информацию.
О.Г. Ну, это было и до Big Data. Мы всегда извлекали из данных что-то полезное. Но для данных, которые находятся везде, нам не принадлежат, огромная часть которых неструктурированные тексты, это сделать еще сложнее. Прежде всего, в них сложнее искать. Именно поэтому область Big Data очень сильно связана с задачами информационного поиска. Искать по ключевым словам – это слишком слабо и мало кого устраивает. Нужно уметь искать данные по нечетким критериям, по смыслу. Поэтому сейчас развиваются и совершенствуются системы, помогающие формализовывать смыслы и искать на основе таких формальных моделей.
Я ввожу ключевое слово, а система понимает, с какими другими понятиями оно связано. И выдает мне нужную информацию, про которую я даже не спрашивала. Для этого используются специальные методы и технологи, например онтологические системы, семантические модели и др.
А.Б. Если вспомнить чудеса русских сказок, например, ковер-самолет, меч-кладенец, сапоги-скороходы,…, то сейчас это уже не чудеса. Боинги и Аэробусы гораздо быстрее и комфортнее ковров-самолетов; лазерное оружие – эффективнее любых мечей и копий; сапоги-скороходы не выдержат конкуренции с автомобилями или даже горными велосипедами… Из сказочных чудес оставалось лишь чудо-неведомое: «Пойди туда – не знаю куда!» Но с появлением на арене Больших Данных и это чудо переводится с информационного языка примерно так: «Иди, куда хочешь, последовательно или произвольно меняя направления». Можно ли это "чудо" интерпретировать как Big Data?
О.Г. Да, абсолютно. Я еще хочу добавить, что в том сказочном присловье есть и такое задание: «найди то, не знаю что!». Эта вторая строчка очень важна(!) – потому что всегда надо что-нибудь найти в этих Больших Данных. Хотя мы заранее не можем четко сформулировать критерии поиска.
А.Б. Получается, «принеси то, не знаю что!» переводится как "принеси – хоть что-нибудь, потом разберемся!" :) А окупаются ли затраты?
О.Г. Очень зависит от конкретной задачи. Сейчас, конечно, может быть чрезмерно повышен интерес к направлению Big Data. Всё-таки – это новая идея и поэтому такой бум и шум, но какой-то "сухой остаток" в конечном итоге останется. С другой стороны, я не верю, что все задачи теперь будут формулироваться в терминах Big Data. Сейчас ещё очень немного таких задач, в решении которых в организации реально есть потребность в Больших Данных, задач, которые можно отнести к этому классу. Конечно, такие задачи есть, мы стараемся их сформулировать. Они есть во всех индустриях, но по сравнению с теми всеми бизнес-задачами, которые решаются в организациях, они составляют очень-очень небольшой процент.
Резюмируя ответ на Ваш первый вопрос, я скажу, что Big Data или Большие Данные – это новое направление в области ИТ, связанное с интенсивным использованием для решения практических задач огромных объемов самой разнообразной окружающей нас информации, большая часть которой разбросана по Интернет-сайтам, возникает в социальных сетях, генерируется в результате работы различных датчиков и т.д. Традиционные технологии, основанные на хранении и обработке информации в базах данных, здесь оказываются не очень эффективными, а чаще всего вообще не работают. В настоящее время формируются новые подходы, технологии и продукты, ориентированные на работу с большими объемами быстро меняющихся разнообразных данных.
А.Б. Могли бы Вы сформулировать несколько примеров бизнес-задач, которые можно решить с помощью Big Data?
О.Г. Вернемся к тому, что Big Data – это некие внешние данные, которые хорошо было бы анализировать совместно с имеющимися в организации структурированными данными. Замечу, что это также не исключает наличия Больших Данных и в самой организации. Их главная особенность в том, что они нестандартные. Здесь нет какого-либо четкого определения. Просто есть нестандартные данные.
Приведу такой уже известный пример, когда страховое агентство расследует определенного типа страховые случаи. При этом важно использовать не только информацию, которая есть в структурированном виде, например, анкеты, которые всегда заполняют клиенты, которые хранится в базе данных. Полезно посмотреть шире и найти в Интернете, например, какие-либо отзывы о происходящих событиях или о качестве машин, если речь идет об автомобильном страховании. Или о каких-либо случаях, не связанных с конкретной ситуацией, но близких к этой. Мы пытаемся понять причину того или иного явления, а не только увидеть факт(ы). Поднялись, скажем, цены на электроэнергию, и возникает вопрос, почему они поднялись? В традиционных аналитических системах мы можем, как говорится, drill down – углубиться, спуститься до конкретного региона, где поднялись цены, до конкретного потребителя, для которого возросли эти цены, и т.п. Но – это просто локализация, а не причина, почему произошло данное явление. Чтобы понять причину, нам нужно смотреть гораздо шире. Может быть просмотреть какие-то новостные или политические сайты, или поискать какие-то статистические данные из внешних источников. Цель – соединить их с нашими конкретными данными, действительно выявить причину события или явления.
Другой пример. За последний месяц очень сильно сократился доход в нашей ретейловой компании. Можно выяснять, в каких именно районах, за счет каких продаж, за счет какого продукта это произошло. Но это не будет выявлением причины. Необходимо посмотреть шире, обратить внимание на информацию о погоде, о социально-экономических изменениях в конкретном регионе. Вдруг погода стала совершенно другой, идут сплошные дожди, а мы рассчитывали на морозы, и не удивительно, почему зимние спортивные товары, предназначенные для низких температур, не соответствуют нашим плановым прогнозам продаж.
А.Б. Можно ли Ваши слова понять таким образом, что понимание причины еще не есть руководство к действию?
О.Г. Конечно. Это скорее в каком-то смысле генерация идей, которые могут привести к каким-то управляющим действиям.. Сначала мы анализируем, понимаем, а затем принимаем решение. Глубокий анализ – это подготовка для принятия правильного решения. Для грамотного решения недостаточно самого факта, нужны идеи, которые позволили бы наиболее эффективно воздействовать на события.
Еще хотела сказать, что поскольку термин Big Data включает слово «большие», очень часто думают, что речь идет только об очень больших объемах информации. Это не совсем так. Хотя большие объемы – очень важно. Но если бы речь шла только об этом, нового направления, возможно, и не возникло. Вопросы нарастания объемов обсуждаются с самого начала появления баз данных. И вендоры постоянно увеличивают производительность своих баз данных. Эта проблема не привела бы к появлению качественно нового ИТ-направления. А сейчас речь идет о том, что работа с таким огромными объемами очень разнообразных и постоянно меняющихся нестандартных данных никак не вписываются в реляционный мир, к которому мы так привыкли.
А.Б. Какие инструменты используются при работе с Big Data?
О.Г. Основными инструментами и направлениями в этой области являются:
[Более подробно с этими инструментами читатели журнала могут познакомиться в презентациях О. Горчинской, публикуемых в этом разделе журнала – А.Б.]
Все эти направления интенсивно развиваются, но их практическое применение пока очень ограничено. Для большинства организаций понятие Больших Данных остается абстрактным понятием, далеким от решения практических задач.
Применение HADOOP, MapRews, NoSQL можно рассматривать как альтернативу традиционному хранению данных. Мы как бы возвращаемся к исходному этапу ИТ, когда еще не было баз данных, и мы на уровне приложений разбирались с данными. Базы данных как раз и возникли, когда стало понятно, что работать с данными на уровне приложений плохо, так как данные каждое приложение понимает по-своему. Поэтому и надо было отделить приложения от данных и централизованно решать задачи хранения и обработки данных – появились системы управления базами данных.. Сейчас мы на новом витке спирали как бы возвращаемся к старому – не будем структурировать, система ни за что отвечать не будет, а задача сама решит, что ей нужно найти, то есть, программист разберется, и сам сможет интерпретировать обнаруженные данные.
Data Discovery – новое направление в анализе данных. Традиционный бизнес-анализ в основном связан с различными вычислениями показателей, агрегированием и детализацией этих показателей в различных аналитических разрезах, с эффективной визуализацией результатов. А Data Discovery связан не столько с вычислениями, сколько с использованием интуитивного поиска, когда критерий поиска заранее не задан, а формируется и уточняется в процессе анализа информации. Так мы очень часто работаем в Интернете, изучая некоторую тему или пытаясь решить какой-то вопрос. Мы четко не знаем, что хотим получить, нам известны только некоторые слова. Вдруг что-то находим и постепенно обнаруживаем интересную информацию, и на деле появляются новые гипотезы, уточняется и сам запрос, и мы лучше понимаем, что именно нам нужно.
Big Data – новое направление, которое не может и не должно отменить или заменить классические ИТ-технологии, успешно используемые для решения огромного числа задач от автоматизации бизнес-процессов до традиционных систем управленческой отчетности и бизнес-анализа. Тем самым, Big Data – это расширение круга задач, которые можно решать.
А.Б. Пожалуйста, приведите пример успешного применения Big Data.
О.Г. В нашей стране пока еще очень мало таких примеров, но в мире, конечно, есть. На OOW демонстрировался пример применения Big Data в полиции Чикаго.
А.Б. Пожалуйста, расскажите о направлениях работы в Вашем подразделении.
О.Г. Основная цель подразделения исследовательских проектов компании «ФОРС» – продвижение методов и технологий для решения практических задач в различных индустриальных областях. В области Big Data задачами нашего подразделения являются:
Планируемый результат этого года – демостенды, освоенные технологии и подготовленные специалисты, которые смогут продвигать далее новые аналитические технологии, проводить консультации, а также участвовать в проектах.
А.Б. Большое спасибо за беседу. Желаю Вам и Вашим сотрудникам удачи во всех делах, начинаниях и свершениях.
О.Г. Спасибо.