Luck-lady.ru

Настольная книга финансиста
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Многомерный анализ данных это

Многомерный анализ данных на основе OLAP

Для решения аналитических задач, связанных со сложными расчетами, прогнозированием, моделированием сценариев «Что, если…» применяется технология многомерного анализа данных — Технология OLAP. Концепция OLAP впервые была описана в 1993 году Эдгаром Коддом, известным исследователем баз данных и автором реляционной модели данных, в книге “OLAP для пользователей-аналитиков: каким он должен быть”, где он изложил 12 законов аналитической обработки данных, по которым разработчики OLAP-продуктов живут и сейчас:

1. Концептуальное многомерное представление данных.

2. Прозрачность (прозрачный доступ к внешним данным для пользователя, позволяя ему, где бы он ни находился, связываться при помощи аналитического инструмента с сервером).

3. Доступность и детализация данных.

4. Постоянная производительность при разработке отчетов (Если число измерений или объем базы данных увеличиваются, пользователь-аналитик не должен чувствовать ухудшение в производительности).

5. Клиент-серверная архитектура (OLAP доступен с рабочего стола).

6. Общая многомерность.

7. Динамическое управление разреженными матрицами.

8. Многопользовательская поддержка. Часто бывает, что несколько пользователей-аналитиков испытывают потребность работать совместно с одной аналитической моделью или создавать различные модели из единых данных. И OLAP-инструмент должен предоставлять возможности совместного доступа (запроса и дополнения), целостности и безопасности.

9. Неограниченные перекрестные операции.

10. Интуитивная манипуляция данными.

11. Гибкие возможности получения отчетов.

12. Неограниченная размерность и число уровней агрегации (аналитический инструмент должен предоставлять не менее 15 измерений одновременно, а предпочтительно 20).

Недостатки обычных отчетов для менеджера очевидны: у руководителя нет времени выбирать интересующие цифры из отчёта, тем более что их может оказаться слишком много. Сложность отчетов для понимания, неудобство работы с ними привели к необходимости создания новой концепции работы с данными.

Когда аналитику необходимо получить информацию, он самостоятельно или с помощью программиста делает соответствующий SQL-запрос к базе данных, получает интересующие его данные в виде отчета. Отчеты могут строиться по заказу или по достижению некоторых событий или времени. При этом возникает множество проблем. Прежде всего, аналитик чаще всего не владеет навыками высокоуровневого программирования и не может самостоятельно осуществить SQL-запрос к базе данных. Кроме того, аналитику необходим не один отчет, а их множество и в реальном масштабе времени. Программисты же, которые легко могут осуществлять любые запросы к базе данных, если и будут ему помогать, то не постоянно, ведь у них есть и своя собственная работа. Массовые запросы к серверу базы данных усложняют работу и тех работников компании, которые постоянно работают с базами данных.

Концепция OLAP появилась именно для разрешения подобных проблем. OLAP (OnLine Analytical Processing) – это оперативная аналитическая обработка больших объемов данных в режиме реального времени. Цель OLAP-систем – облегчение решения задач анализа больших объемов данных и быстрая обработка сложных запросов к базе данных.

• не программный продукт

• не язык программирования

OLAP – это совокупность концепций, принципов и требований, облегчающих аналитикам доступ к данным. Это инструмент для многомерного динамического анализа больших объемов данных в режиме реального времени.

Задача аналитика — находить закономерности в больших массивах данных. Аналитик не будет обращать внимания на отдельно взятый факт, ему нужна информация о нескольких десятках подобных событий. Одиночные факты в базе данных интересны, к примеру, бухгалтеру или работнику отдела продаж, в компетенции которого находится сделка. Аналитику одной записи мало — ему, к примеру, могут понадобиться все сделки данного филиала или представительства за месяц, год. Заодно аналитик отбрасывает ненужные ему подробности вроде ИНН покупателя, его точного адреса и номера телефона, индекса контракта и тому подобного. В то же время данные, которые требуются аналитику для работы, обязательно содержат числовые значения — это обусловлено самой сущностью его деятельности.

Многомерный набор данных часто представляют в виде OLAP – куба (см. рис.26). Оси OLAP-куба содержат параметры, а ячейки — зависящие от них агрегатные данные.

Рис. 26 OLAP – куб

Кубы OLAP представляют собой, по сути, мета-отчеты. Преимущества кубов очевидны — данные необходимо запросить из базы данных всего один раз — при построении куба. Поскольку аналитики, как правило, не работают с информацией, которая дополняется и меняется «на лету», сформированный куб является актуальным в течение достаточно продолжительного времени. Благодаря этому, не только исключаются перебои в работе сервера баз данных (нет запросов с тысячами и миллионами строк ответов), но и резко повышается скорость доступа к данным для самого аналитика.

Но есть и значительный недостаток: куб OLAP может занимать в десятки, и даже сотни раз больше места, чем исходные данные.

Читать еще:  Многомерный анализ это

OLAP – куб совсем не обязательно должен быть трехмерным. Он может быть и двухмерным и многомерным — в зависимости от решаемой задачи. Аналитикам может понадобиться более 20 измерений — серьезные OLAP-продукты именно на такое количество и рассчитаны. Более простые настольные приложения поддерживают не более 6 измерений.

Должны быть заполнены далеко не все элементы куба: если отсутствует какая-либо информация, значение в соответствующей ячейке ей просто не будет определено. Совершенно необязательно также, чтобы приложение OLAP хранило данные непременно в многомерной структуре — главное, чтобы для пользователя эти данные выглядели именно так.

Наполнение OLAP — куба может вестись как реальными данными из оперативных систем, так и прогнозируемыми на основе исторических данных. Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения. В процессе анализа пользователь может менять точку зрения на данные (так называемая операция смены логического взгляда), тем самым просматривая данные в различных разрезах и разрешая конкретные задачи. Над кубами могут выполняться различные операции, включая прогнозирование и условное планирование (анализ типа “что, если”).

Трехмерный куб легко можно изобразить и представить. Однако адекватно представить или изобразить шестимерный или двадцатимерный куб почти невозможно. Поэтому перед употреблением из многомерного куба извлекают обычные двумерные таблицы, т.е. как бы «разрезают» измерения куба по меткам. Разрезая OLAP кубы по измерениям, аналитик получает, фактически, интересующие его «обычные двумерные отчеты» (не обязательно отчеты в обычном понимании этого термина — речь идет о структурах данных с такими же функциями). Эта операция называется «разрезанием» куба. Этим способом аналитик получает двумерный срез куба и с ним работает. Нужные разрезы — это отчёты.

Взаимодействуя с OLAP-системой, пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных, и выполнять аналитические операции детализации, свертки, сквозного распределения, сравнения во времени (см. рис.27).

Рис. 27 Получение произвольных срезов данных при разрезании OLAP куба.

Многомерные методы анализа данных;

Статистическая проверка научной гипотезы

Статистическая проверка научной гипотезы проводится с целью выявления меры правдоподобности ее принятия. Педагогическая гипотеза в процессе статистического анализа переводится на язык статистической науки и заново формулируется в виде статистических гипотез. В начале формулируется нулевая гипотеза, в которой исследователь утверждает, что предлагаемый им новый метод не обладает какими-либо преимуществами пред старым, т.е. различия между ними объявляются равными нулю. Если по результатам исследования нулевая гипотеза опровергается, то выдвигается альтернативная гипотеза, в которой делается предположение о преимуществе нового метода. Нулевая гипотеза опровергается в тех случаях, когда разница в значениях средней арифметической экспериментальной и контрольной групп значительна, а риск ошибки в выводах не превышает 5 процентов (в пяти случаях из ста экспериментов).

Пример выявления такой меры правдоподобности (опровержения или подтверждения нулевой гипотезы) приводится у П.И.Образцова (стр. 154-156)[2].

Многомерные методы анализа данных применяются с целью обнаружения скрытых закономерностей, выявления наиболее существенных связей между переменными путем анализа взаимосвязи между большим количеством этих переменных. К таким методам относят факторный анализ, кластерный анализ, дисперсионный анализ, регрессионный анализ, латентно-структурный анализ, многомерное шкалирование и др.

Факторный анализ заключается в выявлении и интерпретации факторов. Фактор – обобщенная переменная, которая позволяет свернуть часть информации, т.е. представить ее в удобообозримом виде. Например, факторная теория личности выделяет ряд обобщенных характеристик поведения, которые в данном случае называются чертами личности.

Кластерный анализ позволяет выделить ведущий признак и иерархию взаимосвязей признаков.

Дисперсионный анализ – статистический метод, используемый для изучения одной или нескольких одновременно действующих и независимых переменных на изменчивость наблюдаемого признака. Его особенность состоит в том, что наблюдаемый признак может быть только количественным, в то же время объясняющие признаки могут быть как количественными, так и качественными.

Регрессионный анализ позволяет выявить количественную (численную) зависимость среднего значения изменений результативного (объясняемого) признака (переменной) от изменений одного или нескольких объясняющих признаков (переменных). Как правило, данный вид анализа применяется в том случае, когда требуется выяснить насколько изменяется средняя величина одного признака при изменении на единицу другого признака.

Латентно-структурный анализ представляет собой совокупность аналитико-статистических процедур выявления скрытых переменных (признаков), а также внутренней структуры связей между ними. Он дает возможность исследовать проявления сложных взаимосвязей непосредственно наблюдаемых характеристик социально-психологических и педагогических феноменов. Латентный анализ может стать основой для моделирования указанных взаимосвязей.

Читать еще:  Анализ совокупного спроса и предложения

Многомерное шкалирование обеспечивает наглядную оценку сходства или различия между некоторыми объектами, описываемыми большим количеством разнообразных переменных. Эти различия представляются в виде расстояния между оцениваемыми объектами в многомерном пространстве.

Понятие «многомерный анализ данных»

МНОГОМЕРНЫЙ АНАЛИЗ ДАННЫХ

Фундамент статистики как науки составляют эмпирические наблюдения за окружающим нас миром.

Одномерный статистический анализ представляет частный случай многомерного.

Практически все задачи одномерного анализа ставятся и решаются в предположении того, что в природе существует так называемый гауссовский закон распределения данных.

Регрессионный анализ

Основной целью регрессионного анализа является определение наличия и характера связи между переменными (в простейшем случае строится зависимость y(x) исходя из примерной формы кривой). Несколько лет назад американский Институт стратегического планирования провел исследование «Маркетинговая стратегия и уровень прибыли», в котором рассматривалось влияние наиболее значимых переменных на уровень прибыли компании. Выяснилось, что график зависимости рентабельности – у, от доли рынка – х, выглядит следующим образом (рис. 1):

Рис. 1. График зависимости рентабельности от доли рынка

Невооруженным взглядом видно, что это прямая, однако точные ее пара- метры помогает установить регрессионный анализ. Регрессионный анализ широко используется в офисном пакете Excel, который предоставляет возможность исследовать не только линейные, но и другие, более сложные зависимости (в Excel это называется построением линий трендов).

Регрессионный анализ – метод установления аналитического выражениястохастической зависимости между исследуемыми признаками. Уравнение регрессии показывает, как в среднем изменяется y при изменении любого из xi, и имеет вид: y=f(x1, x2,…,xn), где y – зависимая переменная (всегда одна); xi – независимые переменные (факторы) (их может быть несколько).

В ходе регрессионного анализа решаются две основные задачи: построение уравнения регрессии, т.е. нахождение вида зависимости между результатным показателем и независимыми факторами x1, x2,…, xn; оценка значимости полученного уравнения, т.е. определение того, насколько выбранные факторные признаки объясняют вариацию признака y.

Применяется регрессионный анализ главным образом для планирования, а также для разработки нормативной базы. В отличие от корреляционного анализа, который только отвечает на вопрос, существует ли связь между анализируемыми признаками, регрессионный анализ дает и ее формализованное выражение.

Кроме того, если корреляционный анализ изучает любую взаимосвязь факторов, то регрессионный – одностороннюю зависимость, т.е. связь, показывающую, каким образом изменение факторных признаков влияет на признак результативный.

Задача на использование методов корреляционного и регрессионного анализа.

Наибольшим спросом в торговых точках города, реализующих молочную продукцию, пользуется молоко «Лето», выпускаемое в пакетах объемом 1 л. Цены за единицу этого товара в разных торговых точках варьируют. Известно, что реализация этого продукта вносит существенный вклад в общую выручку торговых точек. Возможно, она влияет и на величину прибыли предприятий торговли. Так ли это – установите с помощью анализа.

Корреляционный анализ

Корреляционный анализ позволяет судить о том, насколько похоже ведут себя разные переменные. В самом общем виде принятие гипотезы о наличии корреляции означает, что изменение значения переменной А произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут, то корреляция положительная; если одна переменная растет, а вторая уменьшается – корреляция отрицательная. При изучении корреляций стараются установить, существует ли какая- то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Корреляционный анализ – метод установления связи и измерения ее тесноты между наблюдениями, которые можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону. Корреляционной связью называется такая статистическая связь, при которой различным значениям одной переменной соответствуют разные средние значения другой. Основной особенностью корреляционного анализа следует признать то, что он устанавливает лишь факт наличия связи и степени ее тесноты, не вскрывая причин. В статистике теснота связи может определяться с помощью различных коэффициентов (Пирсона, коэффициента ассоциации и т.д.), чаще используется линейный коэффициент корреляции между факторами x и y:

Значения коэффициента корреляции изменяются в интервале [-1; +1]. Значение r = –1 свидетельствует о наличии жестко детерминированной обратно пропорциональной связи между факторами; r =+1 соответствует жестко детерминированной связи с прямо пропорциональной зависимостью факторов. Другие значения коэффициента корреляции свидетельствуют о наличии стохастической связи, причем, чем ближе к единице, тем связь теснее. При ,

Полезные статьи → Статистические методы анализа данных для решения практических задач (часть вторая)

Опрос сотрудников, клиентов, потребителей – не просто сбор информации, это полноценное исследование. А целью всякого исследования является научно- обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать.

Читать еще:  Анализ выпуска продукции

Анализ данных исследования – ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных.

Методы анализа данных многообразны. Выбор конкретного метода анализа данных зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ.

Можно выделить два класса процедур анализа данных:

  • одномерные (дескриптивные) и
  • многомерные.

Многомерные типы анализа данных

Многомерный анализ данных позволяет одновременно исследовать взаимоотношения двух и более переменных и проверять гипотезы о причинных связях между ними.

Техники многомерного анализа разнообразны. Мы рассмотрим следующие:

  1. Факторный анализ
  2. Кластерный анализ

Факторный анализ

Суть факторного анализа, состоит в том, чтобы имея большое число параметров, выделить малое число макропараметров, которыми и будут определяться различия между измеряемыми параметрами. Это позволит оптимизировать структуру анализируемых данных.

Применение факторного анализа преследует две цели:

  • сокращение числа переменных;
  • классификация данных.

Факторный анализ довольно полезен на практике. Приведем несколько примеров.

Перед вами стоит задача исследовать имидж компании. Клиенту предлагается оценить данную компанию по целому ряду критериев, общее число которых может превышать несколько десятков. Применение факторного анализа в данном случае позволяет снизить общее количество переменных путем распределения их в обобщенные пучки факторов, например, «материальные условия компании», «взаимодействие с персоналом», «удобство обслуживания».

Еще одним случаем применения данного метода может служить составление социально-психологических портретов потребителей. Респонденту необходимо выразить степень своего согласия/несогласия с перечнем высказываний о стиле жизни. В итоге, можно выделить, например, целевые группы потребителей: «новаторы», «прогрессисты» и «консерваторы».

Актуальным примером исследования в сфере банковского дела, может послужить, изучение уровня доверия клиента к банку, которое можно описать следующими факторами:

— надежность сделок (включающий такие параметры, как сохранность средств, возможность беспрепятственного их перевода);

— обслуживание клиентов (профессионализм сотрудников, их благожелательность) и

— качество обслуживания (точность выполнение операций, отсутствие ошибок) и др.

Кластерный анализ

Кластерный анализ (от англ. сluster – сгусток, пучок, гроздь) – это один из способов классификации объектов. Он позволяет рассматривать достаточно большой объем информации, сжимая его и делая компактными и наглядными.

Термин «кластерный анализ» был введен в 1939 году английским ученым Р. Трионом, предложившим соответствующий метод, который сводился к поиску групп с тесно коррелирующим признаком в каждой из них.

Целью кластерного анализа является выделение сравнительно небольшого числа групп объектов, как можно более схожих между собой внутри группы, и как можно более отличающихся в разных группах. В настоящее время разработано достаточно большое число алгоритмов кластерного анализа. Однако, попробуем объяснить его суть, не прибегая к строгому теоретизированию.

Допустим, вы планируете провести опрос потребителей, (а все потребители разные), и вам, соответственно, необходимы различные стратегии для их привлечения. Для решения данной задачи мы предлагаем сегментировать клиентов, прибегнув к методу кластеризации. Для этого выполняем следующие шаги:

  1. формируем выборку и проводим опрос клиентов,
  2. определяем переменные (характеристики), по которым будем оценивать респондентов в выборке,
  3. вычисляем значения меры сходства и различия между ответами респондентов,
  4. выбираем метод кластеризации (т.е. правила объединения респондентов в группы),
  5. определяем оптимальное число кластеров (групп).

В результате получаем таблицу следующего содержания:

Информация, представленная в таблице, позволяет нам составить портрет клиентов каждого кластера, которые впоследствии необходимо учитывать при составлении стратегии успешного продвижения продукта на рынке.

Кластерный анализ хорошо зарекомендовал себя, и на сегодняшний день применяется в различных прикладных областях:

  • В социологии: разделение респондентов на различные социально-демографические группы.
  • В маркетинге: сегментация рынка по группам потребителей, группировка конкурентов по факторам конкурентоспособности.
  • В менеджменте: выделение групп сотрудников с разным уровнем мотивации, выявление мотивирующих/демотивирующих факторов в организации, классификация конкурентоспособных отраслей и поставщиков, и др.
  • В медицине — классификация симптомов, признаков заболеваний, пациентов, препаратов для успешной терапии.
  • А также психиатрии, биологии, экологии, информатике и т.д.

Рассмотренные методики относятся к анализу данных, полученных в ходе проведения количественных исследований.

По вопросам расчета индексов:

Телефон: +7 (383) 203-49-99

Начало (часть первая) и продолжение (часть третья) статьи «Статистические методы анализа данных для решения практических задач».

Ссылка на основную публикацию
Adblock
detector