Luck-lady.ru

Настольная книга финансиста
2 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Дискриминантный и факторный анализ

Дискриминантный анализ

Дискриминантный анализ относится к группе методов анализа зависимости и внешний вид получаемой дискриминантной функции не отличается от уравнения регрессии: D = b + b1x1+ b2x2 +..+ bkxk. В качестве зависимой переменной выступает номинальная переменная, идентифицирующая принадлежность объектов к одной из нескольких групп. Независимые переменные ( x1, x2 .. xk ) количественные и качественные.

Основной задачей дискриминантного анализа является исследование групповых различий — различие (дискриминация) объектов по определенным признакам. Дискриминантный анализ позволяет выяснить, действительно ли группы различаются между собой, и если да, то каким образом (какие переменные вносят наибольший вклад в имеющиеся различия).

При сравнении двух групп (бинарная зависимая переменная) формируется одна дискриминантная функция. Если данный метод применяется к анализу трех или более групп (множественный дискриминантный анализ), то могут формироваться несколько дискриминантных функций.

Важной проблемой дискриминантного анализа является определение дискриминантных переменных (переменных, входящих в дискриминантную функцию). Возможны два подхода. Первый предполагает одновременное введение всех переменных, в этом случае учитывается каждая независимая переменная, при этом ее дискриминирующая сила не принимается во внимание. Альтернативой является пошаговый (stepwise) дискриминантный анализ, при котором переменные вводятся последовательно, исходя из их способности различить (дискриминировать) группы. При пошаговом анализе «с включением» на каждом шаге просматриваются все переменные, и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

При пошаговом анализе «с исключением» движутся в обратном направлении, в этом случае все переменные сначала будут включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в различение. Тогда в качестве результатауспешного анализа можно сохранить только «важные» переменные в модели, т.е. те переменные, чей вклад в дискриминацию больше остальных. Пошаговый дискриминантный анализ основан на использовании уровня значимости F-статистики.

Проверка качества дискриминации (различия) основана на сравнении средних дискриминантной функции для исследуемых групп. Эти средние играют настолько важную роль в дискриминантном анализе, что получили свое название – центроиды (centroids). Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Кроме этого, значения дискриминантной функции также имеют свое название – дискриминантные показатели (discriminant scores).

Кроме предположения о мультиколлинеарности для корректного применения дискриминантного анализа также должны выполняться предпосылки нормальности распределения независимых переменных и однородности дисперсий/ковариаций (проверяется с помощью М-статистики Бокса (Box’s M)).

Рисунок 2.1 – Классификация дискриминантной функцией

Для нового объекта находится его проекция на дискриминантную ось (т.е. значение дискриминантной функции – дискриминантный показатель) и определяется, к какому из центроидов (для первой или второй группы) он более близко расположен. Соответственно, он будет отнесен к этой группе. Степень «близости» может определяться с помощью пороговых значений (если размеры групп равны, то пороговое значение – среднее арифметическое двух центроидов, если же группы не равны, то вычисляется средневзвешенная).

Задачу построения оптимальной процедуры классификации многомерных наблюдений можно сформулировать следующим образом. Заданы p— мерные наблюдения представляющие собой выборку из генеральной совокупности, описываемой так называемой смесью из m классов с плотностью вероятности

(2.1)

где — априорная вероятность появления в этой выборке элемента из класса с плотностью . Другими словами, — удельный вес элементов -го класса в общей генеральной совокупности.

Считая, что потери от неправильной классификации одинаковы для любой пары , можно задачу классификации, т.е. отнесение наблюдения (объекта) неизвестной принадлежности к классу с номером , записать как

(2.2)

Неизвестные величины в полученном правиле классификации рекомендуется заменить соответствующими оценками, полученными на базе обучающих выборок. Полагаем, что объединение всех обучающих совокупностей образует выборку объема из генеральной совокупности с законом распределения (2.1). Оценки получаются как частное от деления объема ой обучающей выборки на : .

Рассмотрим схему построения линейной дискриминантной функции, которая реализуется, когда каждый класс идентифицируется генеральной совокупностью с нормальным законом распределения. Т.е. в качестве функций используются -мерные нормальные плотности

, (2.3)

где — вектор-строка средних значений -го класса, — ковариационная матрица одинаковая для всех классов.

Неизвестные параметры заменяем оценками, которые определяются по данным обучающей выборки:

,

Как только получены оценки, их подставляют вместо неизвестных параметров в соответствующие функции и строят решающее правило. Особенно просто это правило выглядит в случае, когда распознаются только два класса, т.е. . Для этого случая правило может быть записано в следующей эквивалентной форме:

Или после логарифмирования

Учитывая, что является функцией нормальной плотности, т.е. имеет вид (2.3), полученное соотношение можно записать в следующем виде:

Предполагая далее, что априорные вероятности равны между собой, т.е. , и, проведя соответствующее преобразование последнего выражения, окончательно получаем решающее правило

в соответствии с которым наблюдение следует отнести к первому классу, если неравенство выполняется, и ко второму – в противном случае. Из решающего правила можно получить формулу для расчета коэффициентов дискриминантной функции

И применять для принятия решения не формулу, а полученную линейную функцию с коэффициентами .

Пример 2.1.Владельцам компании ОАО «Спектр» принадлежит сеть супермаркетов. В 20ХХ г. Эта компания осуществляла торговую деятельность на территории 12 регионов страны. В стратегические планы компании следующего года входит расширение сети супермаркетов за счет освоения новых рынков сбыта в других регионах. Аналитиками компании были идентифицированы наиболее значимые для решаемой задачи показатели, характеризующие социально-экономическое развитие регионов. Такими показателями оказались:

Читать еще:  Метод и методика анализа хозяйственной деятельности

1) общий объем товарооборота и платных услуг на душу населения (тыс. руб.), х1 ;

2) объем инвестиций в основной капитал на душу населения (тыс. руб.), х2 ;

3) коэффициент плотности автомобильных дорог, х3 ;

4) соотношение среднедушевых доходов и среднедушевого прожиточного минимума, х4 .

Принимая во внимание тот факт, что в некоторых регионах компания имела положительный (долговременное получение прибыли) или негативный (терпела убытки) опыт свей деятельности, эти регионы были разделены, соответственно, на две группы. В результате была сформирована таблица.

Показатели, характеризующие уровень социально-экономического развития оставшихся регионов, на территории которых ОАО «Спектр» еще не осуществлял свою деятельность, но которые входят в круг его коммерческих интересов, представлены в табл. 2.2.

Таблица 2.1 — Показатели, характеризующие уровень социально-экономического развития регионов в 20ХХ г.

Дискриминантный анализ

Дискриминантный анализ относится к группе методов анализа зависимости и внешний вид получаемой дискриминантной функции не отличается от уравнения регрессии: D = b + b1x1+ b2x2 +..+ bkxk. В качестве зависимой переменной выступает номинальная переменная, идентифицирующая принадлежность объектов к одной из нескольких групп. Независимые переменные ( x1, x2 .. xk ) количественные и качественные.

Основной задачей дискриминантного анализа является исследование групповых различий — различие (дискриминация) объектов по определенным признакам. Дискриминантный анализ позволяет выяснить, действительно ли группы различаются между собой, и если да, то каким образом (какие переменные вносят наибольший вклад в имеющиеся различия).

При сравнении двух групп (бинарная зависимая переменная) формируется одна дискриминантная функция. Если данный метод применяется к анализу трех или более групп (множественный дискриминантный анализ), то могут формироваться несколько дискриминантных функций.

Важной проблемой дискриминантного анализа является определение дискриминантных переменных (переменных, входящих в дискриминантную функцию). Возможны два подхода. Первый предполагает одновременное введение всех переменных, в этом случае учитывается каждая независимая переменная, при этом ее дискриминирующая сила не принимается во внимание. Альтернативой является пошаговый (stepwise) дискриминантный анализ, при котором переменные вводятся последовательно, исходя из их способности различить (дискриминировать) группы. При пошаговом анализе «с включением» на каждом шаге просматриваются все переменные, и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

При пошаговом анализе «с исключением» движутся в обратном направлении, в этом случае все переменные сначала будут включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в различение. Тогда в качестве результатауспешного анализа можно сохранить только «важные» переменные в модели, т.е. те переменные, чей вклад в дискриминацию больше остальных. Пошаговый дискриминантный анализ основан на использовании уровня значимости F-статистики.

Проверка качества дискриминации (различия) основана на сравнении средних дискриминантной функции для исследуемых групп. Эти средние играют настолько важную роль в дискриминантном анализе, что получили свое название – центроиды (centroids). Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Кроме этого, значения дискриминантной функции также имеют свое название – дискриминантные показатели (discriminant scores).

Кроме предположения о мультиколлинеарности для корректного применения дискриминантного анализа также должны выполняться предпосылки нормальности распределения независимых переменных и однородности дисперсий/ковариаций (проверяется с помощью М-статистики Бокса (Box’s M)).

Рисунок 2.1 – Классификация дискриминантной функцией

Для нового объекта находится его проекция на дискриминантную ось (т.е. значение дискриминантной функции – дискриминантный показатель) и определяется, к какому из центроидов (для первой или второй группы) он более близко расположен. Соответственно, он будет отнесен к этой группе. Степень «близости» может определяться с помощью пороговых значений (если размеры групп равны, то пороговое значение – среднее арифметическое двух центроидов, если же группы не равны, то вычисляется средневзвешенная).

Задачу построения оптимальной процедуры классификации многомерных наблюдений можно сформулировать следующим образом. Заданы p— мерные наблюдения представляющие собой выборку из генеральной совокупности, описываемой так называемой смесью из m классов с плотностью вероятности

(2.1)

где — априорная вероятность появления в этой выборке элемента из класса с плотностью . Другими словами, — удельный вес элементов -го класса в общей генеральной совокупности.

Считая, что потери от неправильной классификации одинаковы для любой пары , можно задачу классификации, т.е. отнесение наблюдения (объекта) неизвестной принадлежности к классу с номером , записать как

(2.2)

Неизвестные величины в полученном правиле классификации рекомендуется заменить соответствующими оценками, полученными на базе обучающих выборок. Полагаем, что объединение всех обучающих совокупностей образует выборку объема из генеральной совокупности с законом распределения (2.1). Оценки получаются как частное от деления объема ой обучающей выборки на : .

Рассмотрим схему построения линейной дискриминантной функции, которая реализуется, когда каждый класс идентифицируется генеральной совокупностью с нормальным законом распределения. Т.е. в качестве функций используются -мерные нормальные плотности

Читать еще:  Анализ эмпирических данных это

, (2.3)

где — вектор-строка средних значений -го класса, — ковариационная матрица одинаковая для всех классов.

Неизвестные параметры заменяем оценками, которые определяются по данным обучающей выборки:

,

Как только получены оценки, их подставляют вместо неизвестных параметров в соответствующие функции и строят решающее правило. Особенно просто это правило выглядит в случае, когда распознаются только два класса, т.е. . Для этого случая правило может быть записано в следующей эквивалентной форме:

Или после логарифмирования

Учитывая, что является функцией нормальной плотности, т.е. имеет вид (2.3), полученное соотношение можно записать в следующем виде:

Предполагая далее, что априорные вероятности равны между собой, т.е. , и, проведя соответствующее преобразование последнего выражения, окончательно получаем решающее правило

в соответствии с которым наблюдение следует отнести к первому классу, если неравенство выполняется, и ко второму – в противном случае. Из решающего правила можно получить формулу для расчета коэффициентов дискриминантной функции

И применять для принятия решения не формулу, а полученную линейную функцию с коэффициентами .

Пример 2.1.Владельцам компании ОАО «Спектр» принадлежит сеть супермаркетов. В 20ХХ г. Эта компания осуществляла торговую деятельность на территории 12 регионов страны. В стратегические планы компании следующего года входит расширение сети супермаркетов за счет освоения новых рынков сбыта в других регионах. Аналитиками компании были идентифицированы наиболее значимые для решаемой задачи показатели, характеризующие социально-экономическое развитие регионов. Такими показателями оказались:

1) общий объем товарооборота и платных услуг на душу населения (тыс. руб.), х1 ;

2) объем инвестиций в основной капитал на душу населения (тыс. руб.), х2 ;

3) коэффициент плотности автомобильных дорог, х3 ;

4) соотношение среднедушевых доходов и среднедушевого прожиточного минимума, х4 .

Принимая во внимание тот факт, что в некоторых регионах компания имела положительный (долговременное получение прибыли) или негативный (терпела убытки) опыт свей деятельности, эти регионы были разделены, соответственно, на две группы. В результате была сформирована таблица.

Показатели, характеризующие уровень социально-экономического развития оставшихся регионов, на территории которых ОАО «Спектр» еще не осуществлял свою деятельность, но которые входят в круг его коммерческих интересов, представлены в табл. 2.2.

Таблица 2.1 — Показатели, характеризующие уровень социально-экономического развития регионов в 20ХХ г.

Поисковая геохимия

воскресенье, 25 января 2015 г.

Дискриминантный анализ в Statistica

Дискриминация (от лат. discriminatio -различение) в математической статистике – выявление различий между объектами исследования. Если общества развитых стран борются с дискриминацией, то для статистиков – это хлеб насущный.

Итак, дискриминантный анализ служит для выявления линейных зависимостей между двумя и более группами. Он является как разведочным, так и подтверждающим. То есть, мы можем как найти статистические зависимости обуславливающие различие между группами, так и использовать их для дальнейшей дискриминации других объектов.

Сам по себе дискриминантный метод является линейным методом, а потому имеет много общего с дисперсионным (ANOVA) и регрессионным методами.

Данный метод предъявляет ряд требований к данным:

  1. Нормальность признаков
  2. Одинаковая дисперсия признаков в группах
  3. Различие в средних

В принципе, данными условиями можно пренебречь. Главное, что бы работало. При этом чем меньше соблюдаются условия – тем меньше будет процент верной классификации. Вот и всё.

Важно отметить, что в геохимии мы имеем дело, как правило, с нелинейными закономерностями. Но это не означает, что линейные функции подходят неудовлетворительно. По своему опыту дискриминации интрузий, аномалий и пр. объектов, – использование нейросетей для дискриминации позволяло улучшить результат всего на 2-5%.

Рис. 1. Выборка данных.

Допустим мы имеем выборку силикатных анализов трёх типов интрузий: Норильский тип — продуктивный и несёт оруденение; Зубовский – похож на Норильский, но непродуктивный; Нижнеталнахский – совсем “пустой”. Дополнительно, в выборку добавлен ряд проб с нового объекта и нам потребуется выяснить к какому типу относится он. Важно отметить, что в нашем случае, каждый тип охарактеризован разным количеством проб в силу неравномерности изучения, но никак не природной встречаемости (это важно).

Лог-нормальные данные были предварительно прологарифмированы. О том, как проверить данные на нормальность – см. ранние посты.

Рис. 2. Строим графики типа ящик-с-усами.

Данные графики показывал как строить ранее, потому у вас затруднений не должно быть.

Графики типа ящик-с-усами показывают различие в средних и дисперсии, то что нам нужно для предварительной разведки данных.

Рис. 3. График распределения оксида хрома по типам интрузий.

Типичный график с высоким различием объектом. Посмотрите, ящики Норильского и Нижнеталнахского типов не пересекаются, средние однозначно различаются. Дисперсия (ширина ящика) у Норильского типа выше, но этим можно пренебречь. Теоретически, можно проводить дискриминацию уже по оксиду хрома – посчитать необходимое количество проб, и вперед, но мы хотим большего – большей надежности и качества за счёт использования других переменных.

Рис. 4. График распределения оксида марганца по типам интрузий.

Типичный график со слабым различием между группами.

Рис. 5. Традиционный дискриминантный анализ.

Ниже есть выбор анализа General Discriminant (Общий дискриминантный). Для него доступны категориальные независимые переменные (у геохимиков, это например, название вмещающих горных пород, их возраст; у кредиторов – внешний вид заёмщика). Так же, там имеется кросс-проверка результатов. Тем не менее, выбрал “традиционный” анализ, потому что в таком случае можно еще провести канонический анализ и полнее расммотреть зависимости.

Читать еще:  Анализ инновационного производства

Рис. 6. Определение переменных и групп для анализа.

Рис. 7. Выбор параметров проведения анализа.

В данном случае можно выбрать один из трёх методов выбора переменных:

  1. стандартного, когда включаются сразу все переменные;
  2. последовательного включения, когда включаются данные у которых F больше определённого значения (уточняется в Advanced);
  3. последовательного исключения, когда из всех переменных исключаются те, у которых значение F меньше определённого значения (выставляется в Advanced).

F значение – отношение межгрупповой дисперсии к внутригрупповой.

Рис. 8. Итоговая характеристика анализа.

Итак, из тринадцати переменных анализ выбрал одиннадцать. Последней включённой переменной оказался оксид магния с F = 2,306. Лямбда Уилкса составила 0,19, что близко к нулю и является хорошим результатом. То есть, можно ожидать выского процента верной классификации.

Рис. 9. Таблица переменных участвовавших в дискриминантном анализе.

Как видно из таблицы, максимальные различия вносят переменные оксида хрома, калия, и железа II.

Рис. 10. Результаты классификации.

Перед выводом отчётных таблиц необходимо определиться с априорными вероятностями (Apriori classification probabilities). Как говорил в самом начале, у нас количество проб не влияет на природную встречаемость интрузий, а обусловлено лишь неравномерным изучением объектов. Поэтому следует выбрать равнозначные априорные вероятности. Тем не менее, если вы имеете априорную информацию (например, встречаемость интрузий в конкретном районе, или вероятность нахождения интрузий по геофизическим данным), или хотите подстраховаться, то можно самостоятельно расставить априорные вероятности через пункт User Defined.

Затем выведем таблицы: фукнций классификации, матрицы классификаций и таблицу классификации проб. Каждая таблица зависит от априорных вероятностей.

Рис. 11. Функции классификации.

Так то тут представлены коэффициенты к дискриминантным функциям типа y=ax+b. Выигрывает тот тип, значение дискриминантной функции которого принимает максимальное значение.

Рис. 12. Матрица результатов классификации.

В строках матрицы — наблюдаемые значения, в колонках – предсказанные. Таким образом, Норильский тип чаще всего путаем с Зубовским, и реже с Нижнеталнахским.

Верная классикация происходит в 88% случаев, зная это с помощью биномиального распределения можно расчитать необходимое количество проб для дискриминации объектов.

Рис. 13. Таблица результатов классификации.

В выборку были добавлены пробы без определённого типа интрузии, но они так же были проанализированы и в большинстве своём относятся к Норильскому типу.

Рис. 14. Проведение канонического анализа.

Канонический анализ – аналогичен методу главных компонент и служит для выявления связей между двумя и более множествами переменных.

Рис. 15. Параметры канонического анализа.

Рис. 16. Тест Хи-квадрат канонических корней.

В данной таблице показываются все канонические корни и их статистическая значимость. Обращаем внимание на значимые корни. В данном случае, два корня и оба статистически значимы.

Рис. 17. Факторный анализ канонических корней.

Объяснить структуру канонических корней можно по таблице факторных нагрузок, которая аналогична одноименной в факторном анализе. Если кто сомневается, то можно подглядеть в графики типа ящик-с-усами.

Если рассмотреть данную таблицу вместе с графиков канонических значений (рис. 19), то увиидим, что чем меньше значение Lg(Cr2O3) и блольше Lg(K2O) тем больше значение Корня 1, а значит, тем более вероятнее классификация Нижнеталнахского типа. Корень 2 разделяет Норильский и Зубовский типы: чем больше SiO2, Na2O и FeO и чем меньше Fe2O3 и MgO, тем более вероятен Зубовский тип.

Получается, что для Нижнеталхнаского типа характерна калиевая специализация с обедненностью хромом, а для Норильского типа характерна хромово-магниевая специализация с повышенной окисленностью железа.

Рис. 18. Построение графика распределения канонических значений.

Рис. 19. График распределения канонических значений.

Рис. 20. Добавление средних значений на график.

Поскольку, в дискриминации всё упирается в средние значения, то логично вынести их на график. Скопируем средние значения канонических корней из соответствующей таблицы.

На графике щёлкам правой клавишей мышки и выбраем пункт “Graph Data Editor” – редактор данных графика

Рис. 21. Добавление нового графика.

В любом месте щелкаем правой клавишей мышки и выбираем пункт “Add new plot” – добавить новый график. Вставляем скопированные средние значения.

Рис. 22. Итоговый график распределения канонических значений.

Канонические корни аналогичны факторам – являются латентными призаками. То есть все отдельные особенности переменных объединяются в новые математические переменные. Они не являются доказательством определённых геохимических процессов проиходивших в недрах, но могут их отражать, потому называются латентными. Удобство сокращения тринадцати переменных в две на глазах.

Кроме всего, на графике можно посмотреть форму групп, их положение, а так же наличие ошибок в данных – если пробы отходят сильно далеко от своих групп, то скорее всего они являются ошибочно классифицированными, вплоть до определения нового типа интрузии.

На графике, например, можно увидеть отдалённые три пробы Норильского типа, которые находятся в поле Нижнеталнахского. Надо их проверить.

Ссылка на основную публикацию
Adblock
detector