Luck-lady.ru

Настольная книга финансиста
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Линейный регрессионный анализ

Линейная регрессия в машинном обучении

Линейная регрессия ( Linear regression ) — модель зависимости переменной x от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости.

Линейная регрессия относится к задаче определения «линии наилучшего соответствия» через набор точек данных и стала прос тым предшественником нелинейных методов, которые используют для обучения нейронных сетей. В этой статье покажем вам примеры линейной регрессии.

Применение линейной регрессии

Предположим, нам задан набор из 7 точек (таблица ниже).

Цель линейной регрессии — поиск линии, которая наилучшим образом соответствует этим точкам. Напомним, что общее уравнение для прямой есть f (x) = m⋅x + b, где m — наклон линии, а b — его y-сдвиг. Таким образом, решение линейной регрессии определяет значения для m и b, так что f (x) приближается как можно ближе к y. Попробуем несколько случайных кандидатов:

Довольно очевидно, что первые две линии не соответствуют нашим данным. Третья, похоже, лучше, чем две другие. Но как мы можем это проверить? Формально нам нужно выразить, насколько хорошо подходит линия, и мы можем это сделать, определив функцию потерь.

Функция потерь — метод наименьших квадратов

Функция потерь — это мера количества ошибок, которые наша линейная регрессия делает на наборе данных. Хотя есть разные функции потерь, все они вычисляют расстояние между предсказанным значением y( х) и его фактическим значением. Например, взяв строку из среднего примера выше, f(x)=−0.11⋅x+2.5, мы выделяем дистанцию ошибки между фактическими и прогнозируемыми значениями красными пунктирными линиями.

Одна очень распространенная функция потерь называется средней квадратичной ошибкой (MSE). Чтобы вычислить MSE, мы просто берем все значения ошибок, считаем их квадраты длин и усредняем.

Вычислим MSE для каждой из трех функций выше: первая функция дает MSE 0,17, вторая — 0,08, а третья — 0,02. Неудивительно, что третья функция имеет самую низкую MSE, подтверждая нашу догадку, что это линия наилучшего соответствия.

Рассмотрим приведенный ниже рисунок, который использует две визуализации средней квадратичной ошибки в диапазоне, где наклон m находится между -2 и 4, а b между -6 и 8.

Слева: диаграмма, изображающая среднеквадратичную ошибку для -2≤m≤4, -6≤p≤8 Справа: тот же рисунок, но визуализирован как контурный график, где контурные линии являются логарифмически распределенными поперечными сечениями высоты.

Глядя на два графика, мы видим, что наш MSE имеет форму удлиненной чаши, которая, по-видимому, сглаживается в овале, грубо центрированном по окрестности (m, p) ≈ (0.5, 1.0). Есл и мы построим MSE линейной регрессии для другого датасета, то получим аналогичную форму. Поскольку мы пытаемся минимизировать MSE, наша цель — выяснить, где находится самая низкая точка в чаше.

Больше размерностей

Вышеприведенный пример очень простой, он имеет только одну независимую переменную x и два параметра m и b. Что происходит, когда имеется больше переменных? В общем случае, если есть n переменных, их линейная функция может быть записана как:

Один трюк, который применяют, чтобы упростить это — думать о нашем смещении «b», как о еще одном весе, который всегда умножается на «фиктивное» входное значение 1. Другими словами:

Добавление измерений, на первый взгляд, ужасное усложнение проблемы, но оказывается, постановка задачи остается в точности одинаковой в 2, 3 или в любом количестве измерений. Существует функция потерь, которая выглядит как чаша — гипер-чаша! И, как и прежде, наша цель — найти самую нижнюю часть этой чаши, объективно наименьшее значение, которое функция потерь может иметь в отношении выбора параметров и набора данных.

Итак, как мы вычисляем, где именно эта точка на дне? Распространенный подход — обычный метод наименьших квадратов, который решает его аналитически. Когда есть только один или два параметра для решения, это может быть сделано вручную, и его обычно преподают во вводном курсе по статистике или линейной алгебре.

Проклятие нелинейности

Увы, обычный МНК не используют для оптимизации нейронных сетей, поэтому решение линейной регрессии будет оставлено как упражнение, оставленное читателю. Причина, по которой линейную регрессию не используют, заключается в том, что нейронные сети нелинейны.

Читать еще:  Какова исходная предпосылка кейнсианского анализа

Различие между линейными уравнениями, которые мы составили, и нейронной сетью — функция активации (например, сигмоида, tanh, ReLU или других).

Эта нелинейность означает, что параметры не действуют независимо друг от друга, влияя на форму функции потерь. Вместо того, чтобы иметь форму чаши, функция потерь нейронной сети более сложна. Она ухабиста и полна холмов и впадин. Свойство быть «чашеобразной» называется выпуклостью, и это ценное свойство в многопараметрической оптимизации. Выпуклая функция потерь гарантирует, что у нас есть глобальный минимум (нижняя часть чаши), и что все дороги под гору ведут к нему.

Минимум функции

Но, вводя нелинейность, мы теряем это удобство ради того, чтобы дать нейронным сетям гораздо большую «гибкость» при моделировании произвольных функций. Цена, которую мы платим, заключается в том, что больше нет простого способа найти минимум за один шаг аналитически. В этом случае мы вынуждены использовать многошаговый численный метод, чтобы прийти к решению. Хотя существует несколько альтернативных подходов, градиентный спуск остается самым популярным методом.

Регрессионный анализ связи. Линейная регрессия: определение параметров. Множественная регрессия и корреляция

Для количественного описания взаимосвязей между экономическими переменными в статистике используют методы регрессии и корреляции.

Регрессия — величина, выражающая зависимость среднего значения случайной величины у от значений случайной величины х.

Уравнение регрессии выражает среднюю величину одного признака как функцию другого.

Функция регрессии — это модель вида у = л», где у — зависимая переменная (результативный признак); х — независимая, или объясняющая, переменная (признак-фактор).

Линия регрессии — график функции у = f (x).

2 типа взаимосвязей между х и у:

1) может быть неизвестно, какая из двух переменных является независимой, а какая — зависимой, переменные равноправны, это взаимосвязь корреляционного типа;

2) если х и у неравноправны и одна из них рассматривается как объясняющая (независимая) переменная, а другая — как зависимая, то это взаимосвязь регрессионного типа.

Виды регрессий:

1) гиперболическая — регрессия равносторонней гиперболы: у = а + b / х + Е;

2) линейная — регрессия, применяемая в статистике в виде четкой экономической интерпретации ее параметров: у = а+b*х+Е;

3) логарифмически линейная— регрессия вида: In у = In а + b * In x + In E

4) множественная — регрессия между переменными у и х1 , х2 . xm, т. е. модель вида: у = f(х1 , х2 . xm)+E, где у — зависимая переменная (результативный признак), х1 , х2 . xm— независимые, объясняющие переменные (признаки-факторы), Е- возмущение или стохастическая переменная, включающая влияние неучтенных факторов в модели;

5) нелинейная — регрессия, нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам; или регрессия, нелинейная по оцениваемым параметрам.

6) обратная — регрессия, приводимая к линейному виду, реализованная в стандартных пакетах прикладных программ вида: у = 1/a + b*х+Е;

7) парная — регрессия между двумя переменными у и x, т. е, модель вида: у = f (x) + Е, где у -зависимая переменная (результативный признак), x – независимая, объясняющая переменная (признак — фактор), Е — возмущение, или стохастическая переменная, включающая влияние неучтенных факторов в модели.

Корреляция — величина, отражающая наличие связи между явлениями, процессами и характеризующими их показателями.

Корреляционная зависимость — определение зависимости средней величины одного признака от изменения значения другого признака.

Коэффициент корреляции величин х и у (rxy) свидетельствует о наличии или отсутствии линейной связи между переменными:

где (-1; 1). Если: = -1, то наблюдается строгая отрицательная связь; = 1, то наблюдается строгая положительная связь; = 0, то линейная связь отсутствует.

— ковариация, т. е. среднее произведение отклонений признаков от их средних квадратических отклонений.

Коэффициент корреляции может служить мерой зависимости случайных величин.

Корреляция для нелинейной регрессии:

при R [0;1].

Чем ближе R к 1, тем теснее связь рассматриваемых признаков.

Читать еще:  Методы системного анализа кратко

Множественная регрессия — регрессия между переменными у и x1,x2,…,xm. Т. е. модель вида: у = f (x1,x2,…,xm)+E

где у — зависимая переменная (результативный признак);

x1,x2,…,xm— независимые, объясняющие переменные (признак-фактор); Е- возмущение, или стохастическая переменная, включающая влияние неучтенных факторов в модели.

Множественная регрессия применяется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах. Цель множественной регрессии — построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также их совокупное воздействие на моделируемый показатель.

Основные типы функций, используемые при количественной оценке связей: линейная функция: у = а + a1х1 + а2х2,+ . + amxm. Параметры a1, а2, am, называются коэффициентами «чистой» регрессии и характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне; нелинейные функции:у=ах1 b 1 х2 b 2 . xm bm — — степенная функция; b1, b2. bm — коэффициенты эластичности; показывают, насколько % изменится в среднем результат при изменении соответствующего фактора на 1 % и при неизменности действия других факторов.

— гипербола;

— экспонента.

Регрессионный анализ. Множественная линейная регрессия.

Регрессионный анализ. Простая линейная регрессия.

Регрессионный анализ – статистический метод исследования зависимости между зависимой переменной и одной или несколькими независимыми переменными. Независимые переменные иначе называют регрессорами или предикторами, а зависимые

переменные – критериальными. Существую различные виды регрессионного анализа – одномерная и многомерная, линейная и нелинейная, параметрическая и непараметрическая. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия.

Порядковую регрессию можно использовать, когда зависимые переменные относятся к порядковой шкале. И, конечно же, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.

Рассмотрим линейные модели простую и множественную регрессию.

Простая линейная регрессия.

Простой регрессионный анализ предназначен для выявления взаимосвязи одной зависимой переменной и одной независимой переменной. Аналогом простой регрессии является однофакторный ANOVA при условии, что независимая переменная будет измерена в номинальной шкале.

Основные требования к простому регрессионному анализу:

— переменные должны быть измерены в шкале интервалов или отношений;

— предположительно нормальное распределение переменных;

— отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной; исходя из этого, следует избегать включения в анализ переменных, корреляции между которыми больше 0,8.

— число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

Основными показателями простого регрессионного анализа являются:

β-коэффициенты (Beta) – стандартизированные __________коэффициенты регрессии, знак которых

соответствует знаку корреляции независимой и зависимой переменной;

B – коэффициенты регрессии;

R – коэффициент множественной корреляции;

R2 – коэффициент множественной детерминации (чем он выше, тем больше процентов

дисперсии зависимой переменной объясняет данная модель);

F – критерий Фишера и его достоверность;

В простом линейном регрессионном анализе квадратный корень из коэффициента

детерминации, обозначаемый «R», равен корреляционному коэффициенту Пирсона. При

множественном анализе эта величина менее наглядна, нежели сам коэффициент детерминации. Величина «смещенный R-квадрат» всегда меньше, чем несмещенный.

Принципиальный вопрос о том, может ли вообще имеющаяся связь между переменными

рассматриваться как линейная, проще и нагляднее всего решать, глядя на соответствующую диаграмму рассеяния. Кроме того, в пользу гипотезы о линейной связи говорит также высокий уровень дисперсии, описываемой уравнением регрессии.

Регрессионный анализ. Множественная линейная регрессия.

Множественная регрессия состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Во множественной линейной регрессии предпосылки регрессионного анализа и его проведение полностью совпадают с простой линейной регрессией. Особенностью множественной регрессии является корреляция независимых переменных. Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных, установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной.

Читать еще:  Дискриминантный и факторный анализ

Основные требования и показатели множественного регрессионного анализа такие же, как и для простой регрессии.

Требования — отсутствие линейных взаимосвязей между переменными, переменные должны быть измерены в шкале интервалов или отношений и предположительно должны иметь нормальное распределение.

Показатели — стандартизированные коэффициенты регрессии, коэффициенты регрессии, коэффициент множественной корреляции, коэффициент множественной детерминации, критерий Фишера и его достоверность.

Желательно отбирать для множественного регрессионного анализа те независимые

переменные, которые сильно коррелируют с зависимой переменной, в то же время, они должны слабо коррелировать друг с другом. Если независимых переменных много, то целесообразно перед множественным регрессионным анализом провести факторный анализ (направлен на редукцию данных).

Существует 3 вида методов множественной регрессии. Стандартный метод – учитывает все зависимые переменные. Пошаговые методы (прямой и обратный) позволяют подобрать наиболее оптимальную комбинацию независимых переменных. Поэтому, на мой взгляд, для множественного анализа следует выбрать один из пошаговых методов.

При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной пошагово увязываются в регрессионное уравнение.

При обратном методе начинают с результата, содержащего все независимые переменные и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым.

Необходимо отметить, что разные варианты пошагового метода могут давать разные результаты, поэтому Вы можете применить каждый из них, а потом выбрать более подходящий конечный результат.

Множественный регрессионный анализ может применяться как в исследовательских целях, так и для решения прикладных задач. Обычно множественная регрессия применяется для изучения возможности предсказания некоторого результата по ряду предварительно измеренных характеристик.

Также помимо предсказания и определения степени его точности множественная регрессия позволяет определить и то, какие показатели, или независимые переменные, наиболее существенны и важны для предсказания, а какие переменные можно просто исключить из анализа.

Аналогом множественной регрессии является многофакторный дисперсионный анализ в том случае, когда независимые переменные измерены в номинальной шкале.

К тому же, если зависимая переменная измерена в номинальной шкале, то стоит воспользоваться вторым аналогом множественной регрессии – дискриминантным анализом.

Однако, дискриминантный анализ это не просто аналог множественной регрессии, он выполняет не только функцию поиска предикторов, но еще и позволяет оптимально точно классифицировать объекты на группы, соответствующие разным градациям зависимой переменной, предсказать с какой точностью были разделены объекты исследователем (например, исследователем были выделены группы испытуемых с высокой, средней и низкой ответственностью), а также научить данный метод самостоятельно классифицировать последующие объекты по выявленной модели переменных. Поэтому дискриминантный анализ еще называется классификационный анализ с обучением.

Основными целями множественного линейного регрессионного анализа являются:

1) Определение того, в какой мере зависимая переменная связана с совокупностью

независимых переменных и, какова статистическая значимость этой взаимосвязи. Рассматриваемые показатели – коэффициент множественной корреляции и его статистическаязначимость по критерию F (Фишера).

2) Определение существенности вклада каждой независимой переменной в оценку зависимой переменной, отсев несущественных для предсказания независимых переменных. Рассматриваемые показатели – регрессионные β-коэффициенты и их статистическая значимость по t-критерию Стьюдента.

3) Анализ точности предсказания и вероятных ошибок оценки зависимой переменной. Рассматриваемые показатели – коэффициент множественной детерминации.

В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях. В общем, множественная регрессия позволяет исследователю задать вопрос о том, «что является лучшим предиктором для. ». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида.

Ссылка на основную публикацию
Adblock
detector