Модель бинарного выбора

05.07.2022

Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной модели для таких зависимых переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная модель допускает с том числе отрицательные значения и значения выше 1 (притом что вероятность должна быть от 0 до 1). Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).

Сущность модели

Пусть переменная Y {displaystyle Y} является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 {displaystyle 1} и 0 {displaystyle 0} . Например, Y {displaystyle Y} может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) X {displaystyle X} , которые оказывают влияние на Y {displaystyle Y} .

Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которое в данном случае равно вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:

E ( Y ∣ X = x ) = 1 ⋅ P ( Y = 1 ∣ X = x ) + 0 ⋅ P ( Y = 0 ∣ X = x ) = P ( Y = 1 ∣ X = x ) = p ( x ) {displaystyle E(Ymid X=x)=1cdot P(Y=1mid X=x)+0cdot P(Y=0mid X=x)=P(Y=1mid X=x)=p(x)}

В связи с этим применение, например, стандартной модели линейной регрессии y = x T b + ε {displaystyle y=x^{T}b+varepsilon } теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать p ( x ) {displaystyle p(x)} через интегральные функции тех или иных распределений.

Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная Y ∗ {displaystyle Y^{*}} , в зависимости от значений которой наблюдаемая переменная Y {displaystyle Y} принимает значение 0 или единица:

Y = { 1 , Y ∗ > 0 0 , Y ∗ < 0 {displaystyle Y={egin{cases}1,Y^{*}>0,Y^{*}<0end{cases}}}

Предполагается, что скрытая переменная зависит от факторов X {displaystyle X} в смысле обычной линейной регрессии y ∗ = x T b + ε {displaystyle y^{*}=x^{T}b+varepsilon } , где случайная ошибка имеет распределение F {displaystyle F} . Тогда

p ( x ) = P ( Y ∗ > 0 | X = x ) = P ( x T b + ε > 0 ) = P ( ε > − x T b ) = 1 − F ( − x T b ) {displaystyle p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+varepsilon >0)=P(varepsilon >-x^{T}b)=1-F(-x^{T}b)}

Если распределение симметричное, то можно записать

p ( x ) = F ( x T b ) {displaystyle p(x)=F(x^{T}b)}

Экономическая интерпретация

Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции U ( y , x ) {displaystyle U(y,x)} , то есть фактически двух функций U 1 ( x ) = x T b 1 + ε 1 {displaystyle U_{1}(x)=x^{T}b_{1}+varepsilon _{1}} и U 0 ( x ) = x T b 0 + ε 0 {displaystyle U_{0}(x)=x^{T}b_{0}+varepsilon _{0}} соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив Δ U ( x ) = U 1 ( x ) − U 0 ( x ) = x T ( b 1 − b 0 ) + ( ε 1 − ε 0 ) = x T b + ε {displaystyle Delta U(x)=U_{1}(x)-U_{0}(x)=x^{T}(b_{1}-b_{0})+(varepsilon _{1}-varepsilon _{0})=x^{T}b+varepsilon } . Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мере не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).

Модели по видам распределений

Пробит. В пробит-модели в качестве F {displaystyle F} используется интегральная функция стандартного нормального распределения Φ {displaystyle Phi } :

p ( x ) = 1 − Φ ( − x T b ) = Φ ( x T b ) {displaystyle p(x)=1-Phi (-x^{T}b)=Phi (x^{T}b)}

Логит. В логит-модели используется CDF логистического распределения:

p ( x ) = 1 − e − x T b / ( 1 + e − x T b ) = e x T b / ( 1 + e x T b ) {displaystyle p(x)=1-e^{-x^{T}b}/(1+e^{-x^{T}b})=e^{x^{T}b}/(1+e^{x^{T}b})}

Гомпит. Используется распределение экстремальных значений - распределение Гомперца:

p ( x ) = 1 − ( 1 − e e − x T b ) = e e − x T b {displaystyle p(x)=1-(1-e^{e^{-x^{T}b}})=e^{e^{-x^{T}b}}}

Оценка параметров

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма n {displaystyle n} факторов X {displaystyle X} и зависимой переменной Y {displaystyle Y} . Для данного номера наблюдения используем индекс t {displaystyle t} . Вероятность получения в наблюдении t {displaystyle t} значения y t {displaystyle y_{t}} можно смоделировать следующим образом:

P ( Y = y t ) = p y t ( x t ) ( 1 − p ( x t ) ) 1 − y t = ( 1 − F ( − x t T b ) ) y t F 1 − y t ( − x t T b ) {displaystyle P(Y=y_{t})=p^{y_{t}}(x_{t})(1-p(x_{t}))^{1-y_{t}}=(1-F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)}

В самом деле, если y t = 1 {displaystyle y_{t}=1} , то второй множитель очевидно равен 1, а первый как раз p ( x t ) {displaystyle p(x_{t})} , если же y t = 0 {displaystyle y_{t}=0} , то первый множитель равен единице, а второй — ( 1 − p ( x t ) ) {displaystyle (1-p(x_{t}))} . Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:

L ( b ) = ∏ t = 1 n ( 1 − F ( − x t T b ) ) y t F 1 − y t ( − x t T b ) {displaystyle L(b)=prod _{t=1}^{n}(1-F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)}

Соответственно логарифмическая функция правдоподобия имеет вид:

l ( b ) = ∑ t = 1 n y t ln ⁡ ( 1 − F ( − x t T b ) ) + ( 1 − y t ) ln ⁡ F ( − x t T b ) {displaystyle l(b)=sum _{t=1}^{n}y_{t}ln(1-F(-x_{t}^{T}b))+(1-y_{t})ln F(-x_{t}^{T}b)}

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

n ( b ^ − b )   → d   N ( 0 , Ω − 1 ) , {displaystyle {sqrt {n}}({hat {b}}-b) {xrightarrow {d}} {mathcal {N}}(0,,Omega ^{-1}),}

где Ω − 1 {displaystyle Omega ^{-1}} — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).

Показатели качества и тестирование модели

  • Статистика отношения правдоподобия
L R = 2 ( l 1 − l 0 ) {displaystyle LR=2(l_{1}-l_{0})} ,

где l 1 , l 0 {displaystyle l_{1},l_{0}} — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой p ( x ) {displaystyle p(x)} является константой (не зависит от факторов x, исключая константу из множества факторов).

Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения χ 2 ( k ) {displaystyle chi ^{2}(k)} , где k {displaystyle k} -количество факторов (без константы) модели), то модель можно признать статистически значимой.

Также используются аналоги классического коэффициента детерминации, например:

  • Псевдо-коэффициент детерминации:
R p s e u d o 2 = 1 − 1 1 + L R / n = L R L R + n {displaystyle R_{pseudo}^{2}=1-{frac {1}{1+LR/n}}={frac {LR}{LR+n}}}
  • Коэффициент детерминации МакФаддена (индекс отношения правдоподобия):
R M c F a d d e n 2 = L R I = 1 − l 1 / l 0 {displaystyle R_{McFadden}^{2}=LRI=1-l_{1}/l_{0}}

Оба показателя меняются в пределах от 0 до 1.

  • Информационные критерии: информационный критерий Акаике (AIC), байесовский информационный критерий Шварца (BIC, SC), критерий Хеннана-Куина (HQ).

Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.

  • Статистика Хосмера-Лемешоу (H-L, HL, Hosmer-Lemeshow). Для расчета данной статистики выборка разбивается на несколько подвыборок, по каждой из которых определяются — фактическая доля данных со значением зависимой переменной 1, то есть фактически среднее значение зависимой переменной по подвыборке
p j = y ¯ j = ∑ i = 1 n j y i j / n j {displaystyle p_{j}={overline {y}}_{j}=sum _{i=1}^{n_{j}}{y}_{ij}/n_{j}} и предсказанная средняя вероятность по подруппе p ^ ¯ j = ∑ i = 1 n j p ^ i j / n j {displaystyle {overline {hat {p}}}_{j}=sum _{i=1}^{n_{j}}{hat {p}}_{ij}/n_{j}} . Тогда значение статистики HL определяется по формуле H L = ∑ j = 1 J n j ( p j − p ^ ¯ j ) 2 p ^ ¯ j ( 1 − p ^ ¯ j ) {displaystyle HL=sum _{j=1}^{J}{frac {n_{j}(p_{j}-{overline {hat {p}}}_{j})^{2}}{{overline {hat {p}}}_{j}(1-{overline {hat {p}}}_{j})}}}

Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением χ 2 ( J − 2 ) {displaystyle chi ^{2}(J-2)} .

  • Статистика Эндрюса (Andrews)


Имя:*
E-Mail:
Комментарий:
Информационный некоммерческий ресурс fccland.ru © 2022
При цитировании информации ссылка на сайт обязательна.
Копирование материалов сайта ЗАПРЕЩЕНО!