Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной модели для таких зависимых переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная модель допускает с том числе отрицательные значения и значения выше 1 (притом что вероятность должна быть от 0 до 1). Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).
Пусть переменная Y {displaystyle Y} является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 {displaystyle 1} и 0 {displaystyle 0} . Например, Y {displaystyle Y} может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) X {displaystyle X} , которые оказывают влияние на Y {displaystyle Y} .
Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которое в данном случае равно вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:
E ( Y ∣ X = x ) = 1 ⋅ P ( Y = 1 ∣ X = x ) + 0 ⋅ P ( Y = 0 ∣ X = x ) = P ( Y = 1 ∣ X = x ) = p ( x ) {displaystyle E(Ymid X=x)=1cdot P(Y=1mid X=x)+0cdot P(Y=0mid X=x)=P(Y=1mid X=x)=p(x)}В связи с этим применение, например, стандартной модели линейной регрессии y = x T b + ε {displaystyle y=x^{T}b+varepsilon } теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать p ( x ) {displaystyle p(x)} через интегральные функции тех или иных распределений.
Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная Y ∗ {displaystyle Y^{*}} , в зависимости от значений которой наблюдаемая переменная Y {displaystyle Y} принимает значение 0 или единица:
Y = { 1 , Y ∗ > 0 0 , Y ∗ < 0 {displaystyle Y={egin{cases}1,Y^{*}>0 ,Y^{*}<0end{cases}}}Предполагается, что скрытая переменная зависит от факторов X {displaystyle X} в смысле обычной линейной регрессии y ∗ = x T b + ε {displaystyle y^{*}=x^{T}b+varepsilon } , где случайная ошибка имеет распределение F {displaystyle F} . Тогда
p ( x ) = P ( Y ∗ > 0 | X = x ) = P ( x T b + ε > 0 ) = P ( ε > − x T b ) = 1 − F ( − x T b ) {displaystyle p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+varepsilon >0)=P(varepsilon >-x^{T}b)=1-F(-x^{T}b)}
Если распределение симметричное, то можно записать
p ( x ) = F ( x T b ) {displaystyle p(x)=F(x^{T}b)}
Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции U ( y , x ) {displaystyle U(y,x)} , то есть фактически двух функций U 1 ( x ) = x T b 1 + ε 1 {displaystyle U_{1}(x)=x^{T}b_{1}+varepsilon _{1}} и U 0 ( x ) = x T b 0 + ε 0 {displaystyle U_{0}(x)=x^{T}b_{0}+varepsilon _{0}} соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив Δ U ( x ) = U 1 ( x ) − U 0 ( x ) = x T ( b 1 − b 0 ) + ( ε 1 − ε 0 ) = x T b + ε {displaystyle Delta U(x)=U_{1}(x)-U_{0}(x)=x^{T}(b_{1}-b_{0})+(varepsilon _{1}-varepsilon _{0})=x^{T}b+varepsilon } . Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мере не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).
Пробит. В пробит-модели в качестве F {displaystyle F} используется интегральная функция стандартного нормального распределения Φ {displaystyle Phi } :
p ( x ) = 1 − Φ ( − x T b ) = Φ ( x T b ) {displaystyle p(x)=1-Phi (-x^{T}b)=Phi (x^{T}b)}Логит. В логит-модели используется CDF логистического распределения:
p ( x ) = 1 − e − x T b / ( 1 + e − x T b ) = e x T b / ( 1 + e x T b ) {displaystyle p(x)=1-e^{-x^{T}b}/(1+e^{-x^{T}b})=e^{x^{T}b}/(1+e^{x^{T}b})}Гомпит. Используется распределение экстремальных значений - распределение Гомперца:
p ( x ) = 1 − ( 1 − e e − x T b ) = e e − x T b {displaystyle p(x)=1-(1-e^{e^{-x^{T}b}})=e^{e^{-x^{T}b}}}Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма n {displaystyle n} факторов X {displaystyle X} и зависимой переменной Y {displaystyle Y} . Для данного номера наблюдения используем индекс t {displaystyle t} . Вероятность получения в наблюдении t {displaystyle t} значения y t {displaystyle y_{t}} можно смоделировать следующим образом:
P ( Y = y t ) = p y t ( x t ) ( 1 − p ( x t ) ) 1 − y t = ( 1 − F ( − x t T b ) ) y t F 1 − y t ( − x t T b ) {displaystyle P(Y=y_{t})=p^{y_{t}}(x_{t})(1-p(x_{t}))^{1-y_{t}}=(1-F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)}В самом деле, если y t = 1 {displaystyle y_{t}=1} , то второй множитель очевидно равен 1, а первый как раз p ( x t ) {displaystyle p(x_{t})} , если же y t = 0 {displaystyle y_{t}=0} , то первый множитель равен единице, а второй — ( 1 − p ( x t ) ) {displaystyle (1-p(x_{t}))} . Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:
L ( b ) = ∏ t = 1 n ( 1 − F ( − x t T b ) ) y t F 1 − y t ( − x t T b ) {displaystyle L(b)=prod _{t=1}^{n}(1-F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)}Соответственно логарифмическая функция правдоподобия имеет вид:
l ( b ) = ∑ t = 1 n y t ln ( 1 − F ( − x t T b ) ) + ( 1 − y t ) ln F ( − x t T b ) {displaystyle l(b)=sum _{t=1}^{n}y_{t}ln(1-F(-x_{t}^{T}b))+(1-y_{t})ln F(-x_{t}^{T}b)}Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:
n ( b ^ − b ) → d N ( 0 , Ω − 1 ) , {displaystyle {sqrt {n}}({hat {b}}-b) {xrightarrow {d}} {mathcal {N}}(0,,Omega ^{-1}),}где Ω − 1 {displaystyle Omega ^{-1}} — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).
где l 1 , l 0 {displaystyle l_{1},l_{0}} — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой p ( x ) {displaystyle p(x)} является константой (не зависит от факторов x, исключая константу из множества факторов).
Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения χ 2 ( k ) {displaystyle chi ^{2}(k)} , где k {displaystyle k} -количество факторов (без константы) модели), то модель можно признать статистически значимой.
Также используются аналоги классического коэффициента детерминации, например:
Оба показателя меняются в пределах от 0 до 1.
Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.
Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением χ 2 ( J − 2 ) {displaystyle chi ^{2}(J-2)} .