Mô hình hồi quy theo biến giả – Phần 2 (Mô hình logit)

0
Khuyến mãi mới

Trước khi đọc bài này, bạn đọc lại bài Giới thiệu về mô hình xác suất nhé.

Mô hình logit là mô hình có phương trình dạng:

Li = ln(Pi/1-Pi)=Zi12Xi

Đây là kết quả sau nhiều bước biến đổi. Tôi không trình bày các bước biển đổi ở đây vì thấy nó không thực sự cần thiết. Bạn chỉ cần nhớ là (Pi/1-Pilà tỷ số odds ratio (OR). Thuật ngữ này tạm gọi là tỷ số nguy cơ. Đây là tỷ lệ giữa xác suất hiện tượng xảy ra và xác suất nó không xảy ra. Ví dụ trong một trò chơi, nếu P là xác suất bạn thắng và OR=0.5 thì khả năng bạn thắng là 33% và trường hợp thua là 67%. Cứ 2 lần bạn thua thì có 1 lần bạn thắng. Thuật ngữ này gần giống như tỷ lệ chọi đó.

Chữ Li ký hiệu cho log của OR. Chữ L đại diện cho logit nên mô hình này được gọi là mô hình logit.

Đặc điểm của mô hình logit

  1. P nhận giá trị từ 0 đến 1 nhưng L nhận giá trị trong khoảng vô cực.
  2. L tuyến tính theo X nhưng xác suất P thì không (điểm này khác với mô hình xác suất tuyến tính)
  3. Bạn có thể đưa thêm nhiều  biến giải thích Xi vào trong mô hình
  4. Nếu L dương có nghĩa là khi X tăng thì OR tăng. Nếu L dương thì khi X tăng, OR giảm.
  5. Hệ số β2 đo lường sự thay đổi của L theo X, khi X thay đổi một đơn vị thì log-odds thay đổi như thế nào. Hệ số β1 thường không có ý nghĩa trong thực tiễn.

Ước lượng mô hình logit

Phương trình ước lượng như sau:

Li = ln(Pi/1-Pi)=Zi12Xi+ui

Ước lượng mô hình này chia làm hai nhóm nhứ sau

(1) Dữ liệu đơn lẻ

Như ví dụ ở trên, Pi=1 nếu bạn thắng và Pi=0 nếu bạn thua. Đối với trường hợp này, bạn không thể ước lượng thông thường như OLS được vì khi nhập giá trị ln(1/0) hay ln(0/1) là vô nghĩa. Trường hợp này bạn phải ước lượng bằng phương pháp xác suất cực đại (maximum likelihood).

(2) Dữ liệu theo nhóm

Thay vì xem dữ liệu như từng cá thể riêng biệt, bạn có thể nhóm nó lại. Theo cách này thì Pi được ước lượng thông qua P^=ni/Ni trong điều kiện Ni đủ lớn. Trong ví dụ ở trên thì n là số lần bạn thắng và N là số lần bạn chơi.

Tương tự như mô hình xác suất tuyến tính, mô hình này vẫn bị phương sai sai số thay đổi nên phải ước lượng bằng WLS.

Các bước thực hiện

B1: Tính xác suất nếu bạn thắng cuộc:

Pi=\frac{ni}{Ni}

B2: Đối với từng giá trị Xi, tính giá trị của L:

\widehat{Li}=ln[\widehat{Pi}/(1-\widehat{Pi})]

B3: Biến đổi mô hình về WLS:

\sqrt{w_{i}}L_{i}=\beta 1\sqrt{w_{i}}+\beta 2\sqrt{w_{i}}L_{i}+\sqrt{w_{i}}u_{i}

B4: Rút gọn lại sẽ có dạng:

L_{i}^{*}=\beta _{1}\sqrt{w_{i}}+\beta _{2}X_{i}^{*}+v_{i}

B5: Sau khi đã chuyển về WLS, bạn có thể ước lượng như OLS; lưu là ý mô hình không còn hệ số chặn nữa.

Bạn có thể thực hiện các các kiểm định và ước lượng khoảng như trong OLS nhưng với điều kiện là cỡ mẫu đủ lớn.

Leave A Reply