Mô hình hồi quy dữ liệu bảng – Phần 1 (tác động cố định)

0
Khuyến mãi mới

Mô hình hồi quy dữ liệu bảng (Panel Data Regresion Model) là mô hình phân tích hồi quy mà dữ liệu của nó có dạng chuỗi thời gian (time-series) kết hợp với dữ liệu chéo (cross-section). Dữ liệu bảng giúp chúng ta có thể kiểm soát những biến không thể quan sát hoặc đo lường được như các nhân tố văn hóa hoặc sự khác biệt giữa các công ty... Mô hình này có nhược điểm liên quan đến vấn đề thu thập dữ liệu (thiết kế chọn mẫu cân bằng (balanced) hay không cân bằng (unbalanced)), không có phản ứng trong trường hợp dữ liệu vi mô hoặc tính phụ thuộc giữa các quốc gia trong dữ liệu vĩ mô (các quốc gia có mối tương quan với nhau cao). Trong bài viết này, tôi sẽ đề cập đến kỹ thuật cơ bản trong phân tích dữ liệu bảng là tác động cố định (fixed). Mô hình tác động ngẫu nhiên (random effect) sẽ được đề cập trong những phần sau.

Mô hình tác động cố định có tên tiếng Anh khá đa dạng như Covariance Model, Within Estimator, Individual Dummy Variable Model, Least Squares Dummy Variable Model. Bạn sử dụng mô hình FE (fixed-effects) nếu bạn quan tâm đến sự ảnh hưởng của các biến theo thời gian.

Xem thêm: Thực hành chạy mô hình dữ liệu bảng bằng STATA

Giả định của mô hình

Mô hình này giả định rằng sự khác biệt giữa các cá thể có thể ảnh hưởng đến biến kết quả nên chúng ta cần phải phân tích chúng. Đây là ý tưởng đằng sau giả định về tương quan giữa sai số của cá thể và biến giải thích. Mô hình tác động cố định xóa bỏ tác động của đặc điểm bất biến theo thời gian và chúng ta có thể đo lường ảnh hưởng thực của biến giải thích đối với biến kết quả. Một giả định khác của FE là  đặc điểm bất biến theo thời gian là duy nhất đối với từng cá thể và nó không có tương quan với các cá thể khác. Từng cá thể là khác nhau nên sai số của từng cá thể và hệ số chặn không có tương quan với cá thể khác. Nếu sai số của các cá thể có tương quan với nhau, mô hình FE không phù hợp bởi vì suy luận thống kê (statistics inferences) có thể không chính xác và bạn cần phải sử dụng mô hình tác động ngẫu nhiên.

Đọc phần này chắc hơi xoắn não nên tôi lấy ví dụ đơn giản như sau: Ví dụ bạn nghiên cứu về đặc điểm nhân khẩu học người Việt Nam tác động đến thu nhập như thế nào trong giai đoạn từ 2000 đến 2016. Cá thể ở đây là người Việt Nam và khung thời gian từ 2000-2016. Các đặc điểm bất biến theo thời gian là giới tính, dân tộc và mô hình FE không thể phân tích tác động của các biến này. Giả định của FE cho rằng việc cá thể A có dân tộc Kinh không ảnh hưởng đến việc cá thể B là người dân tộc Tày. Giả định của FE chỉ đơn giản vậy thôi nhưng tôi đề cập ở đây vì nó liên quan đến kiểm định Hausman ở phần sau.

Giả định của mô hình FE có thể tóm tắt như sau:

(1) Phương sai của sai số là giống nhau đối với tất cả cá thể (cross-section).

(2) Đối với từng cá thể chúng ta giả định rằng không có hiện tượng tự tương quan theo thời gian.

(3) Sai số của cá thể này không có tương quan với sai số của cá thể khác.

Mô hình FE khá đơn giản nhưng nó có một số nhược điểm về mặt kỹ thuật như sau:

Mô hình này đưa thêm vào nhiều biến giả nên nó làm giảm bậc tự do.

Bậc tự do là số lượng thông tin mà chúng ta có được sau khi một phần dùng để xây dựng mô hình. Ví dụ bạn có 100 quan sát và mô hình có 2 biến thì bậc tự do là 100-2=98. Bạn chỉ có 98 thông tin để chạy mô hình vì 2 quan sát kia dùng để làm cơ sở cho mô hình rồi)

Có khả năng xảy ra hiện tượng đa cộng tuyến.

Không thể phân tích tác động của các đặc điểm bất biến theo thời gian

Phải giả định về sai số của cá thể không tương quan với nhau.

 

Leave A Reply