Các yếu tố ảnh hưởng đến hệ số tương quan trong mô hình cấu trúc tuyến tính (SEM)

0
Khuyến mãi mới

Hệ số tương quan đóng vai trò quan trọng trong mô hình cấu trúc tuyến tính, bạn cần phải nắm rõ các yếu tố thiết lập nên mối quan hệ giữa các biến. Chúng bao gồm:

  • Loại thang đo
  • Đặc điểm của dữ liệu (biến thiên, độ lệch, độ nhọn)
  • Phi tuyến tính
  • Thiếu dữ liệu
  • Outliers
  • Cỡ mẫu

Loại thang đo

Chúng ta thường sử dụng 4 loại thang đo là: danh nghĩa (nominal), thứ bậc (ordinal), khoảng (interval) và ratio (tỷ lệ). Bạn có thể sử dụng 4 loại thang đo trên, tuy nhiên không nên sử dụng kết hợp các thang đo đó trong một ma trận tương quan. Ban đầu, SEM sẽ yêu cầu các biến đo lường theo thang đo khoảng hoặc tỷ lệ để hệ số tương quan Pearson product-moment có thể được sử dụng trong phân tích hồi quy, đường dẫn (path), nhân tố. Thang đo khoảng và tỷ lệ nên có khoảng giá trị đủ rộng để phân tích sự biến thiên. Nếu khoảng giá trị bị giới hạn, giá trị của hệ số tương quan có thể giảm xuống. Khoảng giá trị càng nhỏ sẽ có hiện tượng đồng nhất (homegeneous) và biến thiên của chỉ số giảm, làm giảm giá trị tương quan giữa các biến.

Đặc điểm của dữ liệu

Nếu phân phối của các biến có tính phân kỳ, hệ số tương quan có thể bị ảnh hưởng. Trong trường hợp này, bạn nên thực hiện vài bước chuyển đổi dữ liệu để có được các giá trị xấp xỉ gần giống với phân phối chuẩn và phương sai đồng nhất đối với dữ liệu bị lệch hoặc bị nhọn. Bạn có thể thực hiện chuyển đổi dữ liệu như: căn bậc hai, logarith, nghịch đảo hoặc arcsin.

Phi tuyến tính

Hệ số tương quan Pearson thể hiện mức độ quan hệ tuyến tính giữa hai biến. Hai biến có thể không có mối quan hệ nếu đó là mối quan hệ dạng đường cong. Phương pháp phổ biến để kiểm tra hiện tượng này là dùng đồ thị phân tán. Trong mô hình SEM, bạn cần làm quen với hệ số eta, đây là một chỉ số thể hiện mối quan hệ phi tuyến giữa hai biến và để kiểm định mối quan hệ bậc hai, bậc ba hay bậc 4.

Thiếu dữ liệu

Việc thiếu dữ liệu có thể nảy sinh từ nhiều vấn đề khác nhau. Thiếu dữ liệu ngẫu nhiên hoàn toàn (Missing completely at random - MCAR) ám chỉ dữ liệu của biến X bị thiếu không có liên quan thống kê đến giá trị được quan sát bởi các biến khác và cả biến X. Thiếu dữ liệu ngẫu nhiên (Missing at random - MAR) ám chỉ giá trị đối với biến X là thiếu có ràng buộc với các biến khác nhưng không có liên quan thống kê đến X.

Outliers

Bạn có thể xem bài viết về Outliers tại đây.

Cỡ mẫu

Cỡ mẫu trong SEM càng lớn thì kết quả càng đáng tin cậy. Tuy nhiên, phần này tương đối dài nên tôi sẽ không đề cập ở bài này mà viết chi tiết ở bài sau.

Leave A Reply