Bài 1. Chi-bình phương (Chi-square)

1. Khi nào sử dụng χ2

Kiểm tra Chi-square (χ2) bao gồm cả bài kiểm tra Chi-bình phương một mẫu về tính độc lập (One-sample Chi-square test of independence) và bài kiểm tra Chi-bình phương hai mẫu về tính đồng nhất (Twosample Chi-square test of homogeneity) là giống nhau về cả tính toán và diễn giải.

Kiểm tra χ2 là một kiểm tra gần đúng về mức ý nghĩa đối với sự liên kết (association) giữa hai biến phân loại (categorical variables) khi dữ liệu ở dạng đếm tần suất và mối quan tâm tập trung vào số lượng đối tượng thuộc các loại khác nhau. Độ chính xác được kiểm tra phụ thuộc vào thiết kế mẫu được sử dụng. Các tần suất là quan sát được trong bảng 2 × 2 (‘2’ đầu tiên cho biết số hàng trong bảng và ‘2’ thứ hai cho biết số cột). Hai thiết kế lấy mẫu phổ biến là “kiểm tra χ2 về tính độc lập” (χ2 test of independence) với tổng số biên của hàng và cột ngẫu nhiên và “kiểm tra χ2 về tính đồng nhất của tỷ lệ” (χ2 test of homogeneity of proportions) với tổng số biên của hàng cố định hoặc là cột cố định.

(1) Kiểm tra χ2 một mẫu về tính độc lập với tổng số biên của hàng và cột ngẫu nhiên

Trong thiết kế này, một mẫu ngẫu nhiên được lấy từ một dân số duy nhất của các đối tượng nhưng với hai thước đo cho mỗi đối tượng, đó là các biến nhị phân hàng và cột. Tổng cỡ mẫu, n, là cố định nhưng các tần suất trong cả tổng số biên của hàng và cột là ngẫu nhiên và không được biết trước hoặc cố định trước. Các tần số biên ngẫu nhiên phụ thuộc vào cách mỗi đối tượng được phân loại trên cả hai biến nhị phân. Nghĩa là, mỗi đối tượng sẽ được phân bổ vào một trong bốn ô trong bảng 2 × 2.

Ví dụ, một nhà nghiên cứu điều tra vai trò của giáo viên giáo dục đặc biệt trong chăm sóc trẻ em mắc chứng tự kỷ có thể đặc biệt quan tâm đến mối quan hệ giữa thời gian kinh nghiệm với tư cách là giáo viên (biến cột) và cảm xúc chi phối của họ với tư cách là giáo viên (biến hàng). Một mẫu ngẫu nhiên duy nhất gồm 100 giáo viên giáo dục đặc biệt được chọn từ một dân số những giáo viên này. Những giáo viên giáo dục đặc biệt được hỏi hai câu hỏi: họ đã chăm sóc trẻ em mắc chứng tự kỉ được bao lâu? (các câu trả lời được phân loại thành lớn hơn hoặc bằng 5 năm hoặc ít hơn năm năm), và cảm xúc chủ đạo của họ với tư cách giáo viên là gì? (các câu trả lời được phân loại chủ yếu là giận giữ hoặc đồng cảm). Giả thuyết nghiên cứu là cảm xúc về vai trò của giáo viên giáo dục đặc biệt có liên quan đến thời gian kinh nghiệm làm việc. Giả thuyết vô hiệu là các biến hàng và cột là độc lập, đó là tỷ lệ (số lượng) kỳ vọng ​​trong mỗi ô của bảng phát sinh sẽ bằng nhau và sẽ không khác với số lượng quan sát được. Nói một cách tổng quát hơn, không có mối quan hệ giữa thời gian là giáo viên và cảm xúc chi phối về vai trò của giáo viên giáo dục đặc biệt.

(2) Kiểm tra χ2 hai mẫu về tính đồng nhất của tỷ lệ với tổng biên của hàng (hoặc cột) được cố định

Thiết kế này được sử dụng để so sánh sự phân phối của hai tỷ lệ trong hai dân số độc lập. Trong bảng phát sinh 2 × 2, mỗi biến được coi là nhị phân. Ví dụ: biến cột trong bảng 2 × 2 có thể đại diện cho hai quần thể độc lập, nam và nữ, và biến hàng (biến phản hồi) có thể đại diện cho kết quả kiểm tra được phân loại là đạt hoặc không đạt. Nhà nghiên cứu có thể muốn điều tra xem tỷ lệ ứng viên đạt có liên quan đến giới tính hay không. Ví dụ: một mẫu ngẫu nhiên độc lập gồm 50 nam và một mẫu ngẫu nhiên riêng biệt gồm 50 nữ sẽ được chọn. Tổng cột của nam và nữ trong ví dụ này được cố định bởi nhà nghiên cứu. Mỗi nam và nữ sẽ được phân loại thành một loại đạt hoặc không đạt, tổng số biên của hàng là ngẫu nhiên (không được nhà nghiên cứu cố định) và có thể chịu sai số mẫu. Nếu tỷ lệ ứng viên “đạt” được biểu thị bằng P, thì tỷ lệ không đạt sẽ là 1-P (biến là nhị phân). Giả thuyết vô hiệu sẽ là tỷ lệ dân số (hoặc phần trăm) của nam và nữ vượt qua kỳ thi là bằng nhau, hay nói một cách khác là không có sự khác biệt giữa nam và nữ về tỷ lệ phần trăm vượt qua kỳ thi. Một dạng tổng quát hơn của giả thuyết vô hiệu này là không có mối quan hệ giữa giới tính và thành tích thi.

2. Suy luận thống kê và giả thuyết vô hiệu

Suy luận thống kê là về tần suất, trong đó số lượng các quan sát thuộc một loại cụ thể trong một nhóm là được so sánh với tỷ lệ các quan sát thuộc cùng một loại từ nhóm kia.

  • Các nhóm có thể chỉ đến hai phép đo độc lập từ một dân số hoặc đến hai dân số độc lập đã được chọn ngẫu nhiên. Ví dụ, trong một nghiên cứu về tác động của chương trình tư duy tích cực đến sự tự tin của sinh viên (sự tự tin giao tiếp tăng lên / không tăng lên), kiểm tra χ2 một mẫu về tính độc lập sẽ được sử dụng với thiết kế này để phát hiện bất kỳ mối liên hệ nào giữa sự tự tin và giới tính hay không.
  • Các nhóm cũng có thể đề cập đến hai dân số độc lập, ví dụ, trong một nghiên cứu về mối quan hệ giữa giới tính và thành tích thi, hai nhóm học sinh cố định gồm 50 nam và 50 nữ sẽ được chọn (biến cột), sau đó được phân loại thành nhóm đạt và không đạt (biến hàng). Với thiết kế mẫu này, kiểm tra χ2 hai mẫu về sự đồng nhất của các tỷ lệ sẽ được sử dụng để kiểm tra sự khác biệt giữa tỉ lệ nam và nữ vượt qua kỳ thi.

Đối với kiểm tra χ2 một mẫu về tính độc lập, các tham số được ước tính là tỷ lệ của mỗi ô của bảng 2 × 2 trong dân số. Giả thuyết nghiên cứu là các biến hàng và cột tương tác với nhau, nghĩa là chúng không độc lập và tỷ lệ quan sát được trong bốn ô là khác nhau.

Tương tự, đối với kiểm tra χ2 hai mẫu về tính đồng nhất của các tỷ lệ, các tham số được ước tính là tỷ lệ của mỗi ô của bảng 2 × 2 trong dân số. Giả thuyết nghiên cứu là sự phân phối tỷ lệ (cho một biến phân loại) là khác nhau trong hai dân số (biến phân loại kia với tổng biên cố định).

Giả thuyết vô hiệu cho cả χ2 một mẫu và hai mẫu là không có mối quan hệ giữa các biến cột và hàng. Nếu giả thuyết vô hiệu là đúng, tỷ lệ bốn ô sẽ bằng nhau và không có sự khác biệt đáng kể giữa tần suất ô quan sát được và tần số ô kỳ vọng.

Phân phối χ2 là được xác định hoàn toàn bởi một tham số duy nhất, bậc tự do (df). Bất cứ khi nào chúng ta đánh giá thống kê χ2, chúng ta cần xem xét df thích hợp. Trong đó, df = (số hàng − 1) × (số cột − 1) và do đó luôn là giá trị ‘1’ trong bảng 2 × 2. Kiểm tra χ2 và df cung cấp một xác suất cho sự khác biệt giữa các tần suất quan sát được và tần suất kỳ vọng. Khi tần suất quan sát và tần suất kỳ vọng giống hệt nhau, thống kê χ2 sẽ bằng không. Với bất kỳ độ lệch nào, giá trị χ2 càng lớn thì ý nghĩa thống kê càng lớn.

3. Các giả định kiểm tra (Test Assumptions)

Các giả định cơ bản của cả kiểm tra χ2 về tính độc lập và tính đồng nhất cho bảng 2 × 2 là:

  1. Các quan sát là đại diện tiêu biểu của các dân số quan tâm.
  2. Dữ liệu ở dạng đếm tần suất quan sát.
  3. Các quan sát phải độc lập, có nghĩa là, một quan sát rơi vào bất kỳ hàng cụ thể nào của bảng phát sinh không phụ thuộc vào cột nó ở trong (và ngược lại).
  4. Các quan sát chỉ nên rơi vào một ô của bảng phát sinh.
  5. Kiểm tra χ2 không nên được sử dụng khi bất kỳ tần suất ô kỳ vọng ​​nào là nhỏ. Tần số kỳ vọng nhỏ là điểm yếu phổ biến nhất trong việc sử dụng kiểm tra Chi-square (nghĩa là sử dụng sai Chi-bình phương). Giá trị kỳ vọng của 5 là giới hạn thấp nhất tuyệt đối. Khi kích thước mẫu tổng là ≥20, thì tần suất kì vọng ​trong một hoặc hai ô có thể thấp đến 1 hoặc 2. Nhưng Chi-square là một quy trình mạnh mẽ và tần suất ô kỳ vọng ​​< 5 không ảnh hưởng cơ bản đến tỷ lệ lỗi Loại I. Quan điểm chung dường như là các tần suất kỳ vọng nhỏ là có thể chấp nhận được trong ít nhất một hoặc hai ô với điều kiện kích thước mẫu tổng thể ≥20. Hiệu chỉnh của Yate’s (1934) cho tính liên tục (bằng cách thêm 0.5 vào tần số ô được quan sát) được sử dụng với kích thước mẫu nhỏ trong bảng 2 × 2. Các biến trong bảng phát sinh là rời rạc nhưng χ2 là phân phối liên tục, do đó việc thêm 0.5 vào mỗi tần số ô quan sát được cho là sẽ cải thiện phép xấp xỉ χ2. Nói chung, phép hiệu chỉnh này không phải trên cơ sở lý thuyết mà dựa trên ứng dụng của nó vì nó có thể dẫn đến việc mất nguồn không cần thiết. Với cỡ mẫu nhỏ, nên sử dụng phép thử chính xác của Fisher (Fisher, 1935) (vui lòng đọc kiểm tra Fisher).

4. Thủ tục kiểm tra χ2

Ví dụ, một nhà nghiên cứu cần đánh giá xem giới tính và hiến máu tự nguyện của sinh viên đại học có quan hệ với nhau không. Một tập dữ liệu gồm 50 sinh viên được thu thập. Biến giới tính được chia làm các mức giá trị 1 = nam, 2 = nữ, và biến hiến máu tự nguyện (bạn đã từng tham gia hiến máu tự nguyện chưa?) được chia làm các mức giá trị 1= yes (có), 2 = no (không).

Giả thuyết thống kê H0: Không có mối quan hệ giữa yếu tố giới tính và sự hiến máu tự nguyện của các sinh viên? Mức alpha được chọn là 5%.

Kiểm tra χ2 so sánh tần số đếm được trong mỗi ô trong bảng phát sinh với tần số đếm kỳ vọng ​​cho mỗi ô (chúng ta phải ước tính tần số kỳ vọng). Số lượng ô kỳ vọng ​​được ước lượng theo giả định rằng giả thuyết vô hiệu là đúng, tức là không có sự liên kết giữa các biến hàng và cột.

Giá trị χ2 được tính cho mỗi ô trong bảng phát sinh được tính theo công thức:

Trong đó, O là tần suất ô quan sát được, E là tần suất ô kì vọng.

Dữ liệu khảo sát đếm tần suất được trình bày trong bảng dưới đây:

Các bước kiểm tra χ2:

Bước 1: Tính giá trị kì vọng cho mỗi ô từ A đến D

  • ô A: EA= (25×30)/50 = 15
  • ô B: EB= (25×30)/50 = 15
  • ô C: EC= (25×20)/50 = 10
  • ô D: ED= (25×20)/50 = 10

Bước 2: Tính giá trị χ2 cho mỗi ô từ A đến D

  • ô A: χ2 = (18 – 15)2/ 15 = 0.6
  • ô B: χ2 = (12 – 15)2/ 15 = 0.6
  • ô C: χ2 = (7 – 10)2/ 10 = 0.9
  • ô D: χ2 = (13 – 10)2/ 10 = 0.9

Bước 3: Tính tổng tất cả χ2

Tổng χ2 = 0.6 + 0.6 + 0.9 + 0.9 = 3.00

Cách suy luận kết quả: Để đánh giá ý nghĩa thống kê của thống kê χ2 được ước lượng ở trên, chúng ta cần tính toán bậc tự do thích hợp cho bảng phát sinh, ở đây df = 1. Tra bảng phân phối các giá trị χ2 tới hạn (vui lòng xem bảng phân phối χ2), mức alpha được chọn đầu tiên là p≤0.05, giá trị χ2 tới hạn là 3.841, là giao điểm của cột alpha ở 0.05 và hàng df là 1. Vì giá trị χ2 được tính toán (3.00) nhỏ hơn giá trị χ2 tới hạn (điều sẽ được mong đợi theo giả thuyết vô hiệu là không tương tác giữa các biến hàng và cột) nên chúng ta không thể bác bỏ giả thuyết vô hiệu và kết luận rằng hai biến số, sự hiến máu tự nguyện và giới tính là không liên quan với nhau. Mặc dù tỷ lệ nam giới của 60% (18/30 × 100) so với nữ giới 40% (12/30 × 100) có sự khác biệt chút ít, nhưng sự khác biệt này là không có ý nghĩa thống kê ở mức ý nghĩa p≤0.05, có nghĩa rằng sự hiến máu tự nguyện và giới tính là không liên quan với nhau.

5. Kiểm tra χ2 trong SPSS

Trong SPSS, chúng ta thực hiện theo tiến trình sau:

Bước 1. Vào Analyze > Descriptives Statistics > Crosstabs…

Bước 2. Tại cửa sổ Crosstabs, đưa biến giới tính (sex) vào ô Row(s) và biến hiến máu tự nguyện (hienmau) vào ô Column(s). Chúng ta có thể nhấp vào ô Display clustered bar charts để hiện đồ thị mối quan hệ hai biến.

Bước 3. Nhấp vào tùy chọn Statistics, chọn vào Chi-square, Phi and Cramer’s V. Sau đó nhấp Continue.

Bước 4. Nhấp vào tùy chọn Cells, chọn Observed, ExpectedTotal như trong hình. Về ý nghĩa thì Observed là số lượng thực tế quan sát, Expected là số lượng kì vọng, Total là tổng phần trăm theo từng dòng và từng cột. Nếu cần hiển thị thêm giá trị % của các ô, chúng ta chọn thêm RowColumn. Nhấp vào Continue.

Bước 5. Nhấp vào OK để chạy kết quả

Đọc bảng kết quả:

Trong bảng Giới tính * Hiến máu tự nguyện? Crosstabulation, các giá trị ở ô màu đỏ là giá trị thực tế quan sát được. Ví dụ, có 18 sinh viên nam tham gia hiến máu tình nguyện. Tương tự, có 7 sinh viên nữ tham gia hiến máu tình nguyện. Các giá trị ở ô màu xanh là giá trị kì vọng. Ví dụ, có 15 sinh viên nam được kì vọng hiến máu tự nguyện. Có 10 sinh viên nữ được kì vọng hiến máu tình nguyện. Ý nghĩa của giá trị kì vọng (expected), đó là khi có giả thiết giới tính và hiến máu tự nguyện không có quan hệ với nhau. Thì xác suất xuất hiện của giới tính và sự hiến máu tự nguyện là độc lập nhau.

Bảng kết quả quan trọng nhất là Chi-square test. Kiểm định Chi-bình phương chỉ có ý nghĩa khi số quan sát đủ lớn, nếu có nhiều hơn 20% số ô trong bảng phát sinh có tần suất kỳ vọng (expected) nhỏ hơn 5 thì giá trị chi-square không còn đáng tin cậy. Cuối bảng Chi-Square Tests (ô màu xanh) luôn đưa ra một dòng thông báo cho bạn biết có bao nhiêu % số ô có tần suất mong đợi expected value dưới 5 của bảng. Nếu trên 20% bạn phải tính đến các biện pháp khác, như là sử kiểm định Fisher’s exact test.

Có 3 giá trị cần lưu ý: giá trị χ2 là 3.00, giá trị bậc tự do df là 1, giá trị sig. là 0.083. Do sig. > 0.05 nên có bằng chứng cho thấy hai biến giới tính và sự hiến máu tự nguyện là độc lập với nhau.

Còn nếu sig. <5% thì có bằng chứng cho thấy hai biến này không độc lập với nhau. Giả sử, nếu giá trị sig. có ý nghĩa thống kê (p≤0.05), chúng ta tiếp tục tra bảng phân phối χ2 với bậc tự do là 1 df. Trong ví dụ này, vì giá trị χ2 tới hạn là 3.841 lớn hơn giá trị χ2 được tính toán (3.00) nên chúng ta không thể bác bỏ giả thuyết vô hiệu và kết luận rằng hai biến số, sự hiến máu tự nguyện và giới tính là không liên quan với nhau.

Giả sử, nếu hai biến này có mối quan hệ với nhau, chúng ta sẽ cần đánh giá mức độ liên kết giữa hai biến qua giá trị của hệ số PhiCramer’s V. Hệ số Phi chỉ phù hợp để xem xét mối quan hệ giữa 2 biến mà mỗi biến chỉ có 2 giá trị, nếu một trong hai biến có từ 3 giá trị trở lên chúng ta sẽ dùng kết quả của Cramer’s V. Giả sử trong ví dụ trên, chúng ta sẽ sử dụng hệ số Phi, giá trị này là 0.083, tức 8.3%, như vậy hai biến này tương quan thấp.

Trong nghiên cứu, kiểm định χ2 (hay có thể gọi là kiểm tra Crosstab) thường được ứng dụng nhiều khi chúng ta cần phân tích sâu hơn mối quan hệ giữa các đặc điểm nhân khẩu học của người trả lời, hoặc phân tích sự liên kết giữa các yếu tố tâm lí giáo dục.

6. Ý nghĩa của hệ số Phi và Cramer’s Phi

Kiểm định χ2 nhạy cảm với cỡ mẫu và gần như luôn luôn có ý nghĩa với các mẫu lớn. Kiểm định χ2 đánh giá ý nghĩa thống kê của một liên kết chứ không phải sức mạnh của liên kết. Do đó, thống kê kiểu tương quan được yêu cầu để xác định độ mạnh của bất kỳ mối liên kết có ý nghĩa thống kê nào được phát hiện bởi thống kê χ2. Hai trong số các thước đo liên kết hữu ích nhất được sử dụng là: Φ, (Hệ số Phi) và Hệ số Cramer’s V (đôi khi được gọi là Cramer’s Phi).

Phi chỉ nên được sử dụng làm thước đo độ mạnh của liên kết khi cả hai biến đều là nhị phân. Phi có giới hạn dưới là 0, tức là không có độ mạnh liên kết (các biến không liên quan) và giới hạn trên là 1, độ mạnh tối đa của liên kết (các biến có tương quan hoàn hảo). Khi một bảng phát sinh có nhiều hơn bốn ô thì nên sử dụng Cramer’s V để đo độ bền của liên kết. Tương tự như Phi, phạm vi của thống kê này thay đổi từ 0 đến 1.

Trong đó, n là tổng kích thước mẫu, j là số nhỏ nhất của hàng hoặc cột trong bảng phát sinh.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.