Về ngôn ngữ khoa học – Lý thuyết xác xuất thống kê trong nghiên cứu y tế công cộng: Mô hình hồi quy tuyến tính

Mình thấy có một vấn đề trong giới học thuật rất lớn, đó là cách sử dụng từ vựng và cấu trúc câu rất chi là khó hiểu. Dường như viết ra chỉ để người trong giới đọc.

Hai câu trên là viết vào ngày hôm qua, sau một đêm ngẫm nghĩ thì mình nhận ra là để viết được các nội dung khoa học dễ hiểu không phải là chuyện đơn giản. Vì vậy, cần có thời gian luyện tập, sự thấu hiểu vấn đề, kỹ năng trình bày, và một thái độ khiêm tốn thì mới có thể cho ra đời những bài viết mà cả những người ngoài ngành cũng có thể hiểu được. Bản thân mình muốn viết dễ hiểu cũng là chuyện rất khó, không nên than phiền như trên, và mình cũng cần phải luyện tập rất nhiều. Và bài viết này sẽ bắt đầu cho chuỗi rèn luyện đó.

Hôm qua mình đọc được một tài liệu mà đọc tới đâu là hiểu tới đó, đọc mà thấy mát lòng mát dạ, kiểu như đọc tiểu thuyết tình yêu. Mình rất thích và ngưỡng mộ những tác giả như vậy. Bài viết này mình sẽ cố gắng viết ra những cái mình hiểu về tài liệu hôm qua, chứ không phải mỗi chút mỗi đọc lại các nguồn tham khảo, như một cách rèn luyện cách trình bày cái hiểu của mình để học nhớ bài hơn.

Dạo gần đây mình đang xem về lý thuyết xác xuất thống kê, đặc biệt là mô hình hồi quy tuyến tính (linear regression). Và bài viết hôm qua cũng về nội dung này. Nội cái tên không là đã không hiểu gì rồi. Đối với những thứ quá đặc trưng như vậy thì chỉ còn cách giữ nguyên từ chuyên ngành và kèm theo lời giải thích sau đó. Nhưng mình vẫn hy vọng có một cách đặt tên/dịch ra tiếng Việt khác nghe có vẻ bình dân học vụ hơn.

Mô hình hồi quy tuyến tính, theo mình hiểu, được sử dụng để xem xét mối quan hệ tuyến tính giữa hai loại biến số, một là kết quả đầu ra (ta gọi là y – biến đầu ra hoặc biến phụ thuộc (vì nó thay đổi giá trị theo biến còn lại) – và chỉ duy nhất một biến), và hai là các tác nhân ảnh hưởng đến kết quả đó (ta gọi là các biến x – biến độc lập – có thể một hoặc nhiều biến). Ví dụ như ta muốn xem xét mối quan hệ giữa chất lượng bữa ăn (biến y) và các tác nhân ảnh hưởng như là kiến thức về dinh dưỡng (biến x1), sở thích về ăn uống (x2), tình trạng phân bổ chợ/siêu thị/hàng quán (x3), thu nhập (x4), trình độ học vấn (x5), giới tính (x6).

Nhưng tại sao lại gọi là hồi quy tuyến tính, chứ không phải đơn giản là xem xét mối quan hệ như nói ở trên. Phân tách cái tên này ra và dịch từ tiếng Anh sang tiếng Việt thì có 2 yếu tố, hồi quy (regression) và tuyến tính (linear). Hồi quy theo mình hiểu là cách đo lường mối quan hệ giữa giá trị trung bình (mean) của biến y và các biến x tương ứng như nói ở trên, vậy điều đặc trưng về hồi quy ở đây là ta phải đưa về giá trị trung bình rồi mới đo lường mối quan hệ giữa 2 loại biến này. Còn tuyến tính tức là đường thẳng, mà đường thẳng thì liên quan gì tới xác xuất thống kê vại ta. Nhớ lại bài học toán hồi cấp 3 về các hàm số trong hệ tọa độ mặt phẳng xy, thì cái đường tuyến tính chính là đường thẳng có hàm y = ax + b. Áp với khái niệm về hồi quy tuyến tính ở trên, thì hàm số này xem xét mối quan hệ giữa 2 biến, trong đó sự thay đổi của một biến (x) sẽ dẫn đến sự thay đổi (tăng lên hoặc hạ xuống về mặt giá trị) của biến kia (y) theo một tỉ lệ nhất định (tỉ lệ nhất định để có thể tạo ra được một đường thẳng). Cũng cần lưu ý ở đây đang nói về mô hình hồi quy tuyến tính một biến (x), sẽ có hàm có nhiều biến x, mà để tính sau.

Mình đọc tài liệu về xác xuất thống kê thì thường thấy người ta viết theo thứ tự y = a + bx, nên thôi viết vậy cho dễ chiếu qua. Xét lại ví dụ ở trên về chất lượng bữa ăn (biến đầu ra hay biến phụ thuộc y) và các yếu tố ảnh hưởng (các biến độc lập x), do đây là hồi quy tuyến tính một biến nên mình chỉ chọn một biến x, ví dụ như thu nhập (x4). Lấy hàm ở trên ứng vào ví dụ này thì ta có:

Chất lượng bữa ăn (y) = a + b x thu nhập (x)

Trong đó a và b là các hằng số (số cố định, không thay đổi như x hay y). Trong xác xuất thống kê thì a và b có tên và ý nghĩa của nó.

Mình đọc thấy hằng số a trong ứng dụng thì không có mấy công dụng ngoại trừ nó hình thành nên sự đặc trưng của mỗi hàm số. a chính là giá trị của y khi x = 0, hay điểm cắt giữa đường thẳng và trục y. Trong thực tế thì khi nghiên cứu về chất lượng bữa ăn của hộ gia đình, ít khi nào có hộ gia đình thu nhập = 0, nên cũng không quá lưu tâm về hằng số a này, còn tên gọi a là gì thì mình không biết/không nhớ.

Hằng số b thì nhiều ý nghĩa hơn, tiếng Anh gọi là regression coefficient (hệ số hồi quy). Trong đồ thị thì b biểu diễn độ dốc của đường thẳng trong trục tọa độ xy. Còn trong xác xuất thống kê thì b biểu diễn tỉ lệ tăng/giảm giữa 2 biến. Cụ thể hơn b biểu diễn sự thay đổi của biến phụ thuộc y khi biến độc lập x thay đổi từng đơn vị. Áp lại ví dụ ở trên, nhưng mình giả bộ gán đại giá trị vào a và b:

y = -4 + 2x

Trong hàm trên thì y là chất lượng bữa ăn, -4 là hằng số a, 2 là hệ số hồi quy b, x là thu nhập của một người. Người ta cũng nói là đơn vị khá quan trọng trong loại hàm số này vì khi đơn vị thay đổi thì hệ số cũng thay đổi theo, nên mình cho thu nhập có đơn vị là ngàn đồng, chất lượng bữa ăn có đơn vị là điểm. Vậy hệ số hồi quy ở đây có ý nghĩa: chất lượng bữa ăn của một người sẽ tăng (vì b có giá trị dương) 2 điểm mỗi khi thu nhập của người đó tăng một ngàn đồng.

Thêm một điểm cần lưu ý về việc sử dụng mô hình hồi quy tuyến tính là, mô hình này chỉ được áp dụng khi biến y là biến liên tục (continuous variable), biến x thì có thể là biến liên tục hoặc rời rạc (hình như là discrete variable) đều được. Kiến thức mình về các loại biến khác nhau còn mù mờ nên cũng không tự tin lắm khi viết giải thích như sau. Biến liên tục là loại biến có vô số giá trị giữa hai đầu mút. Ví dụ như cân nặng, chiều cao, chất lượng bữa ăn. Giữa 42kg và 53kg có vô số kể giá trị như 42.1, 42.2, 52.7, 52.8…Còn biến rời rạc là loại biến chỉ có một số giá trị nhất định, như biến giới tính (chỉ có giá trị nam, nữ, hoặc các biến trong cộng đồng LGBTQ), hoặc biến thu nhập nếu chia theo nhóm bao gồm thu nhập cao, thu nhập thấp, thu nhập trung bình. Ở đây ta còn để ý thấy có một số loại biến có thể vừa là biến liên tục vừa là biến rời rạc, tùy vào cách nhà nghiên cứu xào nấu nó như thế nào. Như biến thu nhập, có thể nói là biến liên tục khi xét nó trên một trục giá trị ngàn đồng, từ 0 tới 100 ngàn thì có vô số giá trị ở giữa. Nhưng nó cũng có thể trở thành biến rời rạc như ví dụ ở trên khi nhà nghiên cứu phân loại bao nhiêu đến bao nhiêu tiền là thu nhập thấp, bao nhiêu tới bao nhiêu là thu nhập trung bình, và còn bao nhiêu đến bao nhiêu là thu nhập cao.

Còn một khái niệm khác, viết ở bài mở đầu như thế này thì hơi không hợp lý nhưng mình cứ viết ở đây để nhớ, đó là hệ số r bình phương, tiếng Anh là Coefficient of Determination (mình viết tắt là CoD). Hệ số r là hệ số Pearson dùng để tính toán mối quan hệ giữa hai biến, sau này khi hiểu rõ về hệ số này rồi mình sẽ nói nhiều hơn. CoD theo mình hiểu là hệ số cho thấy mô hình hồi quy mà ta xây dựng mô tả mối quan hệ giữa hai biến tốt như thế nào (nghe ngôn ngữ kì cục quá, vì chưa hiểu rõ đó mà). Lại áp dụng vào ví dụ về chất lượng bữa ăn và thu nhập ở trên, giả sử ta có CoD = 0.75, có nghĩa là 75% sự biến đổi trong chất lượng bữa ăn là do thu nhập, 25% còn lại là do sự khác biệt giữa các cá nhân với nhau, và/hoặc các yếu tố khác như trình độ học vấn, kiến thức về dinh dưỡng, sở thích ăn uống …những yếu tố này không được xét tới trong mô hình đang được đề cập ở trên (y = -4 +2x, chỉ có biến thu nhập được xét tới).

Tạm thời nhiêu đây, khi nào hiểu thêm mình sẽ cố gắng viết để học tốt hơn.

Leave a Reply

Your email address will not be published. Required fields are marked *