Simple Linear Regression — Hồi quy tuyến tính đơn biến
CFA Level 1 · Quantitative Methods · Reading 10
LOS: 10.a → 10.eFormat: Song ngữ Việt–Anh + đời thườngSource: SAPP Academy · CFA Curriculum
PHẦN MỞ ĐẦU
0. Trực giác — Regression thực ra đang làm gì?
What is regression really doing?
Trước khi nhảy vào công thức, hãy nhớ một câu duy nhất:
Đời thường
Regression chỉ trả lời một câu: "Nếu X thay đổi 1 đơn vị, thì Y thay đổi bao nhiêu?"
Ví dụ xuyên suốt — Giờ học CFA vs Điểm mock test
Giờ học (X)
Điểm mock (Y)
1
50
2
55
3
58
4
65
5
70
Regression cố vẽ một đường thẳng đi xuyên qua đám điểm này sao cho gần với tất cả các điểm nhất có thể. Kết quả ta sẽ tính ra ở phần sau:
$$\hat{Y} = 45 + 5X$$
Đọc thẳng ra: Học thêm 1 giờ → điểm tăng khoảng 5 điểm. Nếu không học giờ nào (X = 0), dự đoán được 45 điểm. Vậy là xong "linh hồn" của regression. Phần còn lại chỉ là công thức và kiểm định để chứng minh đường thẳng này có đáng tin hay không.
Hình 1 — Scatter plot 5 điểm dữ liệu, đường hồi quy OLS, và phần dư εᵢ (đường đứt đỏ).
LOS 10.a
Mô hình hồi quy tuyến tính đơn & Tiêu chí bình phương tối thiểu (OLS)
Describe the simple linear regression model and the least squares criterion for estimating regression coefficients
1. Mục đích
VN
Hồi quy tuyến tính đơn biến giải thích sự thay đổi của biến phụ thuộc Y dựa trên sự thay đổi của một biến độc lập X duy nhất.
EN
Simple linear regression explains the variation of a dependent variable Y based on the variation of a single independent variable X.
Nhớ: endo- (bên trong, bị quyết định) = phụ thuộc; exo- (bên ngoài, đi vào) = độc lập.
3. Đường hồi quy (Regression line) & tiêu chí OLS
VN
Đường hồi quy là đường tối thiểu hóa tổng sai số bình phương (SSE) giữa giá trị Y thực tế và Y dự đoán. Đây là lý do tên gọi: Ordinary Least Squares (OLS) — hồi quy bình phương nhỏ nhất.
EN
The regression line minimizes the sum of squared errors (SSE) between actual and predicted Y values. Hence the name Ordinary Least Squares (OLS).
Sample regression line
$$\hat{Y}_i = \hat{b}_0 + \hat{b}_1 X_i$$
Ký hiệu mũ ^ ("hat") nghĩa là giá trị ước lượng từ mẫu, phân biệt với hệ số tổng thể không có mũ.
Đời thường — Tại sao bình phương?
Có vô số đường thẳng có thể vẽ qua đám điểm. OLS chọn đường có tổng bình phương phần dư nhỏ nhất.
Tại sao phải bình phương mà không cộng thẳng?
Nếu cộng thẳng: +5 + (-5) = 0 → sai số dương và âm triệt tiêu nhau, đường nào cũng "tốt"!
Bình phương: 25 + 25 = 50 → phản ánh đúng độ lệch tổng cộng.
→ $\hat{Y} = 44.6 + 5X$. Học thêm 1 giờ → điểm dự đoán tăng 5 điểm.
4. Cross-sectional vs Time-series
Loại dữ liệu
Định nghĩa
Ví dụ
Cross-sectional (cắt ngang)
Nhiều chủ thể tại cùng một thời điểm
P/E và lợi nhuận của 100 cổ phiếu VN30 vào ngày 30/06/2026
Time-series (chuỗi thời gian)
Một chủ thể trong nhiều thời điểm
GDP Việt Nam từ 2010 đến 2025
LOS 10.b
Bốn giả định của hồi quy tuyến tính đơn
Explain the assumptions of the simple linear regression model and describe how residuals/residual plots indicate possible violations
Để các kiểm định t-test, F-test, và khoảng tin cậy có ý nghĩa, mô hình hồi quy phải thỏa mãn 4 giả định cơ bản:
#
Giả định (EN / VN)
Nghĩa đời thường
Dấu hiệu vi phạm trên residual plot
1
Linearity Tuyến tính
Quan hệ giữa X và Y gần với đường thẳng
Residuals tạo hình cong (parabol, sóng) → quan hệ là phi tuyến
2
Homoskedasticity Phương sai đồng nhất
Sai số "rải đều" — không lớn dần khi X tăng
Hình phễu (fan shape) → heteroskedasticity
3
Independence Độc lập
Các sai số không "kéo theo nhau". Quan trọng nhất với time-series.
Pattern có quy luật (sóng, chu kỳ) → autocorrelation / serial correlation
4
Normality Phân phối chuẩn
Phần dư εᵢ theo phân phối chuẩn
Tail dày, lệch (skewed) trên Q-Q plot
Hình 2 — Đọc residual plot: Panel trái OK (rải đều, không pattern); panel giữa heteroskedasticity (phương sai tăng dần); panel phải non-linear (residuals tạo đường cong).
Đo lường sự phù hợp của mô hình & kiểm định hệ số hồi quy
Calculate and interpret measures of fit and tests of fit and significance of regression coefficients
1. Các thành phần biến động — SST = RSS + SSE
VN
Tổng biến động của Y được tách thành phần giải thích được (do biến X) và phần không giải thích được (do nhiễu).
EN
Total variation in Y is decomposed into explained variation (by X) and unexplained variation (noise).
$$\text{SST} = \text{RSS} + \text{SSE}$$
Total variation = Explained variation + Unexplained variation
Ký hiệu
Tên đầy đủ
Công thức
Ý nghĩa
SST
Total Sum of Squares
$\sum (Y_i - \bar{Y})^2$
Tổng biến động của Y
RSS
Regression Sum of Squares
$\sum (\hat{Y}_i - \bar{Y})^2$
Phần giải thích được bởi X
SSE
Sum of Squared Errors
$\sum (Y_i - \hat{Y}_i)^2$
Phần KHÔNG giải thích được (sai số)
Cảnh báo ký hiệu — RSS gây nhầm lẫn!
Một số sách (đặc biệt sách kinh tế lượng truyền thống) dùng RSS = Residual Sum of Squares (chính là SSE của CFA). Trong khung CFA, RSS = Regression Sum of Squares = phần giải thích được. Luôn đối chiếu định nghĩa trong đề!
R² là % biến động của Y được X giải thích. R² = 0.85 nghĩa là 85% sự thay đổi của Y có thể giải thích bằng X; 15% còn lại là do các yếu tố khác / nhiễu.
R² gần 1 → mô hình rất phù hợp.
R² gần 0 → X gần như không giải thích được gì cho Y.
Trong hồi quy đơn biến: R² = r² (bình phương của hệ số tương quan).
3. F-test — Kiểm định ý nghĩa tổng thể của mô hình
F-test trả lời câu: "Mô hình có thực sự giải thích được Y không, hay tất cả slope đều = 0?"
Bước 1 — Phát biểu giả thuyết (cho hồi quy đơn biến)
ANOVA & Sai số chuẩn của ước lượng (SEE)
Describe ANOVA in regression analysis, interpret ANOVA results, and calculate/interpret the standard error of estimate
1. Standard Error of Estimate (SEE)
VN
SEE đo khoảng cách trung bình giữa các giá trị Y thực tế và giá trị Y ước lượng. SEE càng nhỏ → mô hình càng phù hợp.
EN
SEE measures the average distance between actual and predicted Y values. Smaller SEE → better fit.
ANOVA (Analysis of Variance) là cách tổ chức kết quả hồi quy thành bảng chuẩn, thường xuất hiện trong các câu hỏi CFA dạng "vignette":
Source of variation
Degrees of Freedom (df)
Sum of Squares
Mean Sum of Squares
F-statistic
Regression (Explained)
1
$\text{RSS} = \sum(\hat{Y}_i - \bar{Y})^2$
$\text{MSR} = \dfrac{\text{RSS}}{1}$
$F = \dfrac{\text{MSR}}{\text{MSE}}$
Error (Unexplained)
n − 2
$\text{SSE} = \sum(Y_i - \hat{Y}_i)^2$
$\text{MSE} = \dfrac{\text{SSE}}{n-2}$
Total
n − 1
SST = RSS + SSE
CFA tip — Đọc bảng ANOVA
Bài thi thường cho bảng ANOVA với một ô để trống và bắt tính. Hãy nhớ các quan hệ:
SST = RSS + SSE → biết 2 cái, tính được cái thứ 3.
df total = n − 1; df regression = k = 1; df error = n − k − 1 = n − 2.
R² = RSS / SST
SEE = √MSE = √(SSE / (n−2))
F = MSR / MSE
Ví dụ — Hoàn thành bảng ANOVA
Cho: n = 22, RSS = 480, SST = 600. Hãy tính SSE, MSE, F-stat, R², SEE.
SSE = SST − RSS = 600 − 480 = 120
df error = n − 2 = 20
MSE = SSE / 20 = 120 / 20 = 6
MSR = RSS / 1 = 480
F = MSR / MSE = 480 / 6 = 80
R² = RSS / SST = 480 / 600 = 0.80
SEE = √MSE = √6 ≈ 2.449
VÍ DỤ
Ví dụ — So sánh hai bảng ANOVA & tính đủ chỉ số
Worked example — complete two ANOVA tables and compute every measure of fit
Cho hai bảng ANOVA của hai mô hình hồi quy tuyến tính đơn (mỗi mô hình có k = 1 biến độc lập). Nhiệm vụ: kiểm tra/hoàn thành bảng, rồi tính MSR, MSE, F, R², r, SEE, R² hiệu chỉnh và kết luận mô hình nào phù hợp hơn.
Đề bài — số liệu gốc
Bảng 1 — Source
Sum of squares
df
Mean sum of squares
Regression
556
1
556
Error
679
50
13.5
Total
1,235
51
Bảng 2 — Source
Sum of squares
df
Mean sum of squares
Regression
550
1
550.000
Error
750
38
19.737
Total
1,300
39
Bước 0 — Suy ra cỡ mẫu n từ df
dftotal = n − 1 ⇒ Bảng 1: n = 51 + 1 = 52; Bảng 2: n = 39 + 1 = 40.
dfregression = k = 1; dferror = n − k − 1 = n − 2 (khớp 50 và 38). ✓
Mô hình ở Bảng 1 phù hợp hơn: R² và R² hiệu chỉnh cao hơn, SEE nhỏ hơn (sai số dự đoán trung bình thấp hơn), và F lớn hơn (ý nghĩa thống kê mạnh hơn). Cả hai mô hình đều có ý nghĩa ở mức 5% vì $F \gg F_{crit}$.
LOS 10.e
Giá trị dự đoán & Khoảng tin cậy
Calculate and interpret the predicted value for the dependent variable, and a confidence interval for the predicted value
1. Giá trị dự đoán (Predicted value)
Khi đã có $\hat{b}_0, \hat{b}_1$ từ hồi quy, ta dự đoán Y tại một giá trị X cụ thể (gọi là $X_p$):
$$\hat{Y} = \hat{b}_0 + \hat{b}_1 X_p$$
Ví dụ
Với $\hat{Y} = 45 + 5X$, dự đoán điểm cho học sinh học 6 giờ:
$\hat{Y} = 45 + 5(6) = 75$ điểm.
2. Confidence Interval cho giá trị dự đoán
Predicted value chỉ là điểm ước lượng, không phản ánh độ không chắc chắn. Confidence interval cho ta khoảng giá trị Y có thể nằm trong với xác suất 100(1−α)%.
Quy trình 4 bước
Bước 1: Ước lượng $\hat{Y}$ tại $X_p$ theo công thức trên.
Bước 2: Chọn mức ý nghĩa α (thường 5% hoặc 1%).
Bước 3: Xác định t-critical với df = n − 2 từ bảng t.
n lớn → khoảng hẹp lại (nhiều dữ liệu → chắc chắn hơn).
$X_p$ càng xa $\bar{X}$ → khoảng càng rộng. Đây là lý do ngoại suy (extrapolation) ra ngoài vùng dữ liệu rất rủi ro.
CFA tip — Conceptual question
Tại sao confidence interval cho predicted value rộng hơn khoảng tin cậy đơn giản $\hat{Y} \pm t \cdot \text{SEE}$?
→ Vì $s_f$ phản ánh cả sự không chắc chắn của hệ số ước lượng ($\hat{b}_0, \hat{b}_1$) và nhiễu εᵢ. Khi $X_p$ rời xa trung tâm dữ liệu, sai số ước lượng hệ số ảnh hưởng càng lớn.
CHEATSHEET
Tóm tắt + Cách CFA ra đề
Exam-style summary
Bảng công thức cốt lõi
Đại lượng
Công thức
Ghi nhớ
Slope
$\hat{b}_1 = \text{Cov}(X,Y) / \sigma_X^2$
X tăng 1 → Y thay đổi b₁
Intercept
$\hat{b}_0 = \bar{Y} - \hat{b}_1 \bar{X}$
Y khi X = 0; line đi qua (X̄, Ȳ)
SST
$\sum(Y_i - \bar{Y})^2$
Tổng biến động
RSS
$\sum(\hat{Y}_i - \bar{Y})^2$
Giải thích được
SSE
$\sum(Y_i - \hat{Y}_i)^2$
KHÔNG giải thích được
R²
RSS / SST = 1 − SSE/SST
% biến động được giải thích
SEE
√(SSE/(n−2))
Sai số trung bình của dự đoán
F-stat
MSR / MSE
df = (1, n−2); one-tailed
t-stat slope
$(\hat{b}_1 - B_1) / s_{\hat{b}_1}$
df = n − 2
t↔F
F = t²
Chỉ đúng cho hồi quy đơn biến
CFA ra đề kiểu gì?
Hiếm hỏi
❌ Chứng minh công thức OLS
❌ Derive slope từ điều kiện bậc nhất
❌ Tính tay $\hat{b}_1$ từ 20 datapoints
Hay hỏi (✅)
✅ Interpret slope/intercept bằng câu chữ
✅ Đọc bảng ANOVA + tính ô trống
✅ R² interpretation
✅ Identify assumption violation từ residual plot
✅ Cross-sectional vs time-series
✅ OLS minimizes WHAT? → SSE
✅ F-test vs t-test trong hồi quy đơn biến (F = t²)
✅ Tính predicted value với $\hat{Y} = b_0 + b_1 X_p$
✅ Tên gọi khác: endogenous, exogenous, explained, predicting…
Cụm từ CFA hay dùng để bẫy
"The regression sum of squares" → RSS (CFA), không phải residual!
"Residual sum of squares" → SSE
"Standard error of estimate" = SEE = √MSE (đừng nhầm với $s_{\hat{b}_1}$ = SE of slope)
"Coefficient of determination" = R², không phải hệ số tương quan r
"Slope coefficient is statistically significant" → ngụ ý đã reject H₀: b₁ = 0
Quy trình 6 bước kiểm định giả thuyết (nhớ nằm lòng)
Phát biểu H₀ và Ha
Xác định test statistic (F hoặc t)
Xác định mức ý nghĩa α (1%, 5%, 10%)
Xác định critical value và quy tắc ra quyết định
Tính test statistic từ dữ liệu mẫu
Ra quyết định: bác bỏ / không bác bỏ H₀ + kết luận