CFA Level I · Quantitative Methods · Module 10

Simple Linear
Regression

Chỉ 1 biến X giải thích Y bằng đường OLS. Module nặng nhất phần Quant (6 LOS) nhưng ít tính tay: điểm nằm ở đọc bảng ANOVA, ký hiệu SST/SSR/SSE, R² vs SEE, và F = t².

10.a OLS model · least squares 10.b 4 giả định (LINE) · residual plot 10.c–d R² · F · t · ANOVA · SEE 10.e Predicted value · CI

Ký hiệu & mối liên hệ — gom nhóm liên quan + cách nhớ

① Mô hình & biến

Chỉ số	CFA-style definition	Tiếng Việt
Y	Dependent variable — the variable being explained or predicted.	Biến được giải thích / dự báo.
X	Independent variable — used to explain or predict Y.	Biến dùng để giải thích / dự báo Y.
b₀	Intercept — predicted value of Y when X = 0.	Y dự báo khi X = 0.
b₁	Slope — expected change in Y for a one-unit change in X.	X tăng 1 → Y kỳ vọng thay đổi b₁.
Ŷ	Predicted value — estimated Y from the regression equation.	Y do mô hình dự báo.
e	Residual — actual minus predicted Y.	Sai số = Y thực tế − Ŷ.

② Phân rã biến động — xương sống của cả module

SST = SSR + SSETotal = Regression (giải thích) + Error (còn lại)

Chỉ số	CFA-style definition	Tiếng Việt
SST	Total sum of squares — total variation in Y.	Σ(Yᵢ−Ȳ)² · tổng biến động của Y.
SSR	Regression sum of squares — variation in Y explained by X.	Σ(Ŷᵢ−Ȳ)² · phần GIẢI THÍCH được.
SSE	Sum of squared errors — variation in Y not explained.	Σ(Yᵢ−Ŷᵢ)² · phần KHÔNG giải thích.

③ Đo độ phù hợp — sinh ra từ SST/SSR/SSE

Chỉ số	CFA-style definition	Tiếng Việt
R²	Coefficient of determination — % of total variation in Y explained by X.	= SSR/SST · % Y được X giải thích.
r	Correlation — strength & direction of the linear relationship.	= √R² (simple) · độ mạnh & chiều.
SEE	Standard error of estimate — standard deviation of the residuals.	= √MSE · độ lệch chuẩn của phần dư.

④ Mean squares — chia cho degrees of freedom

Chỉ số	CFA-style definition	Tiếng Việt
MSR	Mean square regression — explained variation per regression df.	= SSR/1 · bình quân phần giải thích.
MSE	Mean squared error — unexplained variation per error df.	= SSE/(n−2) · bình quân phần sai số.

⑤ Kiểm định — dùng các chỉ số trên

Chỉ số	CFA-style definition	Tiếng Việt
SE_b	Standard error of coefficient — sampling variability of an estimated coefficient.	Độ không chắc chắn của hệ số ước lượng.
t	t-statistic — tests the significance of an individual coefficient (slope).	= (b̂₁−B₁)/SE_b · test TỪNG hệ số · df=n−2.
F	F-statistic — tests the significance of the overall regression.	= MSR/MSE · test TOÀN mô hình · right-tailed.
p	p-value — smallest significance level at which H₀ can be rejected.	α nhỏ nhất để bác H₀ · p < α ⇒ reject.

Lừa · notation & tên gọi

SSR = Regression SS = phần giải thích. Một số sách viết RSS — mà RSS có thể là Regression HOẶC Residual (= SSE) tùy sách. Luôn đối chiếu định nghĩa trong đề.
Dependent (Y) = explained = endogenous = predicted. Independent (X) = explanatory = exogenous = predicting. (endo- = bên trong, bị quyết định = phụ thuộc.)
SEE ≠ SE_b: SEE là độ lệch chuẩn phần dư của cả mô hình; SE_b là sai số của riêng một hệ số.
R² = coefficient of determination (không phải r). r = correlation. Simple regression: R² = r².

Làm sao nhớ — sơ đồ mối liên hệ

Mạch nhớ — mọi thứ bắt nguồn từ SST

Bắt đầu ở SST = tổng biến động của Y, tách làm đôi thành SSR (Regression = giải thích được) cộng SSE (Error = phần còn lại). Lấy tỷ lệ SSR/SST ra R² (% giải thích, và bằng r²); lấy phần còn lại chia df ra MSE = SSE/(n−2) rồi SEE = √MSE (sai số dự báo). Chia mỗi phần cho df thành mean square: MSR = SSR/1, MSE = SSE/(n−2), ghép lại thành F = MSR/MSE để test toàn mô hình (right-tailed); test từng hệ số bằng t = b̂₁/SE_b, df = n−2; và trong simple regression hai cái khớp qua F = t². Cuối cùng p-value < α ⇒ reject H₀.

Mẹo nhớ nhanh

SST = SSR + SSE → "Total = Regression + Error". R = giải thích, E = sai số.
R² = SSR/SST → "phần Regression trên Total". R² lớn = fit tốt · SEE nhỏ = fit tốt.
F = t² (chỉ simple regression). F to / t to / p nhỏ ⇒ reject.
Mean square = SS ÷ df → MSR = SSR/1, MSE = SSE/(n−2). Từ đó SEE = √MSE và F = MSR/MSE.
df: total = n−1 · regression = k = 1 · error = n−2. Mọi t-test ở đây df = n−2.

Học ít công thức — suy ra phần còn lại

Đừng học ~12 công thức rời. Thuộc 4 mỏ neo, mọi cái khác tự bung ra từ đó.

4 mỏ neo phải thuộc

① Phân rã: SST = SSR + SSE (Total = giải thích + sai số).
② Bậc tự do: reg = 1 · error = n−2 · total = n−1.
③ Khuôn Mean Square: MS = SS ÷ df (dùng chung cho MSR và MSE).
④ Ý tưởng test: thống kê = giải thích ÷ sai số → F = MSR/MSE; t = hệ số ÷ SE.

Muốn có	Suy từ mỏ neo	Ra công thức
Ŷ · e	Định nghĩa	Ŷ = b̂₀+b̂₁X · e = Y−Ŷ
R²	① SST = SSR+SSE	SSR/SST = 1 − SSE/SST (2 công thức = 1)
r	Simple regression	r = √R² (dấu theo slope b̂₁)
MSR	② + ③	SSR/1 = SSR
MSE	② + ③	SSE/(n−2)
SEE	Từ MSE	√MSE — không cần nhớ riêng
F	④	MSR/MSE = (SSR/1)/(SSE/(n−2))
t slope	④	(b̂₁−B₁)/SE_b · df = n−2
F ↔ t	Simple regression	F = t² → t = √F

Chuỗi suy · chỉ cần SST, R², n là ra HẾT

Cho SST = 600 · R² = 0.80 · n = 22:
SSR = R²·SST = 0.80 × 600 = 480
SSE = SST − SSR = 600 − 480 = 120
MSR = SSR/1 = 480 · MSE = SSE/(n−2) = 120/20 = 6
SEE = √MSE = √6 ≈ 2.449 · F = MSR/MSE = 480/6 = 80 · r = √R² ≈ 0.894
→ Chỉ 3 con số đầu vào mở khóa cả bảng. Đó là lý do không cần thuộc từng công thức.

Chú ý khi suy

Hai công thức R² (SSR/SST và 1 − SSE/SST) là một — nhờ mỏ neo ①. Đề cho SSE thì dùng bản trừ, cho SSR thì dùng bản chia.
r = √R² nhưng dấu lấy theo slope b̂₁ (b̂₁ < 0 thì r âm). R² luôn ≥ 0 nên không cho biết dấu.
Chỉ simple regression mới có F = t² và R² = r². Multiple regression (Level II) thì khác.

10.a · OLS Model & Least Squares — đường tối thiểu hóa SSE

Bản chất: có vô số đường thẳng qua đám điểm; OLS chọn đường có tổng bình phương phần dư nhỏ nhất. Bình phương để sai số dương/âm không triệt tiêu nhau.

Yᵢ = b₀ + b₁Xᵢ + εᵢPopulation model

Ŷᵢ = b̂₀ + b̂₁XᵢSample regression line

b̂₁ = Cov(X,Y) / σ²ₓ = Σ(Xᵢ−X̄)(Yᵢ−Ȳ) / Σ(Xᵢ−X̄)²Slope

b̂₀ = Ȳ − b̂₁X̄Intercept · line đi qua (X̄, Ȳ)

Ví dụ · giờ học → điểm: (1,50) (2,55) (3,58) (4,65) (5,70)
X̄ = 3 · Ȳ = 59.6
Σ(Xᵢ−X̄)(Yᵢ−Ȳ) = (−2)(−9.6)+(−1)(−4.6)+0+（1)(5.4)+(2)(10.4) = 50
Σ(Xᵢ−X̄)² = 4+1+0+1+4 = 10
b̂₁ = 50/10 = 5 · b̂₀ = 59.6 − 5(3) = 44.6 ≈ 45 → Ŷ = 45 + 5X
Học thêm 1 giờ → điểm dự đoán tăng 5.

Chú ý · Cross-sectional vs Time-series

Cross-sectional: nhiều chủ thể tại 1 thời điểm (P/E của 100 cổ phiếu VN30 ngày 30/06).
Time-series: 1 chủ thể qua nhiều thời điểm (GDP Việt Nam 2010–2025).

10.b · Bốn giả định — mẹo nhớ LINE

Giả định	Nghĩa	Dấu hiệu vi phạm trên residual plot
Linearity	Quan hệ X–Y gần đường thẳng	Residuals cong (parabol/sóng) → non-linear
Independence	Sai số không kéo theo nhau (quan trọng nhất với time-series)	Pattern chu kỳ → autocorrelation
Normality	εᵢ phân phối chuẩn	Tail dày / lệch trên Q-Q plot
Equal variance	Homoskedasticity — sai số rải đều	Hình phễu (fan) → heteroskedasticity

Lừa · đọc residual plot

Hình phễu → heteroskedasticity (vi phạm equal variance), KHÔNG phải non-linearity.
Hình cong → non-linearity. Sóng/chu kỳ → autocorrelation.
Residual plot rải đều ngẫu nhiên = OK (không kết luận vi phạm).

10.c · Measures of Fit & Coefficient Tests — SST = SSR + SSE

SST = SSR + SSETotal = Explained + Unexplained · biết 2 tính được 3

R² = SSR/SST = 1 − SSE/SST% biến động Y được X giải thích · simple: R² = r²

F = MSR/MSE = (SSR/1) / (SSE/(n−2))df = (1, n−2) · LUÔN right-tailed

t-test cho slope, correlation

t = (b̂₁ − B₁) / s_b̂₁Slope · df = n−2 · s_b̂₁ = SEE/√Σ(Xᵢ−X̄)²

t = r·√(n−2) / √(1−r²)Correlation ρ=0 · df = n−2

Có thi · vì sao F = t²

Simple regression chỉ có 1 slope, nên "mô hình có ý nghĩa" ⇔ "b₁ ≠ 0". F-test và t-test slope đang hỏi cùng một câu → bắt buộc cùng kết luận.
t có dấu (±, slope âm/dương); F = tín hiệu ÷ nhiễu nên luôn ≥ 0. Bình phương t làm mất dấu → khớp đúng F.
VD: t = 3 → F = 9 · t = −2.5 → F = 6.25 · F = 16 → t = ±4. Đề hay cho cái này bắt tính cái kia.

Lừa · F = t² chỉ đúng khi

Chỉ simple regression (1 biến X). Multiple regression (Level II): F test tất cả slope cùng lúc, t test từng cái → F ≠ t².
Chỉ khi t-test slope dùng B₁ = 0 (test "khác 0"). Nếu test b₁ khác một giá trị khác thì quan hệ này không còn.

Lừa · ký hiệu & df

df của t-test slope/correlation = n − 2 (không phải n−1).
SEE ≠ s_b̂₁: SEE là sai số của toàn mô hình; s_b̂₁ là SE của riêng slope.
"Coefficient of determination" = R², không phải correlation r.

10.d · ANOVA & SEE — đọc bảng, tính ô trống

SEE = √MSE = √(SSE / (n−2))Sai số trung bình dự đoán · nhỏ hơn = fit tốt hơn

Source	df	Sum of squares	Mean square	F
Regression	1	SSR = Σ(Ŷᵢ−Ȳ)²	MSR = SSR/1	F = MSR/MSE
Error	n−2	SSE = Σ(Yᵢ−Ŷᵢ)²	MSE = SSE/(n−2)	F = MSR/MSE
Total	n−1	SST = SSR + SSE

Ví dụ · hoàn thành bảng: cho n = 22, SSR = 480, SST = 600
SSE = 600 − 480 = 120 · df error = n−2 = 20
MSE = 120/20 = 6 · MSR = 480/1 = 480 · F = 480/6 = 80
R² = 480/600 = 0.80 · SEE = √6 ≈ 2.449

10.e · Predicted Value & Confidence Interval

Ŷ = b̂₀ + b̂₁XₚPredicted value tại Xₚ

Ŷ ± t_crit · s_fCI · df = n−2

s_f = SEE·√( 1 + 1/n + (Xₚ−X̄)² / ((n−1)σ²ₓ) )Standard error of forecast

Ví dụ: Ŷ = 45 + 5X, dự đoán học sinh học 6 giờ → Ŷ = 45 + 5(6) = 75 điểm.

Lừa · vì sao CI rộng ra

Xₚ càng xa X̄ → sₓ càng lớn → CI càng rộng (không phải hẹp). Đây là lý do extrapolation rất rủi ro.
sₓ > SEE vì phản ánh cả bất định của hệ số ước lượng và nhiễu ε. Nên CI của predicted value rộng hơn Ŷ ± t·SEE.
SEE lớn → CI rộng · n lớn → CI hẹp.

Câu nối keyword — mạch tính toán regression

OLS chọn đường minimizing the sum of squared errors, cho ra slope b̂₁ = Cov(X,Y)/σ²ₓ và intercept b̂₀ = Ȳ − b̂₁X̄ (đường luôn qua (X̄, Ȳ)). Tổng biến động tách thành SST = SSR + SSE, từ đó R² = SSR/SST đo phần giải thích được, còn SEE = √MSE đo sai số còn lại. Ý nghĩa tổng thể kiểm bằng F = MSR/MSE, right-tailed, df = (1, n−2); ý nghĩa từng slope kiểm bằng t = (b̂₁ − B₁)/s_b̂₁, df = n−2; và trong simple regression hai cái khớp nhau qua F = t².

Keyword → chọn gì

Các dạng bài — nhận diện → cách làm

Bẫy keyword — Đúng hay Sai?

Statement	Verdict

Tự kiểm tra —

Đúng 0