Quantitative Methods CFA Level 1 – Bilingual EN / VN Summary

Exam weight: 6–9% | ~11–16 questions | 11 modules (LM01–LM11) | Nội dung dưới đây được rút trực tiếp từ ngân hàng câu hỏi thực tế của bạn.

Mục lục / Table of Contents

  1. LM01: Rates & Returns / Lãi suất & Lợi nhuận
  2. LM02: Time Value of Money in Finance / Định giá theo TVM
  3. LM03: Statistical Measures / Thống kê mô tả lợi nhuận
  4. LM04: Probability Trees & Bayes / Cây xác suất & Bayes
  5. LM05: Portfolio Mathematics / Toán danh mục
  6. LM06: Simulation Methods / Phương pháp mô phỏng
  7. LM07: Estimation & Inference / Ước lượng & Suy diễn
  8. LM08: Hypothesis Testing / Kiểm định giả thuyết
  9. LM09: Tests of Independence / Kiểm định tương quan & độc lập
  10. LM10: Simple Linear Regression / Hồi quy tuyến tính đơn
  11. LM11: Big Data Techniques / Dữ liệu lớn & Fintech

LM01: Rates & Returns / Lãi suất & Lợi nhuận

Interest rate components / Cấu phần lãi suất

EnglishTiếng Việt
Required return = Real risk-free rate + Inflation premium + Default + Liquidity + Maturity premiums.Lợi suất yêu cầu = Lãi suất thực phi rủi ro + Phần bù lạm phát + bù vỡ nợ + thanh khoản + kỳ hạn.
Nominal risk-free ≈ Real risk-free + Expected inflation. T-bill yield = nominal RF (đã chứa inflation premium).Lãi suất danh nghĩa phi rủi ro ≈ thực + lạm phát kỳ vọng. Lợi suất T-bill là nominal RF (đã chứa phần bù lạm phát).
Real risk-free rate = pure time preference only. Real return đo sức mua (purchasing power).Lãi suất thực phi rủi ro = thuần ưu tiên thời gian. Real return đo tăng sức mua.
Phân biệt vai trò lãi suất: discount rate (đưa FV về PV), opportunity cost (chi phí cơ hội khi rút tiền), required return (mức tối thiểu để dụ nhà đầu tư).Cùng một con số % nhưng tên gọi đổi theo ngữ cảnh — câu hỏi hay bẫy ở chỗ này.
Fisher (exact): (1 + nominal) = (1 + real)(1 + inflation)
Real (exact) = 1 + nominal1 + inflation − 1

Measures of a single return / Các thước đo lợi nhuận một kỳ

EnglishTiếng Việt
HPR = P1 − P0 + IncomeP0. Gồm cả giá tăng + cổ tức/coupon. Không cần ngày tháng nếu chỉ hỏi HPR.Lợi nhuận nắm giữ: chênh giá + thu nhập, chia giá đầu kỳ.
Continuously compounded r = ln(S1/S0) = ln(1 + HPR). Khi giá tăng, HPR > rcc.Lãi gộp liên tục = ln tỷ giá cuối/đầu. Khi giá tăng, HPR luôn lớn hơn r liên tục.
EAR continuous = er − 1. Càng tăng tần suất ghép lãi → EAR càng cao (liên tục là cao nhất).EAR liên tục = er − 1. Ghép lãi nhiều lần → EAR lớn hơn.
Gross vs Net vs After-tax vs Real: net = gross − phí quản lý; after-tax trừ thuế; real trừ lạm phát. (Trading cost đã nằm trong gross.)Gross trừ phí quản lý ra net; trừ thuế ra after-tax; trừ lạm phát ra real.
Leveraged return RL = RP + VBVE(RP − rD). Đòn bẩy khuếch đại cả lãi và lỗ.Lợi nhuận đòn bẩy: chỉ tăng lợi nhuận nếu RP > chi phí vay rD.
RL = RP + VborrowedVequity × (RP − rD)

Mean / measures across periods / Các loại trung bình

EnglishTiếng Việt
Arithmetic mean: trung bình đơn. Ước lượng tốt nhất cho lợi nhuận kỳ vọng 1 kỳ kế tiếp.Trung bình cộng: dự báo 1 kỳ tới.
Geometric mean = compound growth thực tế qua nhiều kỳ (= time-weighted return).Trung bình nhân = tăng trưởng kép thực; chính là TWR.
Harmonic mean: trung bình giá khi nạp tiền cố định mỗi kỳ (cost averaging).Trung bình điều hòa: bình quân giá mua đều đặn.
Geometric = [(1+R1)…(1+Rn)]1/n − 1  |  Harmonic = nΣ(1/Xi)
Harmonic ≤ Geometric ≤ Arithmetic (bằng nhau khi mọi giá trị giống nhau)
Quan hệ: Arithmetic × Harmonic = (Geometric)2

Money-weighted vs Time-weighted / Hai cách đo lợi nhuận danh mục

EnglishTiếng Việt
MWR = IRR của mọi dòng tiền vào/ra. Bị lệch theo timing & quy mô nạp/rút.MWR: bias lên nếu nạp tiền ngay trước kỳ tốt, bias xuống nếu nạp trước kỳ xấu.
TWR = geometric mean của HPR từng đoạn. Không bị ảnh hưởng dòng tiền → đo kỹ năng quản lý.TWR: chuẩn ngành để chấm hiệu suất nhà quản lý (buy-and-hold nạp định kỳ cũng dùng TWR/geometric).
EXAMTHI Hay hỏi: tính TWR (geomean của HPR), tính MWR (IRR trên BA II Plus), HPR có cổ tức, r liên tục = ln(P1/P0), phân biệt discount/opportunity/required rate, thứ tự 3 trung bình.

LM02: Time Value of Money in Finance / Định giá tài sản bằng TVM

Core TVM / Công thức TVM cốt lõi

EnglishTiếng Việt
FV = PV(1+r)N ; PV = FV(1+r)N.FV/PV một khoản: chiết khấu lũy thừa N.
Ordinary annuity trả cuối kỳ; annuity due trả đầu kỳ (= ordinary ×(1+r), BA II ở BGN).Niên kim thường trả cuối kỳ; niên kim đầu kỳ phải bật chế độ BGN.
Perpetuity = PMT / r ; deferred perpetuity: định giá tại kỳ ngay trước dòng tiền đầu, rồi chiết khấu về t=0.Niên kim vĩnh viễn = PMT/r; nếu trả từ năm 4, giá trị PMT/r đứng ở t=3 → chia thêm (1+r)³.
PV ordinary annuity = PMT × 1 − (1+r)−Nr
Mortgage/loan PMT: PV = khoản vay, FV = 0 → CPT PMT (nhớ chia r và N theo kỳ tháng)

Pricing bonds & equities / Định giá trái phiếu & cổ phiếu

EnglishTiếng Việt
Coupon bond: PV = PV(coupons) + PV(par). PMT = coupon, FV = par, I/Y = YTM, PV = giá (âm trên máy).Trái phiếu coupon là bài TVM hỗn hợp. Bán niên: chia coupon & YTM cho 2, nhân N với 2.
Zero-coupon: price = FV(1+r)N. YTM: (FVPV)1/N − 1.Trái phiếu chiết khấu: chỉ có 1 dòng tiền cuối. Lãi suất âm → giá > mệnh giá.
Giá ↔ YTM nghịch biến. Coupon > YTM → premium (giá > par); coupon < YTM → discount.YTM giảm thì giá tăng và ngược lại; coupon thấp hơn YTM thì bán dưới mệnh giá.
Preferred / perpetuity stock: V = Dr.Cổ phiếu ưu đãi: giá = cổ tức / lợi suất yêu cầu.
Gordon Growth (DDM): V0 = D1r − g, với g < r ; D1 = D0(1+g).Gordon: cổ tức kỳ tới chia (r − g); g phải < r nếu không mẫu số âm vô nghĩa.
Gordon: V0 = D0(1+g)r − gimplied r = D1P0 + g ; implied g = r − D1P0
Forward P/E = payout ratior − g

Cash flow additivity & no-arbitrage / Cộng dòng tiền & vô-arbitrage

EnglishTiếng Việt
Cash flow additivity: PV của một chuỗi = tổng PV các dòng tiền thành phần (có thể tách/ghép chuỗi).Cộng dòng tiền: so sánh 2 dự án bằng hiệu dòng tiền thay vì tính từng NPV.
No-arbitrage / law of one price: 2 dòng tiền giống hệt phải cùng giá; lệch giá → mua rẻ bán đắt ngay.Luật một giá: nếu lệch giá, hành động nhanh mua tài sản rẻ hơn.
Implied forward rate: F1,1 = (1+S21+S1 − 1. Forward FX ≈ chênh lệch lãi suất 2 đồng tiền.Lãi suất kỳ hạn ngầm suy từ spot; tỷ giá kỳ hạn xấp xỉ khác spot bằng chênh lệch lãi suất.
EXAMTHI Cực nặng tính toán: định giá bond (annual & semiannual), zero-coupon YTM, perpetuity/preferred, Gordon (giải V, r hoặc g), forward rate F1,1, loan PMT. Dùng 5 phím TVM thành thạo.

LM03: Statistical Measures of Asset Returns / Thống kê mô tả lợi nhuận

Central tendency & location / Trung tâm & vị trí

EnglishTiếng Việt
Mean / median / mode; weighted mean = ΣwiRi (lợi nhuận danh mục). Geometric = CAGR.Lợi nhuận danh mục = trung bình có trọng số. Geometric = tốc độ tăng trưởng kép.
Outlier handling: trimmed mean bỏ x% cao & thấp; winsorized thay bằng giá trị biên. Một outlier rất cao → trimmed/winsorized < arithmetic.Trung bình cắt loại bỏ đuôi; winsorized thay thế đuôi. Median không bị ảnh hưởng bởi 1 giá trị cực trị; mean thì có.
Quantiles: Ly = (n+1)(y/100). Nếu L lẻ → nội suy tuyến tính. Quartile/quintile/decile/percentile.Phân vị: vị trí = (n+1)×(y/100); nếu ra số lẻ thì nội suy giữa 2 quan sát.
Vị trí phân vị Ly = (n + 1) × y100 ; nội suy: Xk + (L − k)(Xk+1 − Xk)
IQR = Q3 − Q1 (chiều dài "hộp" trong box-and-whisker)

Dispersion / Độ phân tán

EnglishTiếng Việt
Sample variance = Σ(xi − x̄)²n − 1; std dev = √variance. (Mẫu chia n−1, không phải n.)Phương sai mẫu chia (n−1). Đơn vị variance là %² còn std dev là %.
MAD = Σ|xi − x̄|n (dùng giá trị tuyệt đối, không bình phương).Độ lệch tuyệt đối trung bình: lấy trị tuyệt đối rồi chia n.
Coefficient of variation CV = s = rủi ro trên một đơn vị lợi nhuận. CV cao = rủi ro tương đối cao.Hệ số biến thiên CV = độ lệch chuẩn / trung bình; càng thấp càng tốt khi xếp hạng.
Target semideviation: chỉ tính độ lệch của các quan sát dưới mục tiêu, chia (n−1).Bán độ lệch mục tiêu: chỉ phạt các lợi nhuận dưới ngưỡng (downside risk).
CV = s  |  Target semidev = √[ Σ(R<target)(R − target)²n − 1 ]

Shape & co-movement / Hình dạng & đồng biến

EnglishTiếng Việt
Positive skew (đuôi phải dài): mode < median < mean. Negative skew: mean < median < mode.Lệch dương: trung bình lớn nhất. Lệch âm (1 outlier rất thấp): trung bình nhỏ nhất.
Kurtosis > 3 (excess > 0) = leptokurtic: nhọn hơn, đuôi béo hơn → nhiều biến cố cực trị cả 2 phía. Returns thị trường thường leptokurtic. (Kurtosis ≠ độ bất đối xứng — đó là skewness.)Nhọn vượt > 0: phân phối nhọn, đuôi béo, xác suất outlier cao hơn normal. < 0 = platykurtic (bẹt).
Correlation ρ ∈ [−1, 1]: đo độ tuyến tính. ρ ≈ 0 → không có quan hệ tuyến tính (có thể có phi tuyến). ρ ≠ xác suất.Tương quan chỉ đo quan hệ tuyến tính; ρ gần 0 không có nghĩa hoàn toàn không liên quan.
EXAMTHI Tính std dev mẫu (chia n−1), CV để xếp hạng rủi ro, MAD, geometric (CAGR), vị trí phân vị + nội suy, thứ tự mean/median/mode theo skew, ý nghĩa kurtosis & correlation.

LM04: Probability Trees & Conditional Expectations / Cây xác suất & Bayes

Expected value & variance / Kỳ vọng & phương sai của biến ngẫu nhiên

EnglishTiếng Việt
E(X) = Σ P(xi)·xi (bình quân theo xác suất).Kỳ vọng = tổng (xác suất × giá trị).
Var(X) = Σ P(xi)[xi − E(X)]² ; σ = √Var.Phương sai = tổng xác suất × bình phương độ lệch; σ là căn bậc hai.
Conditional expectation: kỳ vọng thay đổi khi có sự kiện khác xảy ra (dùng cây xác suất, total probability rule).Kỳ vọng có điều kiện: cập nhật dự báo khi thông tin mới đến (nhánh tốt/xấu của cây).
Total probability: E(X) = Σ P(scenario)·E(X | scenario)
Joint probability = P(A)·P(B | A)

Bayes' formula / Công thức Bayes

EnglishTiếng Việt
Cập nhật xác suất prior khi có thông tin mới B.Dùng để "đảo ngược" điều kiện: biết P(B|A), tìm P(A|B).
P(A | B) = P(B | A) · P(A)P(B)
trong đó P(B) = P(B|A)·P(A) + P(B|Ac)·P(Ac)  (mẫu số = tổng xác suất của B)
Quy trình Bayes 3 bước: (1) tính joint cho mỗi nhánh = P(điều kiện)×P(prior); (2) cộng các joint của thông tin mới để ra P(B); (3) chia joint của nhánh quan tâm cho P(B).

Counting: permutations & combinations / Đếm: hoán vị & tổ hợp

EnglishTiếng Việt
Factorial n! = số cách xếp toàn bộ n phần tử khác nhau theo thứ tự.Giai thừa: sắp xếp cả n phần tử có thứ tự.
Permutation nPr = chọn r từ n có để ý thứ tự (label khác nhau, vị trí quan trọng).Hoán vị: thứ tự CÓ quan trọng (vd phân chức danh khác nhau).
Combination nCr = chọn r từ n không để ý thứ tự (chọn nhóm/ủy ban). Luôn ≤ permutation.Tổ hợp: thứ tự KHÔNG quan trọng (chọn nhóm). C ≤ P.
Labeling (multinomial): chia n phần tử vào k nhóm có nhãn, mỗi nhóm ni phần tử = n!n1!·n2!…nk!.Bài toán gán nhãn: chia thành nhiều nhóm có nhãn khác nhau.
nPr = n!(n − r)!  |  nCr = n!(n − r)! · r!
Multiplication rule: nếu bước 1 có a cách, bước 2 có b cách → tổng = a × b. Thứ tự quan trọng → P; không → C.
EXAMTHI Tính E(EPS)/E(return) qua cây 2 tầng; Bayes đảo điều kiện (default→rating, radio→màu xe, negative ratio→earnings decline); E(X), Var(X), σ từ bảng phân phối; phân biệt nPr vs nCr và labeling n!/(n1!…nk!).

LM05: Portfolio Mathematics / Toán danh mục

Portfolio return & risk / Lợi nhuận & rủi ro danh mục

EnglishTiếng Việt
E(RP) = Σ wi·E(Ri) — bình quân trọng số (luôn đúng, kể cả khi có rủi ro).Lợi nhuận danh mục = bình quân theo trọng số; KHÔNG cần tương quan.
2-asset variance: σP² = w1²σ1² + w2²σ2² + 2w1w2σ1σ2ρ1,2.Phương sai 2 tài sản: nhớ hạng tử covariance 2w1w2σ1σ2ρ.
ρ = +1 → σP = bình quân trọng số σ (không có lợi ích đa dạng hóa). ρ < 1 → σP nhỏ hơn; ρ = −1 có thể về 0.Tương quan càng thấp, lợi ích đa dạng hóa càng lớn (giảm rủi ro).
σP = √[ w1²σ1² + w2²σ2² + 2w1w2σ1σ2ρ1,2 ]

Covariance, correlation & joint probability / Hiệp phương sai & tương quan

EnglishTiếng Việt
Cov(A,B) = Σ P(s)[RA,s − E(RA)][RB,s − E(RB)] (qua kịch bản hoặc joint table).Hiệp phương sai: tổng xác suất × tích độ lệch của 2 tài sản.
ρA,B = Cov(A,B)σAσB → suy ra Cov = ρ·σA·σB.Tương quan = Cov / (σAσB); biết ρ và σ → tính được Cov.
Biết σ & ρ có thể suy Cov & strength tuyến tính, nhưng không suy ra expected return (đó là central tendency).σ và ρ không cho biết kỳ vọng lợi nhuận.

Roy's safety-first / Tiêu chí an toàn trước

SFRatio = E(RP) − RthresholdσP
Chọn danh mục có SFRatio lớn nhất → xác suất thấp nhất rơi dưới ngưỡng (shortfall risk).
EXAMTHI Rất nặng tính toán: σP 2 tài sản (đặc biệt ρ = +1 và −1), Cov từ joint table/kịch bản, ρ từ Cov & σ, E(RP), chọn portfolio tối ưu theo SFRatio (max ratio).

LM06: Simulation Methods / Phương pháp mô phỏng

Normal vs lognormal / Chuẩn vs log-chuẩn

EnglishTiếng Việt
Nếu Y lognormal thì ln(Y) là normal. Lognormal bị chặn dưới bởi 0lệch phải (positive skew).Lognormal: ln của nó là chuẩn; không âm; lệch phải.
Dùng lognormal mô hình giá tài sản vì giá không thể âm và return không thể < −100%. Normal cho phép giá âm (vô lý).Giá cổ phiếu dùng lognormal vì giá ≥ 0; return liên tục liên hệ chặt với lognormal.

Monte Carlo vs Bootstrap / Mô phỏng vs lấy mẫu lại

EnglishTiếng Việt
Monte Carlo: analyst tự chỉ định phân phối & tham số cho input (bất kỳ skew/kurtosis nào). Dùng cho định giá phức tạp, "what-if".Monte Carlo: tự đặt phân phối input. Hạn chế: kết quả chỉ tốt bằng giả định; không cho insight như phương pháp giải tích.
Bootstrap: lấy mẫu lại có hoàn lại từ dữ liệu quan sát thực; mỗi resample cùng kích thước với mẫu gốc; 1 quan sát có thể xuất hiện nhiều lần. Suy tham số tổng thể.Bootstrap: dùng phân phối thực nghiệm, không cần giả định phân phối; rút có hoàn lại, cùng cỡ.
EXAMTHI Lý thuyết: vì sao dùng lognormal cho giá; đặc điểm Monte Carlo (linh hoạt phân phối, hạn chế) vs bootstrap (có hoàn lại, cùng cỡ, dùng dữ liệu thực). Có thể hỏi r liên tục = ln(PT/P0) cộng dồn.

LM07: Estimation & Inference / Ước lượng & Suy diễn

Sampling methods / Các phương pháp lấy mẫu

EnglishTiếng Việt
Simple random: mọi phần tử cơ hội bằng nhau. Systematic: chọn mỗi phần tử thứ n.Ngẫu nhiên đơn: cơ hội như nhau; hệ thống: cứ cách n lấy 1.
Stratified: chia tổng thể thành strata theo tiêu chí, lấy mẫu ngẫu nhiên mỗi tầng tỷ lệ với cỡ tầng, rồi gộp. Hay dùng cho bond index tracking.Phân tầng: cỡ mẫu mỗi tầng tỷ lệ kích thước tầng (KHÔNG bằng nhau); dùng để theo dõi chỉ số trái phiếu, giữ rủi ro.
Cluster: chọn cụm. Convenience: dễ tiếp cận (rủi ro thiên lệch). Judgmental: chọn theo phán đoán chuyên gia.Tiện lợi = lấy theo dễ; phán đoán = cầm tay chọn theo kinh nghiệm (non-probability → rủi ro không đại diện).

Central Limit Theorem / Định lý giới hạn trung tâm

EnglishTiếng Việt
Với n đủ lớn (n > 30), phân phối của sample mean ≈ chuẩn, bất kể phân phối tổng thể.CLT áp dụng cho trung bình mẫu, với mọi phân phối gốc khi n lớn.
Mean của phân phối mẫu = μ (population mean); variance = σ²/n.Trung bình các trung bình mẫu = μ; phương sai = σ²/n.
Standard error = σ/√n (hoặc s/√n). Tăng n → SE giảm.Sai số chuẩn giảm khi cỡ mẫu tăng (KHÔNG tăng — bẫy hay gặp).
Standard error of the mean = σ√n  (σ chưa biết thì dùng s)

Confidence intervals / Khoảng tin cậy của trung bình

EnglishTiếng Việt
Dùng z khi: σ tổng thể đã biết, HOẶC n lớn (>30) dù phân phối không chuẩn (nhờ CLT).Dùng z khi σ biết hoặc n lớn.
Dùng t (df = n − 1) khi: σ chưa biết VÀ (n nhỏ với tổng thể chuẩn). t có đuôi béo hơn → khoảng rộng hơn z; n tăng → t hội tụ về z.Dùng t khi σ chưa biết & mẫu nhỏ; khoảng t rộng hơn z.
Reliability factor 2 phía 95%: z = 1.96; 90% z = 1.645; 99% z = 2.58.Hệ số tin cậy 95% là 1.96; 90% là 1.645; 99% là 2.58.
CI = x̄ ± (reliability factor) × s√n  |  95% z: x̄ ± 1.96·s√n

Sampling biases / Các thiên lệch lấy mẫu

EnglishTiếng Việt
Survivorship bias: chỉ giữ các thực thể "còn sống" (vd quỹ chưa đóng) → phóng đại lợi nhuận.Thiên lệch sống sót: loại bỏ quỹ/công ty đã biến mất → kết quả lạc quan giả.
Data-snooping / data-mining bias: thử quá nhiều mô hình trên cùng dữ liệu đến khi "tìm thấy" quan hệ — không lặp lại được out-of-sample.Đào dữ liệu: tìm pattern ngẫu nhiên do thử quá nhiều; không nhân rộng được.
Look-ahead bias: dùng thông tin chưa có vào thời điểm đó. Time-period bias: kết quả phụ thuộc khung thời gian đặc thù.Nhìn trước: dùng dữ liệu chưa công bố; thiên lệch khung thời gian: phụ thuộc giai đoạn chọn.

Resampling / Lấy mẫu lại

EnglishTiếng Việt
Bootstrap: rút nhiều mẫu cùng cỡ, có hoàn lại; số lần lặp tùy chọn; áp dụng được cho thống kê phức tạp.Bootstrap: ưu điểm là chỉ cần 1 mẫu gốc và xử lý được thống kê phức tạp.
Jackknife: mỗi lần bỏ một quan sát; thường lặp đúng n lần (= cỡ mẫu); kết quả ổn định.Jackknife: bỏ lần lượt từng quan sát, lặp n lần.
EXAMTHI Nhận diện phương pháp lấy mẫu (stratified vs convenience vs judgmental), phát biểu CLT (n>30, mean=μ, var=σ²/n, SE giảm khi n tăng), tính SE = σ/√n, dựng CI (chọn z vs t, df=n−1), nhận biết survivorship/data-snooping/look-ahead/time-period bias, bootstrap vs jackknife.

LM08: Hypothesis Testing / Kiểm định giả thuyết

Khung kiểm định & lỗi / Framework & errors

EnglishTiếng Việt
H0 luôn chứa dấu "=" (≤, =, ≥); Ha là điều muốn chứng minh. Hai tai dùng ≠; một tai dùng > hoặc <.Giả thuyết null luôn có dấu bằng; alternative là điều nhà nghiên cứu kỳ vọng.
Type I error = bác bỏ H0 đúng (false positive). P(Type I) = α = significance level. Confidence = 1 − α.Lỗi loại I: bác bỏ null khi nó đúng; xác suất = mức ý nghĩa α.
Type II error = không bác bỏ H0 sai (false negative) = β. Power = 1 − β = bác bỏ đúng H0 sai.Lỗi loại II: bỏ sót null sai; Power = 1 − β.
Giảm α → tăng β (đánh đổi). Muốn tăng power mà giữ α → tăng cỡ mẫu n.Cách tăng power tốt nhất: giữ α, tăng n (giảm SE).

Test statistics / Thống kê kiểm định

EnglishTiếng Việt
z / t-test cho mean: x̄ − μ0s/√n. n lớn → z; n nhỏ & σ chưa biết → t.Kiểm định trung bình: tử = chênh lệch mean, mẫu = standard error.
Chi-square: kiểm định một phương sai tổng thể. F-test: so sánh hai phương sai.Chi-square cho 1 phương sai; F cho bằng nhau của 2 phương sai.
Paired comparisons (mean of differences): 2 mẫu phụ thuộc. Difference in means (pooled): 2 mẫu độc lập, phương sai bằng nhau.Mẫu phụ thuộc → paired test; độc lập, var bằng → pooled t.
Nonparametric: khi dữ liệu là thứ hạng (ranks), mẫu nhỏ & phi chuẩn, hoặc nhiều giả định bị vi phạm (vd Mann–Whitney U, rank correlation).Phi tham số: dùng cho dữ liệu xếp hạng hoặc khi không thỏa giả định phân phối.
Quyết định: |test stat| > |critical value| → bác bỏ H0. (Hai tai 5% → ±1.96; một tai 5% → 1.645.)

p-value approach / Cách dùng p-value

EnglishTiếng Việt
p-value = xác suất quan sát được test statistic ít nhất cực đoan như giá trị tính ra, nếu H0 đúng = mức ý nghĩa nhỏ nhất mà tại đó ta vẫn bác bỏ H0.p-value: mức α nhỏ nhất còn bác bỏ được H0; càng nhỏ chứng cứ chống H0 càng mạnh.
Quy tắc: p < α → bác bỏ H0; p ≥ α → không bác bỏ.Quy tắc: p < α thì bác bỏ; p ≥ α thì giữ H0.
Test 2 phía: p = 2 × diện tích đuôi; test 1 phía: p = diện tích 1 đuôi. (Cùng test stat, p hai phía gấp đôi p một phía.)Hai phía nhân đôi diện tích đuôi so với một phía.
EXAMTHI Định nghĩa Type I/II & power (rất nhiều câu lý thuyết), tính z-stat của mean, chọn test phù hợp (chi-square/F/paired/nonparametric), quan hệ α–confidence, cách tăng power, định nghĩa p-value & quy tắc p < α (1 phía vs 2 phía).

LM09: Parametric & Non-Parametric Tests of Independence / Kiểm định tương quan & độc lập

Significance of correlation / Kiểm định hệ số tương quan = 0

EnglishTiếng Việt
H0: ρ = 0. Test statistic theo t-distribution với n − 2 bậc tự do. Chỉ cần r và n (không cần mean/std của 2 biến).Kiểm định tương quan tổng thể bằng 0: dùng t với df = n − 2; chỉ cần r và cỡ mẫu.
t = r·√(n − 2)√(1 − r²) , df = n − 2 ; |t| > tcrit → bác bỏ (có tương quan)

Spearman rank correlation / Tương quan hạng Spearman

EnglishTiếng Việt
Khi nào dùng: dữ liệu là thứ hạng (ranks), không phân phối chuẩn, hoặc quan hệ phi tuyến/đơn điệu (nonparametric thay cho Pearson t-test).Dùng khi: dữ liệu xếp hạng, phi chuẩn, hoặc quan hệ đơn điệu phi tuyến.
Xếp hạng từng biến, lấy hiệu hạng di, rồi tính rs. Mẫu lớn → kiểm định bằng t với df = n − 2 (giống Pearson).Tính hiệu hạng di = rank(Xi) − rank(Yi); với n lớn kiểm định t df = n − 2.
rs = 1 − 6 Σdi²n(n² − 1)  (di = hiệu hai hạng; rs ∈ [−1, 1])

Test of independence (contingency table) / Kiểm định độc lập bằng bảng chéo

EnglishTiếng Việt
Dữ liệu phân loại/rời rạc → dùng chi-square statistic = Σ (Observed − Expected)²Expected.Dữ liệu danh mục (vd ngành × hạng trái phiếu) → chi-square trên bảng chéo.
H0: hai biến độc lập. Test luôn một phía (đuôi phải) vì dùng bình phương.Null = độc lập; chỉ có vùng bác bỏ bên phải.
df = (số hàng − 1)(số cột − 1).Bậc tự do = (r − 1)(c − 1).
EXAMTHI Tính t-stat của correlation (df = n−2) và so critical value, tính Spearman rs = 1 − 6Σd²/[n(n²−1)] và biết khi nào dùng, nhận biết chi-square cho contingency table, df = (r−1)(c−1), chi-square là test 1 phía.

LM10: Simple Linear Regression / Hồi quy tuyến tính đơn

Model & coefficients / Mô hình & hệ số

EnglishTiếng Việt
Y = b0 + b1X + ε: 1 biến phụ thuộc, 1 biến độc lập. Least squares = tối thiểu Σ(Ythực − Ydự đoán)².Hồi quy đơn: 1 biến giải thích. Bình phương nhỏ nhất tối thiểu tổng bình phương phần dư.
Slope b1 = Cov(X,Y)Var(X) = thay đổi của Y khi X tăng 1 đơn vị.Hệ số góc = Cov/Var(X); ý nghĩa: Y đổi bao nhiêu khi X tăng 1.
Predicted Ŷ = b0 + b1X. Residual = Yquan sát − Ŷ.Giá trị dự đoán cắm X vào; phần dư = thực − dự đoán.
b1 = Cov(X,Y)σX²  |  Ŷ = b0 + b1X  |  Residual = Y − Ŷ

Measures of fit & ANOVA / Đo độ phù hợp

EnglishTiếng Việt
= SSRSST = % biến thiên của Y được X giải thích. Hồi quy đơn: r = ±√R² (dấu = dấu của slope).Hệ số xác định = SSR/SST. Tương quan = căn R² lấy dấu theo slope.
F-stat = MSRMSE = SSR1 ÷ SSEn−2. SEE = √MSE (độ lệch chuẩn của phần dư).F = trung bình bình phương hồi quy / sai số. SEE = căn MSE.
df cho t-test slope & prediction interval = n − 2. Slope/intercept khác 0 nếu |t| > tcrit hoặc p < α.Bậc tự do = n − 2. p-value < α → hệ số có ý nghĩa.
= SSRSST ; F = MSRMSE ; SEE = √MSE ; tslope = b1 − b1,hypothSE(b1)
CI cho slope: b1 ± tcrit·SE(b1) (df = n − 2). Nếu khoảng không chứa 0 → slope có ý nghĩa.
Prediction interval cho Y: Ŷ ± tcrit·sf, với sf = standard error of forecast (rộng hơn khi X0 xa x̄). df = n − 2.

Assumptions & functional forms / Giả định & dạng hàm

EnglishTiếng Việt
Giả định: (1) tuyến tính theo tham số; (2) phần dư độc lập; (3) phương sai phần dư không đổi (homoskedastic); (4) phần dư phân phối chuẩn. (Biến phụ thuộc KHÔNG bắt buộc chuẩn.)Heteroskedasticity = phương sai phần dư thay đổi (vi phạm giả định 3).
log-lin (ln Y ~ X): X đổi 1 đơn vị → Y đổi % cố định. lin-log: X log. log-log: cả hai log. Dự đoán Y từ ln Y: Y = e(b0+b1X).Dạng hàm log dùng khi quan hệ là % thay đổi; nhớ lấy e mũ để đổi ln Y về Y.
EXAMTHI Nặng tính: dự đoán Ŷ & residual, R² = SSR/SST, F = MSR/MSE, SEE = √MSE, r = ±√R², t-test slope (df = n−2), prediction interval, nhận diện log-lin/lin-log/log-log & heteroskedasticity.

LM11: Introduction to Big Data Techniques / Dữ liệu lớn & Fintech

Fintech & Big Data / Công nghệ tài chính & dữ liệu lớn

EnglishTiếng Việt
Fintech = công nghệ ứng dụng cho dịch vụ tài chính & ngành phát triển công nghệ đó (kể cả tư vấn đầu tư tự động).Fintech vừa là công nghệ vừa là các công ty xây dựng nó cho ngành tài chính.
Big Data – 3 V: Volume (terabyte), Velocity (low latency, real-time), Variety (cấu trúc đa dạng). V thứ tư: Veracity khi dùng để suy diễn/dự báo.3 chữ V: khối lượng, tốc độ, đa dạng; thêm Veracity (độ tin cậy). Nguồn alternative: cá nhân, quy trình KD, cảm biến.

AI / ML & data processing / Trí tuệ nhân tạo & xử lý dữ liệu

EnglishTiếng Việt
AI = hệ thống mô phỏng tư duy người. Data science = trích xuất thông tin từ dữ liệu. (IoT = mạng thiết bị thông minh.)AI bắt chước tư duy người; data science rút thông tin; IoT là mạng vạn vật.
Supervised: có dữ liệu input + output gán nhãn → mô hình hóa output. Unsupervised: chỉ input, tìm pattern. Deep learning: pattern phức tạp.Học có giám sát: có nhãn output; không giám sát: chỉ tìm cấu trúc.
Overfit: quá phức tạp, học cả nhiễu → nhận quan hệ giả, dự báo kém trên dữ liệu mới. Underfit: quá đơn giản, coi tham số thật là nhiễu.Overfit học quá kỹ (cả nhiễu); underfit quá thô.
Xử lý dữ liệu: Capture (thu thập/chuyển hóa), Curation (đảm bảo chất lượng, làm sạch, điều chỉnh dữ liệu lỗi/thiếu), Storage, Search, Transfer. Text analytics/NLP: phân tích dữ liệu phi cấu trúc (vd đếm từ "buy/sell").Curation = đảm bảo chất lượng/làm sạch; Capture = thu thập; Text analytics/NLP đọc văn bản phi cấu trúc tìm xu hướng.
EXAMTHI Toàn lý thuyết: 3 (4) chữ V của Big Data, supervised vs unsupervised, overfit vs underfit, curation vs capture, text analytics/NLP, AI vs data science vs IoT.