Series: Toán học trong AI/ML & Deep Learning

Mục đích: Ghi chú cá nhân + chia sẻ kiến thức về nền tảng toán học của AI/ML
Định dạng: Intuition → Công thức → Code Python thực tế
Đối tượng: Developer/Engineer đã biết code, muốn hiểu sâu hơn về lý thuyết

Data science methodology

📚 Danh sách Bài viết

#. Lĩnh vực	Khái niệm chính	Ứng dụng DL nổi bật	Độ quan trọng
1. Giải tích	Đạo hàm, Chain Rule, Gradient	Backpropagation, Adam	★★★★★
2. Đại số Tuyến tính	MatMul, SVD, Eigenvalues	Attention, LoRA, Embedding	★★★★★
3. Xác suất	Bayes, PDF/CDF, MLE	VAE, Diffusion, RLHF	★★★★★
4. Thống kê	Hypothesis testing, Bias-Variance	Batch Norm, A/B testing	★★★★☆
5. Tối ưu hóa	SGD, Adam, LR scheduling	Training loop, PPO	★★★★★
6. Lý thuyết Thông tin	Entropy, KL, Cross-entropy	Loss function, Perplexity	★★★★☆
7. Toán học Rời rạc	Graph, DP, BPE	GNN, Tokenization	★★★☆☆
8. Giải tích Số	FP16/BF16, Stable numerics	Mixed precision, NaN debug	★★★★☆

🗺️ Trình tự

Bắt đầu (Essential):
  Bài 1 (Giải tích) → Bài 2 (Linear Algebra) → Bài 3 (Xác suất)
      └─────────────────────────────────────────────────────────┘
                    Nền tảng cứng nhất
      
Mở rộng (Important):
  Bài 4 (Thống kê) → Bài 5 (Tối ưu hóa) → Bài 6 (Information Theory)
  
Chuyên sâu (Advanced):
  Bài 7 (Discrete Math) → Bài 8 (Numerical Methods)

☯️ Các ký hiệu

Tổng hợp các ký hiệu chuẩn dùng trong tài liệu ML/DL.
Nguồn: Deep Learning — Goodfellow, Bengio & Courville.

1. Số và Mảng

Ký hiệu	Ý nghĩa
$a$	Giá trị vô hướng (số nguyên hoặc số thực)
$\boldsymbol{a}$	Vector
$\boldsymbol{A}$	Ma trận
$\mathsf{A}$	Tensor
$\boldsymbol{I}_n$	Ma trận đơn vị có $n$ hàng và $n$ cột
$\boldsymbol{I}$	Ma trận đơn vị với số chiều ngầm định theo ngữ cảnh
$\mathbf{e}^{(i)}$	Vector cơ sở tiêu chuẩn $[0, \ldots, 0, 1, 0, \ldots, 0]$ với số 1 tại vị trí $i$
$\text{diag}(\boldsymbol{a})$	Ma trận vuông trong đó các phần tử của $\boldsymbol{a}$ nằm trên đường chéo chính
$\mathrm{a}$	Biến ngẫu nhiên vô hướng
$\mathbf{a}$	Biến ngẫu nhiên dạng vector
$\mathbf{A}$	Biến ngẫu nhiên dạng ma trận

2. Tập hợp và Đồ thị

Ký hiệu	Ý nghĩa
$\mathbb{A}$	Tập hợp
$\mathbb{R}$	Tập hợp số thực
${0, 1}$	Tập hợp chứa 0 và 1
${0, 1, \ldots, n}$	Tập hợp các số nguyên từ 0 đến $n$
$[a, b]$	Khoảng số thực bao gồm cả $a$ và $b$
$(a, b]$	Khoảng số thực bao gồm $b$ nhưng không bao gồm $a$
$\mathbb{A} \setminus \mathbb{B}$	Phép trừ tập hợp — tập chứa các phần tử của $\mathbb{A}$ nhưng không thuộc $\mathbb{B}$
$\mathcal{G}$	Đồ thị
$Pa_{\mathcal{G}}(x_i)$	Các nút cha của $x_i$ trong $\mathcal{G}$

3. Đánh Chỉ mục

Ký hiệu	Ý nghĩa
$a_i$	Phần tử thứ $i$ của vector $\boldsymbol{a}$, với chỉ số bắt đầu từ 1
$a_{-i}$	Tất cả các phần tử của vector $\boldsymbol{a}$ ngoại trừ phần tử thứ $i$
$A_{i,j}$	Phần tử hàng $i$, cột $j$ của ma trận $\boldsymbol{A}$
$\boldsymbol{A}_{i,:}$	Hàng thứ $i$ của ma trận $\boldsymbol{A}$
$\boldsymbol{A}_{:,i}$	Cột thứ $i$ của ma trận $\boldsymbol{A}$
$\mathsf{A}_{i,j,k}$	Phần tử $(i, j, k)$ của tensor 3 chiều $\mathsf{A}$
$\mathsf{A}_{:,:,i}$	Mặt cắt 2 chiều tại kênh $i$ của tensor 3 chiều
$\mathrm{a}_i$	Phần tử thứ $i$ của vector ngẫu nhiên $\mathbf{a}$

4. Các Phép toán trong Đại số Tuyến tính

Ký hiệu	Ý nghĩa
$\boldsymbol{A}^\top$	Chuyển vị của ma trận $\boldsymbol{A}$
$\boldsymbol{A}^+$	Ma trận giả nghịch đảo Moore-Penrose của $\boldsymbol{A}$
$\boldsymbol{A} \odot \boldsymbol{B}$	Phép nhân từng phần tử (Hadamard) của $\boldsymbol{A}$ và $\boldsymbol{B}$
$\det(\boldsymbol{A})$	Định thức của ma trận $\boldsymbol{A}$

5. Giải tích

Ký hiệu	Ý nghĩa
$\dfrac{dy}{dx}$	Đạo hàm của $y$ theo $x$
$\dfrac{\partial y}{\partial x}$	Đạo hàm riêng của $y$ theo $x$
$\nabla_x y$	Gradient của $y$ theo vector $x$
$\nabla_{\boldsymbol{X}} y$	Đạo hàm ma trận của $y$ theo ma trận $\boldsymbol{X}$
$\nabla_{\mathsf{X}} y$	Tensor chứa các đạo hàm của $y$ theo $\mathsf{X}$
$\dfrac{\partial f}{\partial x}$	Ma trận Jacobian $\boldsymbol{J} \in \mathbb{R}^{m \times n}$ của $f : \mathbb{R}^n \to \mathbb{R}^m$
$\nabla^2_x f(x)$ hoặc $\boldsymbol{H}(f)(x)$	Ma trận Hessian của $f$ tại điểm đầu vào $x$
$\int f(x)\,dx$	Tích phân xác định trên toàn bộ miền của $x$
$\int_{\mathbb{S}} f(x)\,dx$	Tích phân xác định của $x$ trên tập $\mathbb{S}$

6. Lý thuyết Xác suất và Thông tin

Ký hiệu	Ý nghĩa
$a \perp b$	Các biến ngẫu nhiên $a$ và $b$ là độc lập
$a \perp b \mid c$	Chúng độc lập có điều kiện với $c$
$P(a)$	Phân phối xác suất trên biến rời rạc
$p(a)$	Phân phối xác suất trên biến liên tục hoặc chưa xác định loại
$a \sim P$	Biến ngẫu nhiên $a$ có phân phối $P$
$\mathbb{E}_{\mathbf{x} \sim P}[f(x)]$ hoặc $\mathbb{E}\,f(x)$	Kỳ vọng của $f(x)$ theo $P(\mathbf{x})$
$\text{Var}(f(x))$	Phương sai của $f(x)$ dưới $P(\mathbf{x})$
$\text{Cov}(f(x), g(x))$	Hiệp phương sai của $f(x)$ và $g(x)$ dưới $P(\mathbf{x})$
$H(\mathbf{x})$	Entropy Shannon của biến ngẫu nhiên $\mathbf{x}$
$D_{\text{KL}}(P \| Q)$	Độ đo phân kỳ Kullback-Leibler giữa $P$ và $Q$
$\mathcal{N}(\boldsymbol{x};\,\boldsymbol{\mu},\,\boldsymbol{\Sigma})$	Phân phối Gaussian trên $\boldsymbol{x}$ với trung bình $\boldsymbol{\mu}$ và hiệp phương sai $\boldsymbol{\Sigma}$

7. Hàm số

Ký hiệu	Ý nghĩa
$f : \mathbb{A} \to \mathbb{B}$	Hàm số $f$ với miền xác định $\mathbb{A}$ và miền giá trị $\mathbb{B}$
$f \circ g$	Thành phần của hai hàm $f$ và $g$
$f(\boldsymbol{x};\,\boldsymbol{\theta})$	Một hàm của $\boldsymbol{x}$ được tham số hóa bởi $\boldsymbol{\theta}$
$\log x$	Logarit tự nhiên của $x$
$\sigma(x)$	Hàm sigmoid logistic: $\dfrac{1}{1 + \exp(-x)}$
$\zeta(x)$	Hàm Softplus: $\log(1 + \exp(x))$
$\|\boldsymbol{x}\|_p$	Chuẩn $L^p$ của $\boldsymbol{x}$
$\|\boldsymbol{x}\|$	Chuẩn $L^2$ của $\boldsymbol{x}$
$x^+$	Phần dương của $x$: $\max(0, x)$
$\mathbf{1}_{\text{điều kiện}}$	Nhận giá trị 1 nếu điều kiện đúng, ngược lại bằng 0

8. Dataset và Phân phối Dữ liệu

Ký hiệu	Ý nghĩa
$p_{\text{data}}$	Phân phối sinh dữ liệu
$\hat{p}_{\text{data}}$	Phân phối thực nghiệm được xác định bởi tập huấn luyện
$\mathbb{X}$	Tập hợp các mẫu huấn luyện
$\boldsymbol{x}^{(i)}$	Mẫu dữ liệu thứ $i$ (đầu vào) từ một tập dữ liệu
$y^{(i)}$ hoặc $\boldsymbol{y}^{(i)}$	Nhãn hoặc giá trị mục tiêu tương ứng với $\boldsymbol{x}^{(i)}$ trong học có giám sát
$\mathbf{X}$	Ma trận $m \times n$ với các giá trị $\boldsymbol{x}^{(i)}$ trong hàng $\mathbf{X}_{i,:}$, biểu thị toàn bộ dữ liệu đầu vào của hàng $i$

*Last updated: 2026

Tác giả: sonkd*