Series-Toán học trong AI/ML & Deep Learning.
Updated Mar 12, 2026

Tags: machine learning data science math

Series: Toán học trong AI/ML & Deep Learning

Mục đích: Ghi chú cá nhân + chia sẻ kiến thức về nền tảng toán học của AI/ML
Định dạng: Intuition → Công thức → Code Python thực tế
Đối tượng: Developer/Engineer đã biết code, muốn hiểu sâu hơn về lý thuyết


Data science methodology

📚 Danh sách Bài viết

#. Lĩnh vực Khái niệm chính Ứng dụng DL nổi bật Độ quan trọng
1. Giải tích Đạo hàm, Chain Rule, Gradient Backpropagation, Adam ★★★★★
2. Đại số Tuyến tính MatMul, SVD, Eigenvalues Attention, LoRA, Embedding ★★★★★
3. Xác suất Bayes, PDF/CDF, MLE VAE, Diffusion, RLHF ★★★★★
4. Thống kê Hypothesis testing, Bias-Variance Batch Norm, A/B testing ★★★★☆
5. Tối ưu hóa SGD, Adam, LR scheduling Training loop, PPO ★★★★★
6. Lý thuyết Thông tin Entropy, KL, Cross-entropy Loss function, Perplexity ★★★★☆
7. Toán học Rời rạc Graph, DP, BPE GNN, Tokenization ★★★☆☆
8. Giải tích Số FP16/BF16, Stable numerics Mixed precision, NaN debug ★★★★☆

🗺️ Trình tự

Bắt đầu (Essential):
  Bài 1 (Giải tích) → Bài 2 (Linear Algebra) → Bài 3 (Xác suất)
      └─────────────────────────────────────────────────────────┘
                    Nền tảng cứng nhất
      
Mở rộng (Important):
  Bài 4 (Thống kê) → Bài 5 (Tối ưu hóa) → Bài 6 (Information Theory)
  
Chuyên sâu (Advanced):
  Bài 7 (Discrete Math) → Bài 8 (Numerical Methods)

☯️ Các ký hiệu

Tổng hợp các ký hiệu chuẩn dùng trong tài liệu ML/DL.
Nguồn: Deep Learning — Goodfellow, Bengio & Courville.


Các ký hiệu

  1. Số và Mảng
  2. Tập hợp và Đồ thị
  3. Đánh Chỉ mục
  4. Các Phép toán trong Đại số Tuyến tính
  5. Giải tích
  6. Lý thuyết Xác suất và Thông tin
  7. Hàm số
  8. Dataset và Phân phối Dữ liệu

1. Số và Mảng

Ký hiệu Ý nghĩa
$a$ Giá trị vô hướng (số nguyên hoặc số thực)
$\boldsymbol{a}$ Vector
$\boldsymbol{A}$ Ma trận
$\mathsf{A}$ Tensor
$\boldsymbol{I}_n$ Ma trận đơn vị có $n$ hàng và $n$ cột
$\boldsymbol{I}$ Ma trận đơn vị với số chiều ngầm định theo ngữ cảnh
$\mathbf{e}^{(i)}$ Vector cơ sở tiêu chuẩn $[0, \ldots, 0, 1, 0, \ldots, 0]$ với số 1 tại vị trí $i$
$\text{diag}(\boldsymbol{a})$ Ma trận vuông trong đó các phần tử của $\boldsymbol{a}$ nằm trên đường chéo chính
$\mathrm{a}$ Biến ngẫu nhiên vô hướng
$\mathbf{a}$ Biến ngẫu nhiên dạng vector
$\mathbf{A}$ Biến ngẫu nhiên dạng ma trận

2. Tập hợp và Đồ thị

Ký hiệu Ý nghĩa
$\mathbb{A}$ Tập hợp
$\mathbb{R}$ Tập hợp số thực
${0, 1}$ Tập hợp chứa 0 và 1
${0, 1, \ldots, n}$ Tập hợp các số nguyên từ 0 đến $n$
$[a, b]$ Khoảng số thực bao gồm cả $a$ và $b$
$(a, b]$ Khoảng số thực bao gồm $b$ nhưng không bao gồm $a$
$\mathbb{A} \setminus \mathbb{B}$ Phép trừ tập hợp — tập chứa các phần tử của $\mathbb{A}$ nhưng không thuộc $\mathbb{B}$
$\mathcal{G}$ Đồ thị
$Pa_{\mathcal{G}}(x_i)$ Các nút cha của $x_i$ trong $\mathcal{G}$

3. Đánh Chỉ mục

Ký hiệu Ý nghĩa
$a_i$ Phần tử thứ $i$ của vector $\boldsymbol{a}$, với chỉ số bắt đầu từ 1
$a_{-i}$ Tất cả các phần tử của vector $\boldsymbol{a}$ ngoại trừ phần tử thứ $i$
$A_{i,j}$ Phần tử hàng $i$, cột $j$ của ma trận $\boldsymbol{A}$
$\boldsymbol{A}_{i,:}$ Hàng thứ $i$ của ma trận $\boldsymbol{A}$
$\boldsymbol{A}_{:,i}$ Cột thứ $i$ của ma trận $\boldsymbol{A}$
$\mathsf{A}_{i,j,k}$ Phần tử $(i, j, k)$ của tensor 3 chiều $\mathsf{A}$
$\mathsf{A}_{:,:,i}$ Mặt cắt 2 chiều tại kênh $i$ của tensor 3 chiều
$\mathrm{a}_i$ Phần tử thứ $i$ của vector ngẫu nhiên $\mathbf{a}$

4. Các Phép toán trong Đại số Tuyến tính

Ký hiệu Ý nghĩa
$\boldsymbol{A}^\top$ Chuyển vị của ma trận $\boldsymbol{A}$
$\boldsymbol{A}^+$ Ma trận giả nghịch đảo Moore-Penrose của $\boldsymbol{A}$
$\boldsymbol{A} \odot \boldsymbol{B}$ Phép nhân từng phần tử (Hadamard) của $\boldsymbol{A}$ và $\boldsymbol{B}$
$\det(\boldsymbol{A})$ Định thức của ma trận $\boldsymbol{A}$

5. Giải tích

Ký hiệu Ý nghĩa
$\dfrac{dy}{dx}$ Đạo hàm của $y$ theo $x$
$\dfrac{\partial y}{\partial x}$ Đạo hàm riêng của $y$ theo $x$
$\nabla_x y$ Gradient của $y$ theo vector $x$
$\nabla_{\boldsymbol{X}} y$ Đạo hàm ma trận của $y$ theo ma trận $\boldsymbol{X}$
$\nabla_{\mathsf{X}} y$ Tensor chứa các đạo hàm của $y$ theo $\mathsf{X}$
$\dfrac{\partial f}{\partial x}$ Ma trận Jacobian $\boldsymbol{J} \in \mathbb{R}^{m \times n}$ của $f : \mathbb{R}^n \to \mathbb{R}^m$
$\nabla^2_x f(x)$ hoặc $\boldsymbol{H}(f)(x)$ Ma trận Hessian của $f$ tại điểm đầu vào $x$
$\int f(x)\,dx$ Tích phân xác định trên toàn bộ miền của $x$
$\int_{\mathbb{S}} f(x)\,dx$ Tích phân xác định của $x$ trên tập $\mathbb{S}$

6. Lý thuyết Xác suất và Thông tin

Ký hiệu Ý nghĩa
$a \perp b$ Các biến ngẫu nhiên $a$ và $b$ là độc lập
$a \perp b \mid c$ Chúng độc lập có điều kiện với $c$
$P(a)$ Phân phối xác suất trên biến rời rạc
$p(a)$ Phân phối xác suất trên biến liên tục hoặc chưa xác định loại
$a \sim P$ Biến ngẫu nhiên $a$ có phân phối $P$
$\mathbb{E}_{\mathbf{x} \sim P}[f(x)]$ hoặc $\mathbb{E}\,f(x)$ Kỳ vọng của $f(x)$ theo $P(\mathbf{x})$
$\text{Var}(f(x))$ Phương sai của $f(x)$ dưới $P(\mathbf{x})$
$\text{Cov}(f(x), g(x))$ Hiệp phương sai của $f(x)$ và $g(x)$ dưới $P(\mathbf{x})$
$H(\mathbf{x})$ Entropy Shannon của biến ngẫu nhiên $\mathbf{x}$
$D_{\text{KL}}(P | Q)$ Độ đo phân kỳ Kullback-Leibler giữa $P$ và $Q$
$\mathcal{N}(\boldsymbol{x};\,\boldsymbol{\mu},\,\boldsymbol{\Sigma})$ Phân phối Gaussian trên $\boldsymbol{x}$ với trung bình $\boldsymbol{\mu}$ và hiệp phương sai $\boldsymbol{\Sigma}$

7. Hàm số

Ký hiệu Ý nghĩa
$f : \mathbb{A} \to \mathbb{B}$ Hàm số $f$ với miền xác định $\mathbb{A}$ và miền giá trị $\mathbb{B}$
$f \circ g$ Thành phần của hai hàm $f$ và $g$
$f(\boldsymbol{x};\,\boldsymbol{\theta})$ Một hàm của $\boldsymbol{x}$ được tham số hóa bởi $\boldsymbol{\theta}$
$\log x$ Logarit tự nhiên của $x$
$\sigma(x)$ Hàm sigmoid logistic: $\dfrac{1}{1 + \exp(-x)}$
$\zeta(x)$ Hàm Softplus: $\log(1 + \exp(x))$
$|\boldsymbol{x}|_p$ Chuẩn $L^p$ của $\boldsymbol{x}$
$|\boldsymbol{x}|$ Chuẩn $L^2$ của $\boldsymbol{x}$
$x^+$ Phần dương của $x$: $\max(0, x)$
$\mathbf{1}_{\text{điều kiện}}$ Nhận giá trị 1 nếu điều kiện đúng, ngược lại bằng 0

8. Dataset và Phân phối Dữ liệu

Ký hiệu Ý nghĩa
$p_{\text{data}}$ Phân phối sinh dữ liệu
$\hat{p}_{\text{data}}$ Phân phối thực nghiệm được xác định bởi tập huấn luyện
$\mathbb{X}$ Tập hợp các mẫu huấn luyện
$\boldsymbol{x}^{(i)}$ Mẫu dữ liệu thứ $i$ (đầu vào) từ một tập dữ liệu
$y^{(i)}$ hoặc $\boldsymbol{y}^{(i)}$ Nhãn hoặc giá trị mục tiêu tương ứng với $\boldsymbol{x}^{(i)}$ trong học có giám sát
$\mathbf{X}$ Ma trận $m \times n$ với các giá trị $\boldsymbol{x}^{(i)}$ trong hàng $\mathbf{X}_{i,:}$, biểu thị toàn bộ dữ liệu đầu vào của hàng $i$

*Last updated: 2026 Tác giả: sonkd*