Add Day 98 post: 100 AI terms explained

jiaxianhua · jiaxianhua · commit ee00e224a5b6 · 2026-03-16T23:33:41.000+08:00
diff --git a/_posts/2026-03-16-build-your-x-with-ai-day-98-ai-terms-100.md b/_posts/2026-03-16-build-your-x-with-ai-day-98-ai-terms-100.md
@@ -0,0 +1,138 @@
+---
+layout: post
+title: "Day 98: 人工智能术语，解释常见的 100 个人工智能相关术语"
+author: iosdevlog
+date: 2026-03-16 23:30:00 +0800
+description: "Day 98：一文读懂 100 个常见人工智能术语，覆盖基础概念、机器学习、深度学习、大模型、RAG、Agent 与评估部署。"
+category: AI
+tags: [AI, 人工智能, 术语, 机器学习, 深度学习, 大模型, RAG, Agent]
+---
+
+## Day 98
+
+这一篇做一个「AI 术语速查表」，尽量用一句话解释一个概念，覆盖从入门到实战经常会遇到的关键词。
+
+## 一、基础与通用概念（1-20）
+
+1. **人工智能（AI）**：让机器表现出类似人类智能能力（感知、推理、决策、生成）的技术总称。  
+2. **机器学习（ML）**：让模型从数据中学习规律，而不是手写全部规则。  
+3. **深度学习（DL）**：使用多层神经网络进行表示学习的机器学习分支。  
+4. **神经网络（Neural Network）**：由多层“神经元”组成的函数逼近模型。  
+5. **参数（Parameter）**：模型内部通过训练得到的权重与偏置。  
+6. **特征（Feature）**：输入样本中可用于建模的信息维度。  
+7. **样本（Sample）**：数据集中单条训练或推理数据。  
+8. **标签（Label）**：监督学习中样本对应的目标答案。  
+9. **训练集（Train Set）**：用于学习模型参数的数据子集。  
+10. **验证集（Validation Set）**：用于调参和选择模型的数据子集。  
+11. **测试集（Test Set）**：用于最终评估泛化能力的数据子集。  
+12. **推理（Inference）**：模型训练完成后对新输入进行预测或生成。  
+13. **泛化（Generalization）**：模型在未见过数据上的表现能力。  
+14. **过拟合（Overfitting）**：模型过度记忆训练数据，导致新数据表现差。  
+15. **欠拟合（Underfitting）**：模型过于简单，训练数据都学不好。  
+16. **损失函数（Loss Function）**：衡量预测结果与真实目标差距的函数。  
+17. **优化器（Optimizer）**：根据梯度更新参数以最小化损失的算法。  
+18. **梯度（Gradient）**：损失函数对参数变化方向与幅度的导数信息。  
+19. **学习率（Learning Rate）**：每次参数更新的步长大小。  
+20. **轮次（Epoch）**：模型完整遍历一遍训练集的过程。  
+
+## 二、机器学习核心术语（21-40）
+
+21. **监督学习**：使用带标签数据训练模型的学习方式。  
+22. **无监督学习**：在无标签数据中发现结构或分布模式。  
+23. **半监督学习**：结合少量标签和大量无标签数据进行训练。  
+24. **自监督学习**：从数据本身构造监督信号进行表示学习。  
+25. **分类（Classification）**：预测离散类别标签的任务。  
+26. **回归（Regression）**：预测连续数值的任务。  
+27. **聚类（Clustering）**：将相似样本自动分组的无监督任务。  
+28. **降维（Dimensionality Reduction）**：把高维特征压缩到低维表示。  
+29. **交叉验证（Cross-Validation）**：通过多折切分评估模型稳定性。  
+30. **正则化（Regularization）**：通过约束模型复杂度来抑制过拟合。  
+31. **L1 正则化**：鼓励参数稀疏化，常用于特征选择。  
+32. **L2 正则化**：惩罚大权重，鼓励参数更平滑稳定。  
+33. **偏差（Bias）**：模型系统性误差，通常源于假设过强。  
+34. **方差（Variance）**：模型对数据扰动的敏感性，过高易过拟合。  
+35. **偏差-方差权衡**：在欠拟合与过拟合之间寻找平衡。  
+36. **ROC 曲线**：分类器在不同阈值下 TPR 与 FPR 的关系曲线。  
+37. **AUC**：ROC 曲线下面积，衡量分类器整体区分能力。  
+38. **精确率（Precision）**：预测为正的样本中真实为正的比例。  
+39. **召回率（Recall）**：真实为正的样本中被正确找回的比例。  
+40. **F1 分数**：精确率和召回率的调和平均。  
+
+## 三、深度学习常见术语（41-60）
+
+41. **激活函数（Activation）**：为网络引入非线性表达能力的函数。  
+42. **ReLU**：常用激活函数，负值置零、正值线性通过。  
+43. **Sigmoid**：把输入压缩到 0 到 1 的 S 形函数。  
+44. **Softmax**：把输出转为概率分布，常用于多分类。  
+45. **反向传播（Backpropagation）**：通过链式法则计算梯度并回传误差。  
+46. **批大小（Batch Size）**：每次参数更新使用的样本数量。  
+47. **批归一化（BatchNorm）**：稳定中间层分布、加速训练收敛。  
+48. **层归一化（LayerNorm）**：按特征维度归一化，Transformer 常用。  
+49. **Dropout**：训练时随机失活部分神经元，降低过拟合。  
+50. **残差连接（Residual Connection）**：跨层捷径连接，缓解深层网络退化。  
+51. **卷积神经网络（CNN）**：擅长提取局部空间特征，常用于图像任务。  
+52. **循环神经网络（RNN）**：处理序列数据的早期神经网络结构。  
+53. **LSTM**：带门控机制的 RNN，缓解长序列梯度消失。  
+54. **GRU**：简化版门控循环单元，参数更少、训练更快。  
+55. **注意力机制（Attention）**：让模型动态关注输入中更重要部分。  
+56. **自注意力（Self-Attention）**：序列内部 token 彼此计算关联权重。  
+57. **Transformer**：基于注意力机制的主流序列建模架构。  
+58. **位置编码（Positional Encoding）**：给 Transformer 注入序列位置信息。  
+59. **嵌入（Embedding）**：将离散符号映射为连续向量表示。  
+60. **预训练（Pretraining）**：先在大规模数据上学习通用能力。  
+
+## 四、大模型与生成式 AI（61-80）
+
+61. **大语言模型（LLM）**：参数规模大、能理解和生成自然语言的模型。  
+62. **生成式 AI（AIGC）**：可自动生成文本、图像、音频、视频等内容的 AI。  
+63. **Token**：模型处理文本的基本单位（词片段或字符片段）。  
+64. **上下文窗口（Context Window）**：一次推理中模型可读取的 token 上限。  
+65. **提示词（Prompt）**：给模型的输入指令与上下文内容。  
+66. **系统提示词（System Prompt）**：定义模型角色、边界和行为规则的高优先级指令。  
+67. **少样本提示（Few-shot）**：在提示中给少量示例引导模型输出格式。  
+68. **链式思考（CoT）**：通过中间推理步骤提升复杂问题表现。  
+69. **函数调用（Function Calling）**：模型按规范调用外部工具或 API。  
+70. **温度（Temperature）**：控制采样随机性，越高输出越发散。  
+71. **Top-k 采样**：只在概率最高的 k 个候选中采样下一个 token。  
+72. **Top-p 采样**：在累计概率达到 p 的候选集合中采样。  
+73. **幻觉（Hallucination）**：模型生成看似合理但事实错误的内容。  
+74. **对齐（Alignment）**：让模型行为与人类目标、价值和规则一致。  
+75. **指令微调（SFT）**：用指令-回答数据继续训练以提升可用性。  
+76. **RLHF**：结合人类反馈强化学习优化回答偏好与安全性。  
+77. **DPO**：不显式训练奖励模型的偏好优化方法。  
+78. **LoRA**：低秩适配微调方法，用少量参数高效适配大模型。  
+79. **量化（Quantization）**：降低参数精度以减少显存和推理成本。  
+80. **蒸馏（Distillation）**：把大模型能力迁移到更小模型。  
+
+## 五、RAG、Agent、评估与部署（81-100）
+
+81. **RAG（检索增强生成）**：先检索外部知识，再让模型基于证据生成答案。  
+82. **向量数据库（Vector DB）**：存储向量并支持高效相似度检索。  
+83. **向量嵌入（Vector Embedding）**：将文本或多模态内容编码为向量。  
+84. **相似度检索（Similarity Search）**：按向量距离找到语义最接近内容。  
+85. **重排（Rerank）**：对初检结果二次排序，提升相关性。  
+86. **分块（Chunking）**：把长文档切成适合检索和引用的小片段。  
+87. **知识库（Knowledge Base）**：可被检索与维护的结构化/非结构化知识集合。  
+88. **Agent**：可自主规划步骤并调用工具完成目标任务的系统。  
+89. **工具调用（Tool Use）**：模型在推理中使用外部能力（搜索、代码、数据库等）。  
+90. **工作流（Workflow）**：按固定步骤编排模型与工具的任务管线。  
+91. **多 Agent 协作**：多个角色化智能体分工协同完成复杂任务。  
+92. **延迟（Latency）**：从请求到响应所需时间。  
+93. **吞吐（Throughput）**：单位时间内系统可处理请求数量。  
+94. **QPS**：每秒请求数，衡量服务并发能力的常见指标。  
+95. **提示词注入（Prompt Injection）**：通过恶意输入劫持模型行为的攻击方式。  
+96. **越狱（Jailbreak）**：试图绕过模型安全策略的提示攻击。  
+97. **基准测试（Benchmark）**：用标准数据集和任务比较模型能力。  
+98. **离线评估（Offline Eval）**：在固定测试集上批量测量模型效果。  
+99. **在线评估（Online Eval）**：在真实流量中通过 A/B 等方式评估收益。  
+100. **可观测性（Observability）**：对日志、指标、链路与错误进行全面监控分析。  
+
+## 结语
+
+如果你在做 AI 产品，建议把这 100 个术语分成三层记忆：
+
+- **基础层**：1-20（先把核心概念吃透）
+- **实战层**：61-90（直接决定大模型应用效果）
+- **工程层**：91-100（决定系统能不能稳定上线）
+
+后续我会再做一个「Day 99：AI 常见术语之间的关系图」，把这些词串成一张真正能用于架构设计的地图。