Skip to content

Commit ee00e22

Browse files
committed
Add Day 98 post: 100 AI terms explained
1 parent bdebc01 commit ee00e22

File tree

1 file changed

+138
-0
lines changed

1 file changed

+138
-0
lines changed
Lines changed: 138 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,138 @@
1+
---
2+
layout: post
3+
title: "Day 98: 人工智能术语,解释常见的 100 个人工智能相关术语"
4+
author: iosdevlog
5+
date: 2026-03-16 23:30:00 +0800
6+
description: "Day 98:一文读懂 100 个常见人工智能术语,覆盖基础概念、机器学习、深度学习、大模型、RAG、Agent 与评估部署。"
7+
category: AI
8+
tags: [AI, 人工智能, 术语, 机器学习, 深度学习, 大模型, RAG, Agent]
9+
---
10+
11+
## Day 98
12+
13+
这一篇做一个「AI 术语速查表」,尽量用一句话解释一个概念,覆盖从入门到实战经常会遇到的关键词。
14+
15+
## 一、基础与通用概念(1-20)
16+
17+
1. **人工智能(AI)**:让机器表现出类似人类智能能力(感知、推理、决策、生成)的技术总称。
18+
2. **机器学习(ML)**:让模型从数据中学习规律,而不是手写全部规则。
19+
3. **深度学习(DL)**:使用多层神经网络进行表示学习的机器学习分支。
20+
4. **神经网络(Neural Network)**:由多层“神经元”组成的函数逼近模型。
21+
5. **参数(Parameter)**:模型内部通过训练得到的权重与偏置。
22+
6. **特征(Feature)**:输入样本中可用于建模的信息维度。
23+
7. **样本(Sample)**:数据集中单条训练或推理数据。
24+
8. **标签(Label)**:监督学习中样本对应的目标答案。
25+
9. **训练集(Train Set)**:用于学习模型参数的数据子集。
26+
10. **验证集(Validation Set)**:用于调参和选择模型的数据子集。
27+
11. **测试集(Test Set)**:用于最终评估泛化能力的数据子集。
28+
12. **推理(Inference)**:模型训练完成后对新输入进行预测或生成。
29+
13. **泛化(Generalization)**:模型在未见过数据上的表现能力。
30+
14. **过拟合(Overfitting)**:模型过度记忆训练数据,导致新数据表现差。
31+
15. **欠拟合(Underfitting)**:模型过于简单,训练数据都学不好。
32+
16. **损失函数(Loss Function)**:衡量预测结果与真实目标差距的函数。
33+
17. **优化器(Optimizer)**:根据梯度更新参数以最小化损失的算法。
34+
18. **梯度(Gradient)**:损失函数对参数变化方向与幅度的导数信息。
35+
19. **学习率(Learning Rate)**:每次参数更新的步长大小。
36+
20. **轮次(Epoch)**:模型完整遍历一遍训练集的过程。
37+
38+
## 二、机器学习核心术语(21-40)
39+
40+
21. **监督学习**:使用带标签数据训练模型的学习方式。
41+
22. **无监督学习**:在无标签数据中发现结构或分布模式。
42+
23. **半监督学习**:结合少量标签和大量无标签数据进行训练。
43+
24. **自监督学习**:从数据本身构造监督信号进行表示学习。
44+
25. **分类(Classification)**:预测离散类别标签的任务。
45+
26. **回归(Regression)**:预测连续数值的任务。
46+
27. **聚类(Clustering)**:将相似样本自动分组的无监督任务。
47+
28. **降维(Dimensionality Reduction)**:把高维特征压缩到低维表示。
48+
29. **交叉验证(Cross-Validation)**:通过多折切分评估模型稳定性。
49+
30. **正则化(Regularization)**:通过约束模型复杂度来抑制过拟合。
50+
31. **L1 正则化**:鼓励参数稀疏化,常用于特征选择。
51+
32. **L2 正则化**:惩罚大权重,鼓励参数更平滑稳定。
52+
33. **偏差(Bias)**:模型系统性误差,通常源于假设过强。
53+
34. **方差(Variance)**:模型对数据扰动的敏感性,过高易过拟合。
54+
35. **偏差-方差权衡**:在欠拟合与过拟合之间寻找平衡。
55+
36. **ROC 曲线**:分类器在不同阈值下 TPR 与 FPR 的关系曲线。
56+
37. **AUC**:ROC 曲线下面积,衡量分类器整体区分能力。
57+
38. **精确率(Precision)**:预测为正的样本中真实为正的比例。
58+
39. **召回率(Recall)**:真实为正的样本中被正确找回的比例。
59+
40. **F1 分数**:精确率和召回率的调和平均。
60+
61+
## 三、深度学习常见术语(41-60)
62+
63+
41. **激活函数(Activation)**:为网络引入非线性表达能力的函数。
64+
42. **ReLU**:常用激活函数,负值置零、正值线性通过。
65+
43. **Sigmoid**:把输入压缩到 0 到 1 的 S 形函数。
66+
44. **Softmax**:把输出转为概率分布,常用于多分类。
67+
45. **反向传播(Backpropagation)**:通过链式法则计算梯度并回传误差。
68+
46. **批大小(Batch Size)**:每次参数更新使用的样本数量。
69+
47. **批归一化(BatchNorm)**:稳定中间层分布、加速训练收敛。
70+
48. **层归一化(LayerNorm)**:按特征维度归一化,Transformer 常用。
71+
49. **Dropout**:训练时随机失活部分神经元,降低过拟合。
72+
50. **残差连接(Residual Connection)**:跨层捷径连接,缓解深层网络退化。
73+
51. **卷积神经网络(CNN)**:擅长提取局部空间特征,常用于图像任务。
74+
52. **循环神经网络(RNN)**:处理序列数据的早期神经网络结构。
75+
53. **LSTM**:带门控机制的 RNN,缓解长序列梯度消失。
76+
54. **GRU**:简化版门控循环单元,参数更少、训练更快。
77+
55. **注意力机制(Attention)**:让模型动态关注输入中更重要部分。
78+
56. **自注意力(Self-Attention)**:序列内部 token 彼此计算关联权重。
79+
57. **Transformer**:基于注意力机制的主流序列建模架构。
80+
58. **位置编码(Positional Encoding)**:给 Transformer 注入序列位置信息。
81+
59. **嵌入(Embedding)**:将离散符号映射为连续向量表示。
82+
60. **预训练(Pretraining)**:先在大规模数据上学习通用能力。
83+
84+
## 四、大模型与生成式 AI(61-80)
85+
86+
61. **大语言模型(LLM)**:参数规模大、能理解和生成自然语言的模型。
87+
62. **生成式 AI(AIGC)**:可自动生成文本、图像、音频、视频等内容的 AI。
88+
63. **Token**:模型处理文本的基本单位(词片段或字符片段)。
89+
64. **上下文窗口(Context Window)**:一次推理中模型可读取的 token 上限。
90+
65. **提示词(Prompt)**:给模型的输入指令与上下文内容。
91+
66. **系统提示词(System Prompt)**:定义模型角色、边界和行为规则的高优先级指令。
92+
67. **少样本提示(Few-shot)**:在提示中给少量示例引导模型输出格式。
93+
68. **链式思考(CoT)**:通过中间推理步骤提升复杂问题表现。
94+
69. **函数调用(Function Calling)**:模型按规范调用外部工具或 API。
95+
70. **温度(Temperature)**:控制采样随机性,越高输出越发散。
96+
71. **Top-k 采样**:只在概率最高的 k 个候选中采样下一个 token。
97+
72. **Top-p 采样**:在累计概率达到 p 的候选集合中采样。
98+
73. **幻觉(Hallucination)**:模型生成看似合理但事实错误的内容。
99+
74. **对齐(Alignment)**:让模型行为与人类目标、价值和规则一致。
100+
75. **指令微调(SFT)**:用指令-回答数据继续训练以提升可用性。
101+
76. **RLHF**:结合人类反馈强化学习优化回答偏好与安全性。
102+
77. **DPO**:不显式训练奖励模型的偏好优化方法。
103+
78. **LoRA**:低秩适配微调方法,用少量参数高效适配大模型。
104+
79. **量化(Quantization)**:降低参数精度以减少显存和推理成本。
105+
80. **蒸馏(Distillation)**:把大模型能力迁移到更小模型。
106+
107+
## 五、RAG、Agent、评估与部署(81-100)
108+
109+
81. **RAG(检索增强生成)**:先检索外部知识,再让模型基于证据生成答案。
110+
82. **向量数据库(Vector DB)**:存储向量并支持高效相似度检索。
111+
83. **向量嵌入(Vector Embedding)**:将文本或多模态内容编码为向量。
112+
84. **相似度检索(Similarity Search)**:按向量距离找到语义最接近内容。
113+
85. **重排(Rerank)**:对初检结果二次排序,提升相关性。
114+
86. **分块(Chunking)**:把长文档切成适合检索和引用的小片段。
115+
87. **知识库(Knowledge Base)**:可被检索与维护的结构化/非结构化知识集合。
116+
88. **Agent**:可自主规划步骤并调用工具完成目标任务的系统。
117+
89. **工具调用(Tool Use)**:模型在推理中使用外部能力(搜索、代码、数据库等)。
118+
90. **工作流(Workflow)**:按固定步骤编排模型与工具的任务管线。
119+
91. **多 Agent 协作**:多个角色化智能体分工协同完成复杂任务。
120+
92. **延迟(Latency)**:从请求到响应所需时间。
121+
93. **吞吐(Throughput)**:单位时间内系统可处理请求数量。
122+
94. **QPS**:每秒请求数,衡量服务并发能力的常见指标。
123+
95. **提示词注入(Prompt Injection)**:通过恶意输入劫持模型行为的攻击方式。
124+
96. **越狱(Jailbreak)**:试图绕过模型安全策略的提示攻击。
125+
97. **基准测试(Benchmark)**:用标准数据集和任务比较模型能力。
126+
98. **离线评估(Offline Eval)**:在固定测试集上批量测量模型效果。
127+
99. **在线评估(Online Eval)**:在真实流量中通过 A/B 等方式评估收益。
128+
100. **可观测性(Observability)**:对日志、指标、链路与错误进行全面监控分析。
129+
130+
## 结语
131+
132+
如果你在做 AI 产品,建议把这 100 个术语分成三层记忆:
133+
134+
- **基础层**:1-20(先把核心概念吃透)
135+
- **实战层**:61-90(直接决定大模型应用效果)
136+
- **工程层**:91-100(决定系统能不能稳定上线)
137+
138+
后续我会再做一个「Day 99:AI 常见术语之间的关系图」,把这些词串成一张真正能用于架构设计的地图。

0 commit comments

Comments
 (0)