Skip to content

Commit fa845d0

Browse files
committed
docs: update agentic ai guide
1 parent df425fb commit fa845d0

9 files changed

Lines changed: 302 additions & 82 deletions

File tree

docs/.vitepress/config.js

Lines changed: 4 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -68,7 +68,10 @@ module.exports = {
6868
text: "多模态创作能力",
6969
link: "/agentic-ai/multimodal-creativity",
7070
},
71-
{ text: "逻辑与推理", link: "/agentic-ai/reasoning-logic" },
71+
{
72+
text: "高级 Prompting 与推理增强",
73+
link: "/agentic-ai/reasoning-logic",
74+
},
7275
{ text: "AI Coding 实践", link: "/agentic-ai/ai-coding" },
7376
{ text: "Agent 机制与构建", link: "/agentic-ai/agentic-system" },
7477
{ text: "Agent 实践与治理", link: "/agentic-ai/agent-practice" },

docs/agentic-ai/index.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -2,7 +2,7 @@
22
layout: home
33
hero:
44
name: Agentic AI 入门指南
5-
text: 从对话到 Agents
5+
text: 从对话到 Agent
66
tagline: 使用 Agentic AI 自动化你的一切
77
image:
88
src: /agentic-ai.png

docs/agentic-ai/intro.md

Lines changed: 9 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,4 @@
1-
# Agentic AI:从对话到行动
1+
# Agentic AI:从对话到 Agent
22

33
2022 年末,ChatGPT 让很多人第一次直观感受到 AI 的能力。紧接着,新名词一波接一波:Prompt Engineering、Agent、RAG、CoT、MCP……
44

@@ -88,15 +88,16 @@ Agent 也是一样。上下文变长、模型推理变强、工具调用更稳
8888

8989
### 第二部分:多模态创作能力(Multimodal Creativity)
9090
* 升级对齐定律:底层模型升级如何降低技巧门槛。
91-
* 视觉创作:图像生成的基本技能与思维方式
91+
* 视觉创作与理解:图像生成、截图分析、图表解读与设计反馈
9292
* 动态叙事:视频生成与镜头语言。
9393
* 工作流整合:从文本到多媒体的创作链路。
9494

95-
### 第三部分:逻辑与推理(Reasoning & Logic)
96-
* 深度思考:用 Chain of Thought 拆解多步骤问题。
97-
* 准确性控制:上下文管理与幻觉识别。
98-
* 信息管理:长文档与知识库应用。
99-
* 常见陷阱:确认偏误、盲目信任等思维层面的反模式。
95+
### 第三部分:高级 Prompting 与推理增强(Advanced Prompting & Reasoning)
96+
* Chain-of-thought:把复杂问题拆成可检查的假设、依据和结论。
97+
* ReAct:让 AI 在推理、行动和观察之间循环推进任务。
98+
* RAG:先检索外部知识,再基于资料生成回答。
99+
* 模型原生推理:理解强推理模型如何改变提示词写法。
100+
* 准确性控制:幻觉、确认偏误和高风险节点的验证方法。
100101

101102
--- *(以下章节面向开发者与进阶创造者)* ---
102103

@@ -124,7 +125,7 @@ Agent 也是一样。上下文变长、模型推理变强、工具调用更稳
124125
* M×N Gateway:企业级 Agent 集成的概念。
125126

126127
### 技术附录
127-
* API 调用与 Function Calling:用 JavaScript 调用 LLM、Embedding、Image API。
128+
* API 调用与 Function Calling:用 JavaScript 调用 LLM、Embedding、Image、Audio API。
128129
* RAG 技术详解:向量嵌入、HNSW 索引、混合搜索策略。
129130

130131
## 小结

docs/agentic-ai/multimodal-creativity.md

Lines changed: 44 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -94,6 +94,44 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
9494

9595
这个过程和写代码很像:先跑通 MVP,再迭代优化。
9696

97+
## 视觉理解:AI 也能读懂图片
98+
99+
多模态不只是“生成图片”。另一类同样重要的能力,是让 AI 识别和理解图片。
100+
101+
你可以把一张图片发给模型,让它回答:
102+
103+
- 这张图里有什么?
104+
- 这张截图里的报错是什么意思?
105+
- 这张表格或图表表达了什么趋势?
106+
- 这张设计稿里有哪些信息层级和排版问题?
107+
108+
这类能力通常叫视觉理解(Vision Understanding)或图像理解(Image Understanding)。它让 AI 从只能处理文字,变成可以处理“文字 + 图像”的上下文。
109+
110+
### 视觉理解适合做什么?
111+
112+
最常见的场景有几类。
113+
114+
**读截图**:把报错截图、产品界面、网页截图发给 AI,让它帮你定位信息、解释界面状态、提出修改建议。
115+
116+
**读图表**:把柱状图、折线图、仪表盘截图发给 AI,让它总结趋势,指出异常点,再转成文字报告。
117+
118+
**读资料**:把白板照片、手写笔记、PPT 截图发给 AI,让它整理成结构化文本。
119+
120+
**读设计**:把海报、封面、UI 设计稿发给 AI,让它检查布局、视觉重点、文案层级和一致性。
121+
122+
这里的关键不是“AI 会看图”本身,而是它可以把图像内容接入后续推理:先看懂图片,再解释、归纳、改写、生成下一步方案。
123+
124+
### 视觉理解的限制
125+
126+
视觉模型很强,但不要把它当成精确测量工具。
127+
128+
- 它可能看错细小文字、数字、小图标。
129+
- 它可能无法准确判断真实尺寸、距离、材质。
130+
- 它对专业图像的理解需要人来复核,比如医学影像、法律证据、工程图纸。
131+
- 它能描述图片内容,但不等于拥有图片来源、版权、拍摄时间等外部事实。
132+
133+
所以更稳妥的用法是:让 AI 做第一轮观察、整理和解释,再由人确认关键结论。
134+
97135
## 动态叙事:视频生成与镜头语言
98136

99137
视频生成不是“把图动起来”,而是“把故事拆成镜头”。
@@ -133,8 +171,9 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
133171
1. 用文本 AI 生成创意大纲。
134172
2. 用文本 AI 把大纲扩展成分镜脚本。
135173
3. 用图像 AI 为每个镜头生成参考画面。
136-
4. 用视频工具把画面串成动态故事板。
137-
5. 最后进行剪辑与排版。
174+
4. 用视觉模型检查参考画面是否符合分镜意图。
175+
5. 用视频工具把画面串成动态故事板。
176+
6. 最后进行剪辑与排版。
138177

139178
每一步都可回退、可修正、可复用。每一步的输出都是下一步的输入。
140179

@@ -157,6 +196,7 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
157196
- 多模态创作的重点是精确表达,不是“会用工具”。
158197
- 图像生成工具在演进:从复杂参数到结构化控制到一句话生成,但表达的精度要求没变。
159198
- 图像生成的要点:明确主体、给参考材料、加约束条件、分步迭代。
199+
- 视觉理解让 AI 可以读取截图、图表、设计稿和资料图片,但关键结论仍然需要人复核。
160200
- 视频生成需要镜头语言思维,AI 擅长策划和素材生成,最终把控仍需人工。
161201
- 音频生成(音乐、语音合成、语音识别)门槛更低,但可控性也相对较低。
162202
- 工作流让多模态创作从单点操作变成可迭代的系统。
@@ -165,7 +205,8 @@ shot on Sony A7III, 35mm lens, shallow depth of field,
165205

166206
1. 找一个图像生成工具,分别用“一句话”和“详细描述”生成同一主题的图,对比结果差异,思考为什么。
167207
2. 选一张你喜欢的图片,尝试用文字精确描述它的内容:包括主体、风格、构图、色调。然后用这个描述让 AI 生成一张类似的图。
168-
3. 把一个 30 秒短视频的想法拆成 3-5 个镜头,写出每个镜头的景别、运动和内容。
208+
3. 找一张复杂截图或图表,让 AI 先描述它看到了什么,再让它总结三个关键结论,检查哪些地方需要人工修正。
209+
4. 把一个 30 秒短视频的想法拆成 3-5 个镜头,写出每个镜头的景别、运动和内容。
169210

170211
## 延伸阅读
171212

0 commit comments

Comments
 (0)