作业二：构建你的个人 LLM Wiki¶

作业目标¶

本周我们参考 Andrej Karpathy 提出的 LLM Wiki 工作流，练习把大模型从“陪你聊天的工具”变成“替你整理资料、回答问题、补齐知识缺口的帮手”。

这次作业的目标很直接：
把你手头一堆散乱的资料，整理成一个以后能反复查、反复问、还能越用越完整的个人知识库。

完成本作业后，你应该能够：

把零散文档、网页、笔记、截图、表格整理成一套能长期复用的资料库
让未来的你、同事、新人、客户或老板提问时，能更快找到答案
学会让 LLM 完成三类核心工作：ingest（吸收新材料）、query（提问检索）、lint（查漏纠错）
让回答能回到原始材料，而不是只给一个“听起来像对的答案”

作业提交¶

截止日期：待教师发布时通知
提交： 邮件： mjay.lanlan2943914182[at]gmail.com
格式要求：zip 文件，里面是一整个 week2-<student-id>-llm-wiki/ 作业目录
标题注明："你的真实姓名-Agent实战-作业二"

作业形式¶

本次作业不采用命题作文。

你需要从自己的真实工作、学习或兴趣场景中，自选一个主题，再为这个主题设计一个真正有用的 wiki。

建议优先选择下面这类题材：

你所在公司的业务介绍、产品资料、常见客户问题
销售话术、竞品资料、客户异议处理材料
行政、运营、助理岗位常见流程、模板、制度说明
刚接手项目时需要快速补齐的业务背景、系统说明、常见坑
一门你最近正在补课的技能、课程或行业知识

你还需要为这个 wiki 选定一个服务对象。这个对象可以是：

刚入职的销售，需要快速搞懂公司产品和客户常见问题
底层白领或运营同事，需要查流程、查模板、查标准做法
刚接手业务的工程师，需要尽快搞懂公司业务和系统结构
一周后、一月后会忘记细节的你自己
需要快速了解某个主题的同学、新人或协作者

你的任务¶

你需要围绕自选主题，构建一个可维护的小型 wiki。这个 wiki 至少要支持三种操作：

Ingest：把新材料补进已有知识结构
Query：基于已有 wiki 回答问题，并给出出处标注
Lint：检查矛盾、孤立页面、缺失页面、交叉引用不足等结构问题

你要准备的材料¶

建议准备 6-15 份原始材料，不用一上来就追求很大规模。

材料可以来自：

网页、帮助中心、产品介绍页
PDF、Word、Excel、会议纪要
自己的学习笔记、操作手册、制度文档
截图、聊天记录整理稿、FAQ 列表

注意：

优先选择你自己真的会反复用到的材料
如果涉及公司内部资料，务必先做脱敏，不要提交客户隐私、账号密码、合同原文等敏感信息

不会采集资料怎么办¶

这是这次作业里最大的技术门槛，但不需要把它想得太重。

先记住一个原则：
这次作业考的是资料整理能力，不是考你写爬虫。

如果你不知道怎么开始，最简单的方法是：

先在一个文件夹里放进 6-10 份材料
可以手动复制网页内容到 Markdown
可以把截图里的文字整理成笔记
可以把 PDF、说明文档、FAQ 直接放进 raw/

如果你不知道从哪里下手，可以先看这 3 份配套材料：

如果你的原始材料主要是网页、Word、PPT、Excel 或截图，也可以优先使用这些低门槛工具：

办公文档：先参考第 1 周课程里提到的 docx、pptx、xlsx 相关用法
网页内容：优先把内容整理成 Markdown，再放进 raw/
网页收藏：可以使用 Obsidian 和 Obsidian Web Clipper

Markdown 对人更容易复查，对 Agent 也通常比直接处理整页 HTML 更干净。

如果你在命令行里遇到“文件读不到、权限不够、目录进不去”的问题，先回头看文件与目录权限速查，不要在权限问题上卡太久。

建议完成流程¶

你可以按下面的顺序完成这次作业：

先确定主题和服务对象，写一句话说明“这个 wiki 是给谁用的”。
收集一批原始材料，先放进 raw/。
先写 CLAUDE.md，再开始大规模 ingest。
完成第一轮 ingest 后，立即补 wiki/index.md 和 wiki/log.md。
用 3 次 query 检查你的 wiki 是否真的“能问、能答、能回到原文”。
做 2 轮 lint，修掉最关键的问题，再提交最终版本。

交付物¶

你提交的内容必须至少包含以下结构：

week2-<student-id>-llm-wiki/
├── CLAUDE.md
├── raw/
│   └── ...
├── wiki/
│   ├── index.md
│   ├── log.md
│   └── ...
└── reports/
    ├── queries.md
    ├── lint-report.md
    └── schema-note.md

1. `CLAUDE.md`¶

这是你的组织规则文件，也是本作业最重要的部分。它至少需要说明：

这个 wiki 是给谁用的
你如何划分页面类型
页面命名规则是什么
什么时候新建页面，什么时候更新旧页面
出处标注如何记录
ingest/query/lint 三类操作各自遵循什么规则

2. `raw/`¶

放原始材料。要求：

原始材料不可被“静默改写”
文件命名清晰
能从 wiki 页面回溯到对应来源

3. `wiki/`¶

这是知识库本体。要求：

至少 6 个有效页面，不含 index.md 和 log.md
页面之间有明确交叉引用
页面组织方式要服务于你的服务对象，而不是一篇材料配一页摘要地机械堆叠

4. `wiki/index.md`¶

你需要维护一个结构化目录。至少应体现：

页面分类
每个页面的一句话说明
清晰的导航入口

5. `wiki/log.md`¶

你需要记录 wiki 的演化过程。至少记录：

什么时候 ingest 了什么材料
什么时候进行了 query
什么时候做了 lint
哪些页面被创建、更新或标记为待修复

6. `reports/queries.md`¶

记录至少 3 次 query。每次 query 必须包含：

问题本身
你使用的关键 prompt 或命令
你让 LLM 查阅了哪些 wiki 页面
最终回答
能回溯到原始材料的出处标注

其中至少 1 次 query 的回答 要被回写成一个新的 wiki 页面，例如比较页、决策页、FAQ 页或常见问题页。

7. `reports/lint-report.md`¶

至少做 2 轮 lint：

第 1 轮在初次 ingest 完成后
第 2 轮在提交前

lint 报告至少检查：

页面矛盾
孤立页面
缺失但应存在的页面
交叉引用不足
过时或证据不足的结论

你不需要把所有问题都修完，但需要说明你修了哪些，哪些暂时保留，以及为什么。

8. `reports/schema-note.md`¶

写一段 300–500 字 的说明，解释：

为什么你的组织方式适合这个服务对象
你最重要的 2-3 个结构决策是什么
如果换一个使用者，你会如何重构这个 wiki

最低要求¶

为避免作业退化成“资料堆积”，请满足以下最低要求：

不少于 6 个 wiki 页面
不少于 2 轮 lint
不少于 3 次带出处标注的 query
至少 1 个由 query 结果沉淀出的新页面
index.md、log.md、CLAUDE.md 三者必须完整存在

以下做法不算完成作业：

只上传原文和零散摘抄，没有知识结构
页面之间几乎没有交叉引用
回答问题时无法回溯到原始材料
CLAUDE.md 只有空泛原则，没有实际规则
lint 只是写“没有发现问题”

提交提醒¶

这是一份小型课程 wiki，重点不在于凑页数，而在于：

这个 wiki 是否真的服务于一个具体人群
组织规则是否清晰
query 是否真的可追溯
lint 是否发现了真实结构问题
页面之间是否形成了有用的导航与交叉引用

如果你使用 Git 仓库管理作业，请确保：

文件结构清楚
不要混入无关缓存文件
原始材料与生成内容分开存放
任何引用的外部内容都注明来源

学术规范与 AI 使用说明¶

本作业允许且鼓励使用大模型，但你需要对结构设计和最终内容负责。

请特别注意：

不要把模型输出当作天然正确
出处标注必须能回到原始材料，而不是回到聊天记录
同样主题下，允许讨论，但不应出现高度相同的页面组织和说明文字

参考文献¶

[1] Karpathy, A. LLM Wiki [EB/OL]. GitHub Gist, 2026-04-04 [2026-04-30].
链接：点击访问 Karpathy 的 LLM Wiki 原始项目（GitHub Gist）

一句话提醒¶

这次作业的重点不是“你读了多少”，而是：
你能不能把一堆散乱资料，整理成一个以后真的有人会反复打开、反复提问、反复依赖的知识库。