作业二:构建你的个人 LLM Wiki¶
作业目标¶
本周我们参考 Andrej Karpathy 提出的 LLM Wiki 工作流,练习把大模型从“陪你聊天的工具”变成“替你整理资料、回答问题、补齐知识缺口的帮手”。
这次作业的目标很直接:
把你手头一堆散乱的资料,整理成一个以后能反复查、反复问、还能越用越完整的个人知识库。
完成本作业后,你应该能够:
- 把零散文档、网页、笔记、截图、表格整理成一套能长期复用的资料库
- 让未来的你、同事、新人、客户或老板提问时,能更快找到答案
- 学会让 LLM 完成三类核心工作:
ingest(吸收新材料)、query(提问检索)、lint(查漏纠错) - 让回答能回到原始材料,而不是只给一个“听起来像对的答案”
作业提交¶
-
截止日期:待教师发布时通知
-
提交: 邮件: mjay.lanlan2943914182[at]gmail.com
-
格式要求:zip 文件,里面是一整个
week2-<student-id>-llm-wiki/作业目录 - 标题注明:"你的真实姓名-Agent实战-作业二"
作业形式¶
本次作业不采用命题作文。
你需要从自己的真实工作、学习或兴趣场景中,自选一个主题,再为这个主题设计一个真正有用的 wiki。
建议优先选择下面这类题材:
- 你所在公司的业务介绍、产品资料、常见客户问题
- 销售话术、竞品资料、客户异议处理材料
- 行政、运营、助理岗位常见流程、模板、制度说明
- 刚接手项目时需要快速补齐的业务背景、系统说明、常见坑
- 一门你最近正在补课的技能、课程或行业知识
你还需要为这个 wiki 选定一个服务对象。这个对象可以是:
- 刚入职的销售,需要快速搞懂公司产品和客户常见问题
- 底层白领或运营同事,需要查流程、查模板、查标准做法
- 刚接手业务的工程师,需要尽快搞懂公司业务和系统结构
- 一周后、一月后会忘记细节的你自己
- 需要快速了解某个主题的同学、新人或协作者
你的任务¶
你需要围绕自选主题,构建一个可维护的小型 wiki。这个 wiki 至少要支持三种操作:
- Ingest:把新材料补进已有知识结构
- Query:基于已有 wiki 回答问题,并给出出处标注
- Lint:检查矛盾、孤立页面、缺失页面、交叉引用不足等结构问题
你要准备的材料¶
建议准备 6-15 份原始材料,不用一上来就追求很大规模。
材料可以来自:
- 网页、帮助中心、产品介绍页
- PDF、Word、Excel、会议纪要
- 自己的学习笔记、操作手册、制度文档
- 截图、聊天记录整理稿、FAQ 列表
注意:
- 优先选择你自己真的会反复用到的材料
- 如果涉及公司内部资料,务必先做脱敏,不要提交客户隐私、账号密码、合同原文等敏感信息
不会采集资料怎么办¶
这是这次作业里最大的技术门槛,但不需要把它想得太重。
先记住一个原则:
这次作业考的是资料整理能力,不是考你写爬虫。
如果你不知道怎么开始,最简单的方法是:
- 先在一个文件夹里放进 6-10 份材料
- 可以手动复制网页内容到 Markdown
- 可以把截图里的文字整理成笔记
- 可以把 PDF、说明文档、FAQ 直接放进
raw/
如果你不知道从哪里下手,可以先看这 3 份配套材料:
如果你的原始材料主要是网页、Word、PPT、Excel 或截图,也可以优先使用这些低门槛工具:
- 办公文档:先参考第 1 周课程里提到的
docx、pptx、xlsx相关用法 - 网页内容:优先把内容整理成 Markdown,再放进
raw/ - 网页收藏:可以使用 Obsidian 和 Obsidian Web Clipper
Markdown 对人更容易复查,对 Agent 也通常比直接处理整页 HTML 更干净。
如果你在命令行里遇到“文件读不到、权限不够、目录进不去”的问题,先回头看文件与目录权限速查,不要在权限问题上卡太久。
建议完成流程¶
你可以按下面的顺序完成这次作业:
- 先确定主题和服务对象,写一句话说明“这个 wiki 是给谁用的”。
- 收集一批原始材料,先放进
raw/。 - 先写
CLAUDE.md,再开始大规模 ingest。 - 完成第一轮 ingest 后,立即补
wiki/index.md和wiki/log.md。 - 用 3 次 query 检查你的 wiki 是否真的“能问、能答、能回到原文”。
- 做 2 轮 lint,修掉最关键的问题,再提交最终版本。
交付物¶
你提交的内容必须至少包含以下结构:
week2-<student-id>-llm-wiki/
├── CLAUDE.md
├── raw/
│ └── ...
├── wiki/
│ ├── index.md
│ ├── log.md
│ └── ...
└── reports/
├── queries.md
├── lint-report.md
└── schema-note.md
1. CLAUDE.md¶
这是你的组织规则文件,也是本作业最重要的部分。它至少需要说明:
- 这个 wiki 是给谁用的
- 你如何划分页面类型
- 页面命名规则是什么
- 什么时候新建页面,什么时候更新旧页面
- 出处标注如何记录
- ingest/query/lint 三类操作各自遵循什么规则
2. raw/¶
放原始材料。要求:
- 原始材料不可被“静默改写”
- 文件命名清晰
- 能从 wiki 页面回溯到对应来源
3. wiki/¶
这是知识库本体。要求:
- 至少 6 个有效页面,不含
index.md和log.md - 页面之间有明确交叉引用
- 页面组织方式要服务于你的服务对象,而不是一篇材料配一页摘要地机械堆叠
4. wiki/index.md¶
你需要维护一个结构化目录。至少应体现:
- 页面分类
- 每个页面的一句话说明
- 清晰的导航入口
5. wiki/log.md¶
你需要记录 wiki 的演化过程。至少记录:
- 什么时候 ingest 了什么材料
- 什么时候进行了 query
- 什么时候做了 lint
- 哪些页面被创建、更新或标记为待修复
6. reports/queries.md¶
记录至少 3 次 query。每次 query 必须包含:
- 问题本身
- 你使用的关键 prompt 或命令
- 你让 LLM 查阅了哪些 wiki 页面
- 最终回答
- 能回溯到原始材料的出处标注
其中至少 1 次 query 的回答 要被回写成一个新的 wiki 页面,例如比较页、决策页、FAQ 页或常见问题页。
7. reports/lint-report.md¶
至少做 2 轮 lint:
- 第 1 轮在初次 ingest 完成后
- 第 2 轮在提交前
lint 报告至少检查:
- 页面矛盾
- 孤立页面
- 缺失但应存在的页面
- 交叉引用不足
- 过时或证据不足的结论
你不需要把所有问题都修完,但需要说明你修了哪些,哪些暂时保留,以及为什么。
8. reports/schema-note.md¶
写一段 300–500 字 的说明,解释:
- 为什么你的组织方式适合这个服务对象
- 你最重要的 2-3 个结构决策是什么
- 如果换一个使用者,你会如何重构这个 wiki
最低要求¶
为避免作业退化成“资料堆积”,请满足以下最低要求:
- 不少于 6 个 wiki 页面
- 不少于 2 轮 lint
- 不少于 3 次带出处标注的 query
- 至少 1 个由 query 结果沉淀出的新页面
index.md、log.md、CLAUDE.md三者必须完整存在
以下做法不算完成作业:
- 只上传原文和零散摘抄,没有知识结构
- 页面之间几乎没有交叉引用
- 回答问题时无法回溯到原始材料
CLAUDE.md只有空泛原则,没有实际规则lint只是写“没有发现问题”
提交提醒¶
这是一份小型课程 wiki,重点不在于凑页数,而在于:
- 这个 wiki 是否真的服务于一个具体人群
- 组织规则是否清晰
- query 是否真的可追溯
- lint 是否发现了真实结构问题
- 页面之间是否形成了有用的导航与交叉引用
如果你使用 Git 仓库管理作业,请确保:
- 文件结构清楚
- 不要混入无关缓存文件
- 原始材料与生成内容分开存放
- 任何引用的外部内容都注明来源
学术规范与 AI 使用说明¶
本作业允许且鼓励使用大模型,但你需要对结构设计和最终内容负责。
请特别注意:
- 不要把模型输出当作天然正确
- 出处标注必须能回到原始材料,而不是回到聊天记录
- 同样主题下,允许讨论,但不应出现高度相同的页面组织和说明文字
参考文献¶
[1] Karpathy, A. LLM Wiki [EB/OL]. GitHub Gist, 2026-04-04 [2026-04-30].
链接:点击访问 Karpathy 的 LLM Wiki 原始项目(GitHub Gist)
一句话提醒¶
这次作业的重点不是“你读了多少”,而是:
你能不能把一堆散乱资料,整理成一个以后真的有人会反复打开、反复提问、反复依赖的知识库。