跳转至

作业二:构建你的个人 LLM Wiki

作业目标

本周我们参考 Andrej Karpathy 提出的 LLM Wiki 工作流,练习把大模型从“陪你聊天的工具”变成“替你整理资料、回答问题、补齐知识缺口的帮手”。

这次作业的目标很直接:
把你手头一堆散乱的资料,整理成一个以后能反复查、反复问、还能越用越完整的个人知识库。

完成本作业后,你应该能够:

  • 把零散文档、网页、笔记、截图、表格整理成一套能长期复用的资料库
  • 让未来的你、同事、新人、客户或老板提问时,能更快找到答案
  • 学会让 LLM 完成三类核心工作:ingest(吸收新材料)、query(提问检索)、lint(查漏纠错)
  • 让回答能回到原始材料,而不是只给一个“听起来像对的答案”

作业提交

  • 截止日期:待教师发布时通知

  • 提交: 邮件: mjay.lanlan2943914182[at]gmail.com

  • 格式要求:zip 文件,里面是一整个 week2-<student-id>-llm-wiki/ 作业目录

  • 标题注明:"你的真实姓名-Agent实战-作业二"

作业形式

本次作业不采用命题作文。

你需要从自己的真实工作、学习或兴趣场景中,自选一个主题,再为这个主题设计一个真正有用的 wiki。

建议优先选择下面这类题材:

  • 你所在公司的业务介绍、产品资料、常见客户问题
  • 销售话术、竞品资料、客户异议处理材料
  • 行政、运营、助理岗位常见流程、模板、制度说明
  • 刚接手项目时需要快速补齐的业务背景、系统说明、常见坑
  • 一门你最近正在补课的技能、课程或行业知识

你还需要为这个 wiki 选定一个服务对象。这个对象可以是:

  • 刚入职的销售,需要快速搞懂公司产品和客户常见问题
  • 底层白领或运营同事,需要查流程、查模板、查标准做法
  • 刚接手业务的工程师,需要尽快搞懂公司业务和系统结构
  • 一周后、一月后会忘记细节的你自己
  • 需要快速了解某个主题的同学、新人或协作者

你的任务

你需要围绕自选主题,构建一个可维护的小型 wiki。这个 wiki 至少要支持三种操作:

  • Ingest:把新材料补进已有知识结构
  • Query:基于已有 wiki 回答问题,并给出出处标注
  • Lint:检查矛盾、孤立页面、缺失页面、交叉引用不足等结构问题

你要准备的材料

建议准备 6-15 份原始材料,不用一上来就追求很大规模。

材料可以来自:

  • 网页、帮助中心、产品介绍页
  • PDF、Word、Excel、会议纪要
  • 自己的学习笔记、操作手册、制度文档
  • 截图、聊天记录整理稿、FAQ 列表

注意:

  • 优先选择你自己真的会反复用到的材料
  • 如果涉及公司内部资料,务必先做脱敏,不要提交客户隐私、账号密码、合同原文等敏感信息

不会采集资料怎么办

这是这次作业里最大的技术门槛,但不需要把它想得太重。

先记住一个原则:
这次作业考的是资料整理能力,不是考你写爬虫。

如果你不知道怎么开始,最简单的方法是:

  1. 先在一个文件夹里放进 6-10 份材料
  2. 可以手动复制网页内容到 Markdown
  3. 可以把截图里的文字整理成笔记
  4. 可以把 PDF、说明文档、FAQ 直接放进 raw/

如果你不知道从哪里下手,可以先看这 3 份配套材料:

如果你的原始材料主要是网页、Word、PPT、Excel 或截图,也可以优先使用这些低门槛工具:

  • 办公文档:先参考第 1 周课程里提到的 docxpptxxlsx 相关用法
  • 网页内容:优先把内容整理成 Markdown,再放进 raw/
  • 网页收藏:可以使用 ObsidianObsidian Web Clipper

Markdown 对人更容易复查,对 Agent 也通常比直接处理整页 HTML 更干净。

如果你在命令行里遇到“文件读不到、权限不够、目录进不去”的问题,先回头看文件与目录权限速查,不要在权限问题上卡太久。

建议完成流程

你可以按下面的顺序完成这次作业:

  1. 先确定主题和服务对象,写一句话说明“这个 wiki 是给谁用的”。
  2. 收集一批原始材料,先放进 raw/
  3. 先写 CLAUDE.md,再开始大规模 ingest。
  4. 完成第一轮 ingest 后,立即补 wiki/index.mdwiki/log.md
  5. 用 3 次 query 检查你的 wiki 是否真的“能问、能答、能回到原文”。
  6. 做 2 轮 lint,修掉最关键的问题,再提交最终版本。

交付物

你提交的内容必须至少包含以下结构:

week2-<student-id>-llm-wiki/
├── CLAUDE.md
├── raw/
│   └── ...
├── wiki/
│   ├── index.md
│   ├── log.md
│   └── ...
└── reports/
    ├── queries.md
    ├── lint-report.md
    └── schema-note.md

1. CLAUDE.md

这是你的组织规则文件,也是本作业最重要的部分。它至少需要说明:

  • 这个 wiki 是给谁用的
  • 你如何划分页面类型
  • 页面命名规则是什么
  • 什么时候新建页面,什么时候更新旧页面
  • 出处标注如何记录
  • ingest/query/lint 三类操作各自遵循什么规则

2. raw/

放原始材料。要求:

  • 原始材料不可被“静默改写”
  • 文件命名清晰
  • 能从 wiki 页面回溯到对应来源

3. wiki/

这是知识库本体。要求:

  • 至少 6 个有效页面,不含 index.mdlog.md
  • 页面之间有明确交叉引用
  • 页面组织方式要服务于你的服务对象,而不是一篇材料配一页摘要地机械堆叠

4. wiki/index.md

你需要维护一个结构化目录。至少应体现:

  • 页面分类
  • 每个页面的一句话说明
  • 清晰的导航入口

5. wiki/log.md

你需要记录 wiki 的演化过程。至少记录:

  • 什么时候 ingest 了什么材料
  • 什么时候进行了 query
  • 什么时候做了 lint
  • 哪些页面被创建、更新或标记为待修复

6. reports/queries.md

记录至少 3 次 query。每次 query 必须包含:

  • 问题本身
  • 你使用的关键 prompt 或命令
  • 你让 LLM 查阅了哪些 wiki 页面
  • 最终回答
  • 能回溯到原始材料的出处标注

其中至少 1 次 query 的回答 要被回写成一个新的 wiki 页面,例如比较页、决策页、FAQ 页或常见问题页。

7. reports/lint-report.md

至少做 2 轮 lint

  • 第 1 轮在初次 ingest 完成后
  • 第 2 轮在提交前

lint 报告至少检查:

  • 页面矛盾
  • 孤立页面
  • 缺失但应存在的页面
  • 交叉引用不足
  • 过时或证据不足的结论

你不需要把所有问题都修完,但需要说明你修了哪些,哪些暂时保留,以及为什么。

8. reports/schema-note.md

写一段 300–500 字 的说明,解释:

  • 为什么你的组织方式适合这个服务对象
  • 你最重要的 2-3 个结构决策是什么
  • 如果换一个使用者,你会如何重构这个 wiki

最低要求

为避免作业退化成“资料堆积”,请满足以下最低要求:

  • 不少于 6 个 wiki 页面
  • 不少于 2 轮 lint
  • 不少于 3 次带出处标注的 query
  • 至少 1 个由 query 结果沉淀出的新页面
  • index.mdlog.mdCLAUDE.md 三者必须完整存在

以下做法不算完成作业

  • 只上传原文和零散摘抄,没有知识结构
  • 页面之间几乎没有交叉引用
  • 回答问题时无法回溯到原始材料
  • CLAUDE.md 只有空泛原则,没有实际规则
  • lint 只是写“没有发现问题”

提交提醒

这是一份小型课程 wiki,重点不在于凑页数,而在于:

  • 这个 wiki 是否真的服务于一个具体人群
  • 组织规则是否清晰
  • query 是否真的可追溯
  • lint 是否发现了真实结构问题
  • 页面之间是否形成了有用的导航与交叉引用

如果你使用 Git 仓库管理作业,请确保:

  • 文件结构清楚
  • 不要混入无关缓存文件
  • 原始材料与生成内容分开存放
  • 任何引用的外部内容都注明来源

学术规范与 AI 使用说明

本作业允许且鼓励使用大模型,但你需要对结构设计和最终内容负责。

请特别注意:

  • 不要把模型输出当作天然正确
  • 出处标注必须能回到原始材料,而不是回到聊天记录
  • 同样主题下,允许讨论,但不应出现高度相同的页面组织和说明文字

参考文献

[1] Karpathy, A. LLM Wiki [EB/OL]. GitHub Gist, 2026-04-04 [2026-04-30].
链接:点击访问 Karpathy 的 LLM Wiki 原始项目(GitHub Gist)

一句话提醒

这次作业的重点不是“你读了多少”,而是:
你能不能把一堆散乱资料,整理成一个以后真的有人会反复打开、反复提问、反复依赖的知识库。