ByteTech 分享录屏回放: https://bytetech.info/activity/7617739347161874432/7617739347162021888
源文档链接: [Agent 的超级进化: 从零打造只属于你的超级 Agent]
一、Agent 的开端
人与动物的根本区别在于人类会使用工具,Chat Bot 与 Agent 的区别也在于此—— Agent 会使用工具。
先回顾这一段 AI 发展的历史:
| 时间 | 事件 |
|---|---|
| 2022 年底 | **智能的出现。**2022年11月30日 OpenAI 基于 GPT-3.5 推出了 ChatGPT。5 天用户破 100 万,2 个月用户破 1 亿,成为历史增长最快的互联网产品之一 |
| 2023 - 2024 | 2023 年 3 月退推出 GPT-4。之后一直到 2024 年一整年我们大概都在 Chat 的模型上一直不断地迭代,比如 GPT 4o 生成能力不断增强。 |
| 2025 年 2 月 | 模型发展重点从 “生成能力”转向“推理能力”。Claude Code 首发 Research Preview,与 Claude 3.7 Sonnet 同日亮相;同月 Andrej Karpathy 在 X 上提出 “Vibe Coding” 概念 |
| 2025 年 5 月 | Claude Code 正式 GA,与 Claude 4 同日发布,此后在小圈子里低调运行半年 |
| 2025 年 11 月 | 重大的转折点,Opus 4.5 发布,局面彻底改变——第一个真正意义上具备”智能”能力的模型,Claude Code 借势起飞,X 上瞬间涌现出铺天盖地的教程与风潮。 |
| 2026 年 1 月 | OpenClaw (改了几次名字) 项目在技术圈掀起热潮,moltbook Agent 社区火爆。 |
| 2026 年 3 月(春节后) | OpenClaw 在非专业人群中引发更大涟漪——其他行业的人第一次接触到 Agent,“养龙虾”的呼声响彻各处。 |
💡 这是一个重要的范式转折点:从Vibe Coding(人在循环中,一问一答,每轮都需要人判断结果)进化到 Agent Coding(人在循环外,AI 可以持续自主工作 30 小时以上,人只在关键节点介入审查)。
上个月智谱发布了 GLM-5 模型,在微信公众号文章里面说:学界与业界正在形成共识,大模型正从写代码、写前端,进化到完成完整的工程任务,即从 “Vibe Coding” 变革为 “Agentic Engineering”。
我们正在从一个聊天框,迈向一个能够长时间自主执行任务的智能体时代。而现在,不过是一切的开端。我们处于变革的风口浪尖之上,AI 的演进已经以 15 到 20 天为单位在迭代。
二、个人超级 Agent = 通用 Agent + 基座模型 + 上下文
2.1 Agent 的核心
市面上有很多 Agent 产品,Claude Code、OpenClaw、Codex CLI、Cline、Gemini CLI、OpenCode,看起来各有特色,但是抽象到最底层,都可以用一个公式描述:
🤖 个人超级 Agent = 通用 Agent + 基座模型 + 领域上下文(CLAUDE.md + Rules +Skills)
其中:
| 组成部分 | 当前最优选择 | 说明 |
|---|---|---|
| 通用 Agent | Claude Code / CodeX | CC 是业界公认的地表最强,Anthropic 花费几十亿美金打造出来,并且经过社区无数次优化迭代打造出来的 Agent 工具。迭代速度是按天发版,可以自行看 ChangeLog > 个人认为CC 最大的问题就是名字带个 Code ,个人认为应该叫 Claude Agent 贴切一点**。** |
| 基座模型 | Claude Opus 4.6 / GPT 5.4 | 这部分取决于大模型厂商,我们改不了 |
| 领域上下文 | CLAUDE.md / Rules / Skills | **重中之重,上下文为王。**第一性原理,一切工程化的措施本质上都是在给模型构建上下文——不管是提示词 (prompt engineering)、规则(rules)、MCP 还是 Skills,这些东西只是从工程侧的形式变了,但本质上没有变。 |
想明白这个公式之后,很多事情就清楚了。你没法让 Claude 变得更聪明(那是 Anthropic 的事),但你可以无限扩展它拥有的上下文。而上下文越丰富、越精准,Agent 的表现就越接近一个”懂你”的协作者,而不是一个需要你从头解释一切的陌生人。
Coding 模型评测: https://arxiv.org/html/2603.03823v1
最近一个很火的议题, Harness Engineering (Harness 是除了模型本身之外的一切——system prompt、工具定义、执行沙箱、编排逻辑、hooks 和中间件) : 《Harness Engineering: Leveraging Codex in an Agent-First World》
2.2 OpenClaw vs Claude Code
同样作为 Agent 明明 Claude Code 在性能和质量上远超于OpenClaw ,那么为什么OpenClaw这么火 ,想了一下:
- OpenClaw:更加拟人化,大多数人把它称作数字员工,第一次让普通人认识到 Agent 的能力,符合圈外人对 AI 的直接认知——相当于有了一个一直长久不断运行的 AI 智能体,随时接收输入,使用各种工具帮助达成一件事。
- Claude Code:更多聚焦在一些单 Session 的任务。比如有一个明确的工作任务,只是想委托给 Claude Code 来做。当这件事情做完之后,整个事件就结束了。(Claude Code 实现的特点是又快又好,而且比较省 Token)
2.3 关于记忆
Claude Code 和 OpenClaw 最大的区别其实是记忆。记忆就是:我在干这件事情的时候,我记不记得之前发生过的事。
- 干专业任务时,没有记忆反而效果更好:因为需求是明确且清晰的,用历史记忆占用上下文并不好。
- 上下文应该指引 Agent 去调研,而不是直接给予,依靠记忆可能不准确。比如在代码开发时,与其给 AI 详细的文档,不如给他指引,让他自己去调研 — Code Is Doc.
- 数字人才需要记忆,比如让虾做某件事、隔一段时间执行某事等——定位日常生活,非工作。
2.4 我的一些使用实例
很多人拥有了 Agent 之后,相当于拿到了一个锤子,接下来要做的事情就是不断地找钉子 ,但是不知道能用它来干什么,我在这里分享一下我的一些场景,抛砖引玉 。核心就是现在有脑子了,需要做一些手和脚让 Agent 可以真正的去完成一些事情。
Claude Code 是目前业界公认的最强的通用 Agent,我觉得它最大的问题就是名字带了一个 Code,让大家以为它只能写代码,其实应该叫 Claude Agent 更合适。
核心不是呈现结果,核心是对一切可复用的流程编排,你必须对流程中的每一步都能自行把控
| 场景 | 描述 | 截图/产物 |
|---|---|---|
| 业务交接梳理技术链路 | 上个月进行了一些业务交接,代码库几十个,无数数据以及下游依赖,我用 Agent 全部进行了完整梳理,生成了技术串讲文档,逻辑清晰,图文并茂,可以直接看附的文档链接。 > 核心是自己构造了一套SKill,里面会内置一些字节代码库的各种特征,引导 Agent 去自动发现 梳理技术链路逻辑,最终通过各种编排生成一份完整的文档(包含流程图、架构图、接口链路详解 ),再上传到飞书 编排逻辑: - 根据交接过程中的一些输入 - 已有技术文档、代码仓库梳理 - 交接过程中飞书妙记的转录文本 TXT - 有的服务信息和其他输入数据 - 编排调度 Agent teams 多个子 Agent 把整个业务域分成多个模块(自动探查) > 关于 Agent teams: https://bytetech.info/articles/7603292569111363611 - 对于每一个模块都单独起一个 Agent 去调度自己模块的文档梳理 - 模块总览、模块包含哪些接口 - 对于每一个接口,起一个单独的 Agent 去探查接口的代码逻辑 - Agent 汇总每一个模块 Agent 的输出 直接使用 Linux 命令把所有的文档拼接起来 成为一个大文档 - 使用一个新 Agent 把大文档进行一个探索和总结 作为整个大文档的总览 - 最终拼接成一个超大的文档 上传到飞书 | - [Seller Info & Shop Performance 新老链路完整分析] - [insights_ops_seller 服务分析报告] > 文档内容是比较大的 ,是需要进行一些流程编排从而完成一个超大的文档 |
| 快速确认代码中的业务逻辑 | 研发流程中,我们经常对一个业务的细节不熟悉,往往需要从代码中排查 找到这个逻辑,如果自己要从零梳理一条业务链路,一般会花费很久时间。 但是借助 Agent 一般来说 10 分钟左右快速摸清楚一条 HTTP 请求从入口到最终的后端请求的所有链路 。甚至不需要 Skills 只需要组织一些提示词 一些提示词 。 > 代码就是最好的提示词 代码中有严谨的逻辑编排 对于 Agent 可以快速地去找到逻辑 > 一般来说 只需要提供一个 HTTP 接口的 PATH 和 API 所在的代码仓库 ,能探知到这个仓库的链路 简单的代码逻辑定位 甚至不需要 Skills 只需要一些提示词 , 写提示词的技巧: - 技巧不够,人工来凑: 额外写一个文档,把你要描述的这件事情的所有相关联的信息都可以想办法放进这个文档里,文字,图片,代码库,各种链接 等等,说明你的诉求。 | [CRM warehouse 地址链路分析] |
| 处理 Argos 报警 | 效果:直接转发报警卡片给bot,自动解析,吊起后台 Claude Code ,使用预定义的技能和流程排查问题,产出报告. - 自动拿到报警卡片链接和logid - 去 argos 拿报警详情 - 使用 logid 搜索到代码日志 - 从代码日志中提取到 PSM 以及代码的文件信息 - 使用 PSM 去 Overpass 上查到一些服务元信息 - 使用上面的上下文探索代码库,从代码中分析问题 - 我已经把常用代码库全部 clone 到本地了 - 一般来说一个业务域下面的问题基本上都固定在几个代码仓库中 - 发送报告到飞书文档 > 核心是要打通字节云整条链路的基建,处理各种内部系统的登录态, 目前做的比较粗糙 ,但整体链路算是通了。 | [GetShopBenchmarkSummary 接口报警排查报告] |
| 建立 Agent 本地知识库处理 Oncall | 尝试构建本地化的业务知识库(后文会细说),逐步积累上下文,越用越好用 - 可以做什么? - 沉淀任意业务知识,取决于你想往里面写什么。我这个是oncall排障 - oncall过程中不断的调用技能,查问题,一直在cc窗口内积累上下文,如果问题得到解决,就总结过程入库。 - 打通浏览器自动化,可以实现自动打开某个网页,自动读数据,自动操作. > 目前只是一次个人小试验探索 | https://code.byted.org/hepengcheng/sea_pearl_aiwikis |
| 整理 ByteTech 文章 | 我做了一个对于任何网站全自动抓包,自动生成技能的技能 ,ByteTech 是我其中的一个尝试 思路 - 核心是浏览器控制,后文会说 - 连接 Chrome 的 DevTools , 自动进入这个网站 收集请求抓包 - Agent 对有意义的 PATH 进行过滤封装 - 最终清洗出一些有用的接口 - 最核心的是登录态( Cookie 和 Session) , 我想了很多办法 , 每一个网站的鉴权方式可能都不一样,而且很复杂 。我最后想了一个简单粗暴的办法。 - 在请求某个接口的时候 先看一下本地的 Cookie 是否有效 如果已经失效了 就直接打开用户本地的 Chrome 去提取一下 Cookie ,然后带着现成的 Cookie 去请求任何网站 ,这个方法基本上通杀目前所有网站 ,而且借助 Agent 的推理能力 这个效率是极其快的。 | - [ByteTech 推荐文章 Top 20 核心要点总结] |
| 飞书 CLI | 在字节 我们办公最常用的工具是飞书 ,所以需要有一个用 Agent 打通飞书种能力的方式,我写了一个开源项目,目前字节内部已经有很多同学在用了 https://github.com/riba2534/feishu-cli Skill 下载: https://skills.bytedance.net/collection/xJANTOdR > 我中已经附带给 Agent 使用的 Skills, 使用方式非常简单 只需要把 GitHub 链接给你的 Agent 让他自己安装 自己使用就可以了 > 在这个项目里面 我没有写任何一行代码 全部由 Agent 来完成, > 关于 MCP 和 CLI : [抛弃 MCP, CLI 才是 Agent 的母语] > 我把飞书开放平台文档全爬下来,给AI当上下文 https://github.com/riba2534/feishu-open-docs | - 双向转换零损耗 — 支持 40+ 种块类型,Markdown 导入飞书后再导出,内容完整保留 - 图表原生渲染 — Mermaid(8 种图表类型)和 PlantUML 自动转换为飞书画板,不是截图,是可编辑的矢量图 - 大规模文档处理 — 三阶段并发管道架构,实测 10,000+ 行 / 127 个图表 / 170+ 个表格一次导入 - AI Agent 原生 — 11 个技能文件覆盖飞书全功能,AI 助手即装即用 - 一个工具覆盖全平台 — 文档、知识库、表格、消息、日历、任务、权限、画板、评论、搜索 |
| AI coding 探索 — HappyClaw | https://github.com/riba2534/happyclaw 上面分享的截图皆来自于 HappyClaw,是我的一个开源项目,底层是基于 Claude Code ,并且添加了 OpenClaw 的记忆、定时任务等功能,目前支持 WebUI、飞书、Telegram、微信、QQ、手机PWA APP 渠道接入。核心是 Use Claude Code everywhere,你的AI工作台。 做这件事情的目的是,给使用 Agent Coding 找了一些实际的使用场景,探索 agent coding 的边界, 没有直接使用公司项目(怕出问题),自己起了一个个人项目尝试 ,因为太喜欢Claude Code,但是又不能随时随地用到,就下班后开始写 happyclaw ,大概一个半月,目前项目总代码量 > 13w 行,全部由 Claude Code 完成(我不会前端,一行 TypeScript 没写过) - 针对某个 Issue 描述的 bug , Agent 自己启动浏览器,自己进行登录,然后自己去浏览器点击相关按钮,测试, 截图查看表现 - 确定问题后自己改代码修复,改完之后确认是否生效 - 全过程 AI 自动化,人只需要看结果 > 核心是做好浏览器控制基建,对于简单网站,利用 Agent-Browser 能力,使用无头浏览器或者直接控制本地,用账号密码直接登录,排查问题修复 bug | |
| 全自动写文章 | Agent 是个锤子,总要去各个地方找钉子,我找的第一个 Coding 之外的场景是尝试使用 AI 来写作,把我的思考沉淀下来。我运营了一个微信公众号,构建了一整套全自动写文章流程。文章质量可以自己去看「中国人本来就聪明」。 核心流程(思维碎片 → 素材收集 → 真实性验证 → 文章风格调研 → 文章格式调整 → 事实回顾 ): - 让 Agent 学习我历史上写过的所有文章 , 沉淀出来文章风格 常用词汇 句法句式等等 - 我日常脑子里会突然出现一些零碎的想法,我称之为思维碎片,我找了一个比较好的载体 memos (自部署的一个备忘录),每当我想到一些事情或者词汇或者一些好文章链接的时候 我就及时拿出手机记录到里面。 - 碎片沉淀的差不多了之后,我就会把这些碎片一股脑地喂给 CC ,然后由 CC 就会自己编排调度很多个 Agent 去分析,由我来不断地和它对话 来调整文章的结构和方向 - 生成文字之后, 自动调用 Google Banana 生图 API 进行配图和封面生成,并且自动上传到图床(任何公有云的COS,把文档扔给cc让他自己生产技能) - 最终给文章排版 调整标点符号和格式 最后再进行事实性验证 - 最终就可以产出一篇质量还不错的文章 | - 一个月,1400+ 粉丝 文章质量可参考: 窗口期可能只剩五年 |
| AI 备忘录 | - Memos 提供一系列API, 直接让 CC 生成一个技能,调用就行 https://github.com/usememos/memos (接入微信还支持语音) | 生成技能: |
| 多个云服务器集群配置 | - 我是一个 NAS&服务器爱好者,会经常买一些各大云厂商的云服务器,买完之后 每次去配环境 其实比较花费时间,有一天受不了了,突然想到让 Agent 自己去配,大概就是把一堆服务器的 ip:port ,以及密码给 cc ,用一堆提示词来做配置,大概用了十几分钟就配了 6 台服务器 | |
| 携程信息提取比价 | - 下个月休假要去旅游,嫌麻烦想去携程报旅游团 ,是选择的数量实在是太多 而且过于复杂 ,于是使用 cc 爬携程比价,最终大概用了不到一个小时的时间就完成了选择和支付。 > 核心是浏览器控制&爬虫 | - [2026 欧洲跟团游比价分析报告] - [意大利+瑞士+法国 13日跟团游 行程手册] |
| 区块链链上数据追踪溯源 | - 一个朋友在 Telegram 买一些虚拟账号(使用USDT交易),被骗了1000美金,用 Agent 帮他分析链上交易来龙去脉。(被诱导授权合约) | - 朋友被骗钱,分析报告: [tron-investigation-report] - Resolv被攻击溯源 [链上调查报告 — Resolv 协议 USR 铸币攻击] - Venus 被攻击溯源 |
| youtube 烧录字幕 | - youtube 上会经常有一些好的访谈和视频,但是都是英文的,我做了一套全自动下载 youtube 视频,自动烧录中文字幕,直接生成MP4 > 核心是封装了 ffmpeg ,以及 youtube 各种爬虫 > 做好基建后,一切由 Agent 自行推理完成 | - 2026马斯克开年演讲[原版] 讲人工智能的时间线和奇点已经到来,我发 B 站被退回了,但是成功了,强烈推荐,值得一看 > 既然讲到这了,我把烧录好中文的视频放在这: |
| 全自动写小说 | - 模仿斗破苍穹,写一个豆包修仙 | |
| 全自动刷推特 | 众所周知 AI 圈子上有用的内容都会首先出现在 X 上 所以有必要对 X 上的信息流进行一个整理和整合 | 核心是浏览器自动化基建+抓包 |
| 点麦当劳? | - 除了支付要手动,剩下的全流程打通 | 麦当劳MCP https://open.mcd.cn/mcp |
三、“超级 Agent” 的上下文如何构建?
推荐学习资料:
- https://code.claude.com/docs/zh-CN/overview Claude Code 官方文档,建议仔细研读,多看几遍
- https://x.com/trq212/status/2035372716820218141 Claude Code 产品负责人 Thariq 的系列文章,必看
- 你不知道的 Claude Code:架构、治理与工程实践
- I want to become a Claude architect (full course)
这里以 Claude Code 为例(其他产品也基本是抄的 cc),用户级别的全局配置在 ~/.claude 中定义,上下文分为三层:
3.1 第一层:CLAUDE.md —— Agent 的操作手册
Agent 每次启动时加载的全局指令。定义角色、工作流、代码质量标准、输出格式等。保持 CLAUDE.md 短、硬、可执行,优先写命令、约束、架构边界。Anthropic 官方自己的 CLAUDE.md 大约只有 2.5K tokens
3.2 第二层:Rules/ —— 细分领域的行为规则
针对不同场景的详细规则文件(如 Git 操作规范、Markdown 编写规范、飞书配置等)
3.3 第三层:Skills/ —— 可复用的能力模块
🤖 重中之重。 Skill 的本质是构建原子化能力,Agent 自动根据原子化能力去编排决策。比以前的 Workflow 固定流程好得多。
Skills 是这套体系里最核心的部分,最大的意义是渐进式披露,按需加载****,而非全量加载。 Agent 不会把几十个 Skill 的全部内容塞进上下文,而是只简单的把技能的标题和描述预加载,之后如果要用到,再逐渐加载进上下文。又带来了一个巨大的好处,理论上来说,一个 Skill 就是一个工作流,Agent 可以自主编排调用不同 Skill 来完成任何事。
不要教条主义 Skill 带来的是一种思想 实现的方式可以是无数种 你甚至可以自定义让 Agent 实现一套属于你自己的渐进式加载模式 ,核心是 复用流程。
每个 skill 都需要一个 SKILL.md 文件,包含两部分:YAML frontmatter(在 --- 标记之间)告诉 Claude 何时使用该 skill,以及包含 Claude 在调用该 skill 时遵循的说明的 markdown 内容。name 字段变成 /slash-command,description 帮助 Claude 决定何时自动加载它。一份典型的 skill.md 为:
---
name: pdf
description: 处理 PDF 文件。用于读取、创建、合并或填写 PDF 表单。
---
# PDF 处理技能
## 读取 PDF
使用 pdftotext 快速提取文本:
```bash
pdftotext input.pdf -
```
## 创建 PDF
使用 PyPDF2 合并多个文件...
## 注意事项
- 处理大文件时考虑分批处理
- 中文 PDF 可能需要指定字体路径不要以为 Skill 只是一个 Skill.md ,在同目录的 references 文件夹中沉淀下来的有用的脚本和工具,才是真正能让 Skill 发挥潜力的地方。
Skill vs Workflow 的区别
| 维度 | Workflow(如以前的 Coze) | Skills |
|---|---|---|
| 流程 | 固定流程,不灵活 | 原子化能力,Agent 自己编排流程 |
| 加载 | 全量加载 | 按需加载(渐进式披露策略) |
| 扩展性 | 需要重新编排 | 笛卡尔积,自动调度,组合出无限玩法 |
我的 Skills 清单
核心:沉淀可复用的流程
- 字节跳动研发流程相关Skill推荐 bytedcli 的 https://bytedcli.gf-preview.bytedance.net/
- 其他 Skills 参考: https://skills.bytedance.net/
- 全网优秀Skill: http://skills.sh/
| 技能 | 说明 |
|---|---|
| 字节代码库分析 | - 对于单个或者多个代码库 可以从 HTTP 的入口开始 进行所有接口的深入链路调研 最终生成一个完整的报告 其中用了很多编排的方式 - 生成模块文档,画出架构图 |
| 写文章 | 模仿博客作者真实写作风格生成博客 |
| /eat | 知识吸收元技能,思路来源于千与千寻的无脸男,吸收一切知识,转化为持久能力。你日常看到的 x 的好帖子,日常看到的好的 github 项目,全部丢给 cc,让他分析实现原理,补充自己的 agent 能力,你会持续增强,螺旋上升。 |
| /shit | 吃多了要拉出来,优化上下文结构,清理 Agent 工作区,精简结构 |
| 浏览器自动化 | Agent-browser / Chrome DevTools > chrome://inspect/#remote-debugging |
| CC 长期任务执行 | 长时间自主运行 > 原理: 请仔细阅读 https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents |
| 字节云 | |
| feishu-cli | 飞书一切操作 https://github.com/riba2534/feishu-cli |
| Git PR/Issue 处理 | 自动处理修复 PR |
| 超级搜索 | https://github.com/searxng/searxng 自建超级搜索+ API |
| YouTube 内容获取 | 字幕、总结 |
| PDF 处理 | 各种 PDF 操作,依赖开源项目 https://github.com/Stirling-Tools/stirling-pdf |
| 深入思考 | 柏拉图式概念解剖 |
| 区块链侦探 | 查链上交易 |
| 点麦当劳 | 是的,甚至能点麦当劳 |
如何造技能
🎁 本文的目的是想让你学会如何造技能——构建属自己的超级 Agent。下载别人的技能终究是别人的,核心是要学会自己造 Skills。最兴奋的是自己造技能和探索的过程本身。
- 官方 Skill-Creator,造任何技能,建议都使用官方的元技能生成器, https://github.com/anthropics/skills/tree/main/skills/skill-creator
- 原理在这里不赘述,直接去看: [拆解 Anthropic 的 skill-creator:AI Agent 的技能工厂是怎么运转的]
- [[Anthropic 官方] 构建 Claude Code 的经验:我们如何使用 Skills]
- 一个字,抄:你日常看到的 x 的好帖子,日常看到的好的 github 项目,全部丢给 cc,让他分析实现原理,补充自己的 agent 能力
四、Skills 基建:打好地基
4.1 焚决:浏览器自动化
现代互联网绝大多数的操作其实都是基于浏览器或者HTTP进行的,所以搞好一个浏览器自动化是重中之重
-
Playwright: https://github.com/microsoft/playwright
- 微软出品,有对应的 MCP 和 CLI,推荐 CLI,官方有技能
-
Agent Browser: https://github.com/vercel-labs/agent-browser
- VerCel 出品,有对应 Skill 提供,无头浏览器首选,底层就是 Playwright
- 为 AI Agent 优化过的
-
Chrome官方
- 配置: chrome://inspect/#remote-debugging
- Chrome 在 M144 新增的功能 允许在这个页面中打开远程调试连接端口
- https://developer.chrome.com/blog/chrome-devtools-mcp-debug-your-browser-session?hl=zh-cn MCP Server ,给 Agent 提供完整的 Chrome DevTools 能力,包括:可靠的自动化、深度调试和性能分析
- 我的全自动抓包就是用这个做的
- 配置: chrome://inspect/#remote-debugging
-
Browser Use 2.0 : https://github.com/browser-use/browser-use
- 底层是 CDP 直连
- 最近出了2.0版本 CLI ,号称成本减半,也可以用
我的建议,全都要, 他们都做成 skills 让 Agent 根据优先级依次使用 以及,上面的链接,你不一定要自己看,全部丢给Agent,让他自学 有了这些链接足够他造一个浏览器控制技能了
4.2 全自动生产 Skill
技能工厂的运转方式——让 AI 帮你造技能,形成自我进化的闭环
自动抓包 + 自动分析有用接口 + 自动用 skill-creator 造技能
思路就是使用浏览器的基建,接入 Chrome Dev Tools MCP,让Agent自己控制浏览器分析抓包,最后构造HTTP请求,如果需要登录态,现场去浏览器里面提,理论上可以通杀所有网站。简单有效。
五、记忆与知识库构建
5.1 核心原则
不要刻意搞文档,要引导 AI 在哪里找,这个更重要。
- 有了问题,引导 AI 去找功能的源码在哪里
- 给 AI 以指引,任何问题,原地探查更准确(Agent 搜索一个大型仓库,所需时间分钟级)
5.2 本地业务知识库构建尝试
本地业务知识库构建 (日常研发流程排查问题的过程以及相关文档沉淀到业务知识库,给出实例 sea_pearl_aiwikis ,核心在于人完全不接触知识库,研发只直接和 Agent 对接,全自动流程)
- 日常研发流程排查问题的过程以及相关文档沉淀到业务知识库,可以是任何业务知识。
- 核心在于人完全不接触知识库,研发只直接和 Agent 对接,全自动流程
- 用 Git 管理上下文,可以是任意形式,什么都可以往里面塞
- 我造了三个 Skill
- /query : 搜索知识库 + 深入调研,输出答案
- /add_wiki: 自动调研,生成文档,更新索引
- /digest: 提取当前对话的实战经验,存入知识库
六、Git 管理与多设备同步
管理好你的 ~/.claude,跨设备同步。.gitignore 要用白名单模式——只允许必要文件进入版本控制。
# Claude Code 配置目录 - 白名单模式
# 只有明确列出的文件/目录才会被版本控制
# 忽略所有
*
# ===== 白名单 =====
# 核心配置
!.gitignore
!CLAUDE.md
!README.md
!settings.json
# 自定义 agents
!agents/
!agents/**
# 自定义 skills (复杂能力,目录结构)
!skills/
!skills/**
# 自定义 commands (斜杠命令,单文件)
!commands/
!commands/**
# 自定义 hooks (事件钩子脚本)
!hooks/
!hooks/**
# 自定义 rules (用户规则)
!rules/
!rules/**
# 知识沉淀(经验教训、笔记)
!notes/
!notes/**
# ===== 显式忽略(已被 * 覆盖,此处为文档说明)=====
# 敏感凭据(绝对不能同步)
# .credentials.json - OAuth 令牌
# 插件相关(不同步)
# plugins/installed_plugins.json - 自动生成的安装记录
# plugins/cache/ - 插件缓存(会无限增长)
# plugins/marketplaces/ - 市场仓库(自动拉取)
# 运行时数据(不同步)
# cache/ - 缓存数据
# statsig/ - 统计数据
# todos/ - 任务列表
# projects/ - 项目数据
# 本地覆盖配置(不同步)
# settings.local.json - 个人偏好覆盖
# ===== 临时文件 =====
__pycache__/
*.pyc
*.pyo
.DS_Store
*.swp
*.swo
*~
七、Agent 的终极形态
聊完了怎么搭建和进化,最后想聊聊这件事的方向:长程独立运行。
- Agent 从”辅助工具”进化为”独立执行者”
- 有朋友问我,什么是 Agent,我想了很久回答, Agent 是大雄的哆啦 A 梦,有人使用他的道具,有人只把它当做一直狸猫
八、从零开始:一个可操作的路线图
| 步骤 | 操作 | 说明 |
|---|---|---|
| 第一步 | 初始化 ~/.claude/ 的 Git 管理 | 版本控制你的 Agent 配置 |
| 第二步 | 写你的第一版 CLAUDE.md | Agent 的操作手册 |
| 第三步 | 做你的第一个 Skill | 从最常用的场景入手 |
| 第四步 | 建立反馈机制 | 纠正后写入 rules 防止再犯 |
| 第五步 | 日常使用中持续积累 | 不断迭代优化 |
九、我的建议
- **视野打开,**永远用最 SOTA 的模型。不要浪费时间,永远用最新最好的工具。目前就是 Claude Code + Opus 4.6 / Codex + GPT 5.4,你的时间非常值钱。见过猪跑,最好永远知道 SOTA 模型现在是什么样,这样会帮助你做出判断,旧模型会限制你的视野,基于一个不正确的视野做出来的任何判断都可能是错误的,一般来说 第一梯队的模型过两个月会被第二梯队的模型能力赶上。
这里指的是个人项目,公司内部项目请根据合规要求来,核心一点说的是必须要知道现在最先进的模型长什么样,知道之后才能帮你做出正确的决策。
-
一定要多用,能力是用出来的。不只是工作,让 Agent 融入自己的生活,变成自己的臂膀。公司有个 地狱 Agent 交流群,入群门槛是必须开 Claude MAX 200 刀的订阅套餐,并且每周使用量要达到周额度的 80%。
-
每天刷x个小时X。所有 AI 的最新信息和新闻,往往是从 X 上发酵为源头的,任何大模型厂商出现最新的东西 都首先会把 X 作为最先的发布渠道 (比如 Vibe Coding 概念的提出,比如某个模型发布,甚至马斯克骂人)
-
AI 会产生复利。十倍杠杆做多自己 : 从投资角度说,AI订阅是一个下行有限(亏个订阅费)、上行巨大(用的好获得十倍效率提升)的不对称赌注,在现有的金融市场中,你是不会找到这样的机会的 。AI 是能力的放大器,不是生成器,会把你已有的能力放大十倍,对于你没有的能力,0*任何数都是 0,好奇心和执行力很重要。飞轮效应。
2026 年的 AI 领域,存在一个巨大的信息差。
这个信息差不是”知不知道 AI”的差距——现在谁不知道 ChatGPT 呢。真正的鸿沟在使用深度上,它分三层:
第一层:知道 AI。 已经没有信息差了,路边随便找个人都知道豆包。
第二层:会用 AI。 能用 AI 回答问题、写写邮件、翻译文档。大部分人停在这一层。
第三层:用 AI 重构工作流。 把 AI 嵌入日常工作的每个环节,让它自动处理大量重复劳动。这一层的人极少。
这里面每一层都是一个指数级漏斗。第二层和第三层之间的差距,不是 10% 的提升,而是 10 倍的鸿沟。
- 学会结构化表达。在写文档之前,先写一个提示词文档,尽可能给 AI 说清楚,给予充足上下文。我的一个好的实践是做一个比较复杂的事情开一个飞书文档,把自己的想法罗列出来,尽可能说清楚。
- Skill 最好自己造。别人造的也最好自己处理一遍,不要指望下载了别人的自己就变强了,要不然下了也不会用。但是可以借鉴 skills.sh,只有自己造的才能融会贯通。
- AI First 思维:从人驱动变成 AI 驱动,思维要彻底变化。[AI 与人的范式转变:从 Human-Driven 到 AI-Driven]
- Agent 的真正驱动力 — 你的好奇心