Milvus 源码精读版路线图

目标读者：已经熟悉数据库 / 存储系统概念，希望从架构实现角度系统理解 Milvus 的人。

总体策略

不要从 API 教程开始读，也不要一上来钻 ANN 算法。先看控制面和物理抽象，再看写路径和查询路径，最后下潜到 C++ segcore。

推荐分成 6 个阶段。

阶段 0：建立全局地图（半天）

必读文件

/home/zouhaipeng/work/db/milvus/README.md
/home/zouhaipeng/work/db/milvus/cmd/main.go
/home/zouhaipeng/work/db/milvus/internal/types/types.go
/home/zouhaipeng/work/db/milvus/configs/milvus.yaml

要回答的问题

当前 Milvus 到底有哪些主要角色？
默认是否启用了 streaming？
metadata / object store / mq 的外部依赖是什么？
Go 层的组件接口边界是什么？

读完后你应该得到的图

入口层：cmd/
组件边界：internal/types/types.go
系统依赖：configs/milvus.yaml
当前演进信号：streaming 默认开启

阶段 1：先看控制面骨架（1 天）

必读文件 / 目录

internal/coordinator/mix_coord.go
internal/distributed/mixcoord/service.go
internal/rootcoord/
internal/datacoord/
internal/querycoordv2/
internal/streamingcoord/

阅读顺序建议

先读 mix_coord.go 看启动和聚合关系
再看 rootcoord、datacoord、querycoordv2 各自负责什么
最后看 streamingcoord 在当前架构里的位置

阅读重点

为什么 MixCoord 聚合了多个 coord
RootCoord 和 DataCoord / QueryCoord 的依赖关系
QueryCoordV2 管的到底是 segment、channel 还是 replica
streamingCoord 是否只是附属模块，还是控制面一等公民

阶段产出

你应该能画出“当前控制面真实拓扑图”。

阶段 2：吃透写路径（1~2 天）

主线问题

写入请求从客户端进入 Milvus 后，如何一步步变成 segment 和 binlog？

必读文件

internal/proxy/task_insert.go
internal/proxy/task_insert_streaming.go
internal/datanode/
internal/flushcommon/writebuffer/write_buffer.go
internal/storage/
docs/agent_guides/streaming-system/streaming-system.md

这一阶段要回答的问题

growing segment 何时创建、何时 seal
flush checkpoint 怎么推进
mutation 是如何从 WAL 物化到对象存储的
DataNode 和 DataCoord 的职责边界在哪里

阶段 3：吃透查询路径（2 天）

主线问题

Search/query 请求如何从 Proxy 一路走到 QueryNodeV2，并同时覆盖 sealed/growing 数据？

必读文件

internal/proxy/task_search.go
internal/querycoordv2/server.go
internal/querycoordv2/services.go
internal/querycoordv2/meta/
internal/querynodev2/server.go
internal/querynodev2/services.go
internal/querynodev2/delegator/delegator.go
internal/querynodev2/segments/

这一阶段要回答的问题

QueryCoord 决定什么，QueryNode 决定什么
growing 和 sealed 数据怎么一起查
delete buffer、partition stats、tsafe 如何影响可见性
shard 级运行时是怎么维护的

阶段 4：下潜到执行内核（2~3 天）

主线问题

Milvus 真正的数据执行、segment load 和 search 内核在哪里？

必读目录

internal/core/src/segcore/
internal/core/src/index/
internal/core/src/query/
internal/core/src/storage/
internal/core/src/segcore/segment_c.h

这一阶段要回答的问题

segment 在 C++ 层的内部表示是什么
search / retrieve 的执行入口在哪里
索引和原始 field data 在执行时如何配合
Go 和 C++ 的真正边界在哪里

阶段 5：后台维护与长期演化（1~2 天）

主线问题

Milvus 如何维持长期稳定，而不是只跑通基础搜索？

必读文件

internal/datacoord/compaction_trigger_v2.go
internal/datacoord/compaction_task_*.go
configs/milvus.yaml
docs/agent_guides/streaming-system/ 下各子文档

阅读重点

不同 compaction 类型和触发源
clustering / sort / backfill / storage version upgrade
woodpecker / kafka / pulsar / rocksmq 的位置
streaming 当前是否已成为主路径

这一阶段要回答的问题

compaction 为什么不是“简单 merge”
后台维护如何影响查询和存储布局
系统的长期演化方向是什么

阶段 6：对照官方资料，校正文档与现实（半天）

做什么

哪些旧文档描述仍然成立
哪些只代表历史设计
当前源码已经演化到了哪里

最终产出

建议你自己写一张表：

主题	旧文档说法	当前源码事实	备注
控制面	独立 coord	MixCoord 聚合	当前实现优先
WAL	hash ring 叙事	streaming/PChannel 叙事更关键	两者有历史承接
查询节点	query node	querynodev2 + delegator	当前复杂度显著提升

精读时的 12 个关键问题

Milvus 为什么需要 MixCoord？
RootCoord 的 timestamp / ID 分配语义是什么？
DataCoord 如何维护 segment 生命周期？
mutation 到 WriteBuffer 的关键状态转换是什么？
flush checkpoint 的推进条件是什么？
QueryCoordV2 的 replica / distribution 模型是什么？
QueryNodeV2 为什么需要 ShardDelegator？
growing / sealed / delete / tsafe 如何共同决定查询可见性？
C++ segcore 和 Go 层如何分工？
index build 为什么要异步化？
compaction 有哪些系统级目标？
streaming 为何被提升到 single source of truth 的地位？

最终推荐阅读顺序（压缩版）

README.md
cmd/main.go
internal/types/types.go
internal/coordinator/mix_coord.go
internal/proxy/task_insert.go
internal/flushcommon/writebuffer/write_buffer.go
internal/proxy/task_search.go
internal/querycoordv2/
internal/querynodev2/delegator/delegator.go
internal/core/src/segcore/segment_c.h
internal/core/src/segcore/
internal/datacoord/compaction_trigger_v2.go
docs/agent_guides/streaming-system/streaming-system.md
configs/milvus.yaml

一句话建议

先把 Milvus 当成数据库系统读，再把它当成向量检索系统读；不要反过来。

风车车知识库

探索

02-源码精读路线图

目录

Milvus 源码精读版路线图

总体策略

阶段 0：建立全局地图（半天）

必读文件

要回答的问题

读完后你应该得到的图

阶段 1：先看控制面骨架（1 天）

必读文件 / 目录

阅读顺序建议

阅读重点

阶段产出

阶段 2：吃透写路径（1~2 天）

主线问题

必读文件

推荐读法

第一步：Proxy insert

第二步：streaming / wal

第三步：WriteBuffer

第四步：存储格式

这一阶段要回答的问题

阶段 3：吃透查询路径（2 天）

主线问题

必读文件

推荐读法

第一步：Proxy search

第二步：QueryCoordV2

第三步：QueryNodeV2

第四步：ShardDelegator

这一阶段要回答的问题

阶段 4：下潜到执行内核（2~3 天）

主线问题

必读目录

推荐读法

第一步：看 C 接口头文件

第二步：segcore 内部对象

第三步：index 子系统

这一阶段要回答的问题

阶段 5：后台维护与长期演化（1~2 天）

主线问题

必读文件

阅读重点

这一阶段要回答的问题

阶段 6：对照官方资料，校正文档与现实（半天）

推荐对照材料

做什么

最终产出

精读时的 12 个关键问题

最终推荐阅读顺序（压缩版）

一句话建议

关系图谱

目录

反向链接