MinLi Builds MinLiBuilds

Min Li / 李敏

关于我

清华大学计算机科学与技术系毕业，研究方向为大规模语言模型推理优化与分布式系统。目前专注于将 AI 技术落地到真实业务场景中，解决实际工程问题。

从本科阶段就开始接触自然语言处理和深度学习，在清华的几年里系统学习了编译原理、分布式计算、高性能计算和机器学习理论。这些底层功底让我在后来做 AI 应用时，不只是调 API，而是能深入到模型推理层面去做优化。

毕业后在几家公司做过基础设施和 AI 平台相关的工作，涉及模型部署、推理加速、成本优化、缓存架构等方向。逐渐发现一个被忽视的问题：大部分团队在使用大模型时，token 消耗比理论值高出 3-5 倍，根本原因在于对缓存机制的理解不足。

这直接催生了 Cache 项目。

正在做的事

Cache / 缓存优化引擎

一个专注于大模型 Token 缓存优化的开源项目。从 Transformer 的 KV Cache 原理出发，逆向分析 Claude Code 源码中的缓存工程，提炼出一套可执行的优化策略。

核心发现：

Claude Code 的系统提示词占每轮输入的 60-80%，通过前缀缓存可以将这部分成本降低 90%
多轮对话场景下，正确的缓存策略可以将 10 轮对话的总成本从 255K tokens 降到 60K tokens
四类"缓存杀手"（切换模型、修改 CLAUDE.md、注入时间戳、随机工具路径）会导致 12 倍的成本惩罚
Sub-agent 与主线程的缓存完全独立，每次启动等于一次"迷你冷启动"

项目正在通过 BNB Chain 实现自我可持续发展，将 Token 优化的经济价值直接回馈给社区贡献者。

同样的 Max 套餐，操作习惯不同，实际可用量差距在 3~5 倍。

技术方向

大模型推理优化
├── KV Cache 机制研究
├── 前缀匹配缓存策略
├── Token 消耗分析与优化
└── 推理成本建模

分布式系统
├── 高可用架构设计
├── 缓存一致性协议
├── 分布式缓存集群
└── 边缘计算部署

AI 应用工程
├── Claude Code 源码分析
├── Agent 编排与优化
├── 提示词工程
└── 多模型协同调度

研究经历

在清华期间参与了多个与大规模模型推理相关的研究项目：

KV Cache 压缩与量化 -- 研究如何在不损失推理精度的前提下，将 KV 缓存的内存占用降低 40-60%。对比了 GQA (Grouped Query Attention)、MQA (Multi-Query Attention) 和标准 MHA 在不同模型规模下的缓存效率
Speculative Decoding -- 研究使用小模型预测草稿、大模型验证的方式加速推理。在 7B/70B 模型对上实现了 2.3x 的推理加速
Prompt Caching 策略 -- 系统分析了前缀匹配缓存在多租户场景下的命中率、失效模式和成本模型。这项工作直接启发了 Cache 项目

对 AI 应用的看法

大模型的算力成本是一个被严重低估的问题。

大部分开发者和团队在使用 Claude、GPT 等模型时，关注的是"能不能用"，而不是"怎么用得省"。但当你把 AI 集成到生产系统中，token 消耗就变成了一个真实的成本项——每月数千到数万美元，完全取决于你对缓存机制的理解程度。

我做 Cache 项目的动机很简单：让同样的钱，做更多的事。

这不是理论研究。这是一个可以立即执行、立即见效的工程方案。9 条实战策略，每一条都有源码级别的依据，每一条都可以量化节省效果。

技术栈

语言        TypeScript / Python / Rust / Go
模型        Claude / GPT / Gemma / Qwen / DeepSeek
框架        Next.js / FastAPI / Actix
推理引擎    Ollama / vLLM / TensorRT-LLM
缓存        Redis / Memcached / 自研 KV Store
基础设施    Docker / Kubernetes / Terraform
链上        BNB Chain / Solidity / Hardhat

开源贡献

除了 Cache 项目，我也在积极参与其他 AI 工具链的开源工作：

对 Claude Code 缓存断裂检测机制的源码分析，帮助社区理解 promptCacheBreakDetection.ts 的工作原理
为多个 AI Agent 框架提交了缓存优化相关的 PR
翻译和本地化 AI 编程工具文档，降低中文开发者的使用门槛

联系方式

平台	链接
GitHub	MinLiBuilds
X / Twitter	@MinLiBuilds
项目	Cache / 缓存优化引擎

团队

Cache 项目不是一个人做的。感谢以下伙伴的持续贡献：

成员	方向
icebear0828	核心研究员，Token 计费机制分析
donglixp	算法工程师，KV Cache 压缩研究
zdaxie	系统架构师，分布式缓存设计
Scalsol	推理优化，Speculative Decoding
addf400	前端工程，监控面板开发
deepseek-ai	模型对接与基准测试

_{清华大学 CS / AI 应用工程师 / Cache 项目发起人}
_{让同样的钱，做更多的事。}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

MinLi Builds MinLiBuilds

Sponsoring

Achievements

Achievements

Highlights

Organizations

Block or report MinLiBuilds