Skip to content
View MinLiBuilds's full-sized avatar
🐚
🐚

Sponsoring

@vincentkoc
@nihui
@clansty
@k4yt3x
@chainsx
@openclaw

Highlights

  • Pro

Organizations

@Tencent-Xi-An-Research

Block or report MinLiBuilds

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
MinLiBuilds/README.md

Banner

Min Li / 李敏

Tsinghua AI Research Beijing


关于我

清华大学计算机科学与技术系毕业,研究方向为大规模语言模型推理优化与分布式系统。目前专注于将 AI 技术落地到真实业务场景中,解决实际工程问题。

从本科阶段就开始接触自然语言处理和深度学习,在清华的几年里系统学习了编译原理、分布式计算、高性能计算和机器学习理论。这些底层功底让我在后来做 AI 应用时,不只是调 API,而是能深入到模型推理层面去做优化。

毕业后在几家公司做过基础设施和 AI 平台相关的工作,涉及模型部署、推理加速、成本优化、缓存架构等方向。逐渐发现一个被忽视的问题:大部分团队在使用大模型时,token 消耗比理论值高出 3-5 倍,根本原因在于对缓存机制的理解不足。

这直接催生了 Cache 项目。


正在做的事

一个专注于大模型 Token 缓存优化的开源项目。从 Transformer 的 KV Cache 原理出发,逆向分析 Claude Code 源码中的缓存工程,提炼出一套可执行的优化策略。

核心发现:

  • Claude Code 的系统提示词占每轮输入的 60-80%,通过前缀缓存可以将这部分成本降低 90%
  • 多轮对话场景下,正确的缓存策略可以将 10 轮对话的总成本从 255K tokens 降到 60K tokens
  • 四类"缓存杀手"(切换模型、修改 CLAUDE.md、注入时间戳、随机工具路径)会导致 12 倍的成本惩罚
  • Sub-agent 与主线程的缓存完全独立,每次启动等于一次"迷你冷启动"

项目正在通过 BNB Chain 实现自我可持续发展,将 Token 优化的经济价值直接回馈给社区贡献者。

同样的 Max 套餐,操作习惯不同,实际可用量差距在 3~5 倍。

技术方向

大模型推理优化
├── KV Cache 机制研究
├── 前缀匹配缓存策略
├── Token 消耗分析与优化
└── 推理成本建模

分布式系统
├── 高可用架构设计
├── 缓存一致性协议
├── 分布式缓存集群
└── 边缘计算部署

AI 应用工程
├── Claude Code 源码分析
├── Agent 编排与优化
├── 提示词工程
└── 多模型协同调度

研究经历

在清华期间参与了多个与大规模模型推理相关的研究项目:

  • KV Cache 压缩与量化 -- 研究如何在不损失推理精度的前提下,将 KV 缓存的内存占用降低 40-60%。对比了 GQA (Grouped Query Attention)、MQA (Multi-Query Attention) 和标准 MHA 在不同模型规模下的缓存效率
  • Speculative Decoding -- 研究使用小模型预测草稿、大模型验证的方式加速推理。在 7B/70B 模型对上实现了 2.3x 的推理加速
  • Prompt Caching 策略 -- 系统分析了前缀匹配缓存在多租户场景下的命中率、失效模式和成本模型。这项工作直接启发了 Cache 项目

对 AI 应用的看法

大模型的算力成本是一个被严重低估的问题。

大部分开发者和团队在使用 Claude、GPT 等模型时,关注的是"能不能用",而不是"怎么用得省"。但当你把 AI 集成到生产系统中,token 消耗就变成了一个真实的成本项——每月数千到数万美元,完全取决于你对缓存机制的理解程度。

我做 Cache 项目的动机很简单:让同样的钱,做更多的事

这不是理论研究。这是一个可以立即执行、立即见效的工程方案。9 条实战策略,每一条都有源码级别的依据,每一条都可以量化节省效果。


技术栈

语言        TypeScript / Python / Rust / Go
模型        Claude / GPT / Gemma / Qwen / DeepSeek
框架        Next.js / FastAPI / Actix
推理引擎    Ollama / vLLM / TensorRT-LLM
缓存        Redis / Memcached / 自研 KV Store
基础设施    Docker / Kubernetes / Terraform
链上        BNB Chain / Solidity / Hardhat

开源贡献

除了 Cache 项目,我也在积极参与其他 AI 工具链的开源工作:

  • 对 Claude Code 缓存断裂检测机制的源码分析,帮助社区理解 promptCacheBreakDetection.ts 的工作原理
  • 为多个 AI Agent 框架提交了缓存优化相关的 PR
  • 翻译和本地化 AI 编程工具文档,降低中文开发者的使用门槛

联系方式

平台 链接
GitHub MinLiBuilds
X / Twitter @MinLiBuilds
项目 Cache / 缓存优化引擎

团队

Cache 项目不是一个人做的。感谢以下伙伴的持续贡献:

成员 方向
icebear0828 核心研究员,Token 计费机制分析
donglixp 算法工程师,KV Cache 压缩研究
zdaxie 系统架构师,分布式缓存设计
Scalsol 推理优化,Speculative Decoding
addf400 前端工程,监控面板开发
deepseek-ai 模型对接与基准测试

清华大学 CS / AI 应用工程师 / Cache 项目发起人
让同样的钱,做更多的事。

Pinned Loading

  1. cache cache Public

    搞懂 Claude Code 缓存机制,Token 消耗直降 80%。从 KV Cache 原理到源码逆向,一套完整的省钱方案。

    Shell 16