语义缓存优化：让你的 LLM 应用更快更省钱

2025年10月5日 · 阅读需 7 分钟

技术团队

核心开发者

在使用 LLM 服务时，重复或相似的查询往往会产生不必要的成本和延迟。LLM Gateway 的语义缓存功能通过智能识别相似查询，可以显著提升响应速度并降低使用成本。

什么是语义缓存？

传统的缓存基于精确匹配，只有完全相同的请求才能命中缓存。而语义缓存基于文本的语义理解，即使问题表述不同，只要语义相似就能复用之前的结果。

传统缓存 vs 语义缓存

传统缓存：

查询1: "什么是人工智能？"
查询2: "人工智能是什么？"
结果: 缓存未命中，需要重新请求

语义缓存：

查询1: "什么是人工智能？"
查询2: "人工智能是什么？"
结果: 缓存命中（相似度 0.92），直接返回结果

工作原理

1. 查询向量化

当请求到达时，系统会将查询文本转换为向量表示：

# 示例：查询向量化过程
query = "什么是机器学习？"
embedding = embedding_model.encode(query)
# 得到 1536 维向量：[0.123, -0.456, 0.789, ...]

2. 相似度检索

使用向量数据库（Redis Stack）进行相似度搜索：

# Redis Stack 向量搜索命令
FT.SEARCH cache_index "@vector:[VECTOR_BLOB $K $K]" 
  PARAMS 4 K 5 VECTOR_BLOB <query_embedding> 
  RETURN 3 content similarity score

3. 缓存命中判断

如果找到的最相似结果超过预设阈值（如 0.85），则认为缓存命中：

相似度 > 0.85: 缓存命中，返回缓存结果
相似度 ≤ 0.85: 缓存未命中，调用 LLM API

配置语义缓存

环境准备

首先需要安装 Redis Stack（支持向量搜索）：

# 使用 Docker 安装 Redis Stack
docker run -d \
  --name redis-stack \
  -p 6379:6379 \
  redis/redis-stack:latest

系统配置

在 LLM Gateway 管理界面进行配置：

访问配置页面：系统设置 → 语义缓存

基础配置：

启用语义缓存: ✓
Redis 连接: redis://localhost:6379
缓存过期时间: 24 小时

Embedding 配置：

Embedding 模型: text-embedding-ada-002
API 提供商: OpenAI
API Key: sk-xxxxxx

高级配置：

相似度阈值: 0.85
最大缓存条目: 10000
向量维度: 1536

API 配置示例

也可以通过 API 进行配置：

curl -X POST http://localhost:3000/api/semantic_cache \
  -H "Authorization: Bearer root_token" \
  -H "Content-Type: application/json" \
  -d '{
    "enabled": true,
    "redis_url": "redis://localhost:6379",
    "embedding_model": "text-embedding-ada-002",
    "embedding_api": "https://api.openai.com/v1/embeddings",
    "embedding_key": "sk-xxxxxx",
    "similarity_threshold": 0.85,
    "cache_ttl": 86400
  }'

使用效果分析

性能提升

语义缓存可以将响应时间从秒级降低到毫秒级：

场景	缓存未命中	缓存命中	性能提升
简单问答	2-5 秒	50-100ms	20-100x
复杂推理	10-30 秒	50-100ms	100-600x
代码生成	5-15 秒	50-100ms	50-300x

成本节省

通过减少 LLM API 调用，可以显著降低使用成本：

某客服系统使用案例：
- 日均查询: 10,000 次
- 缓存命中率: 35%
- 每次查询成本: $0.002
- 月节省成本: 10,000 × 35% × 0.002 × 30 = $210

缓存命中率优化

不同应用场景的典型缓存命中率：

FAQ 系统: 60-80%（用户问题重复度高）
代码助手: 30-50%（常见代码模式重复）
客服系统: 40-60%（常见问题重复）
内容生成: 20-40%（创意性需求相对独特）

实际应用案例

案例 1：在线教育平台

某在线教育平台的 AI 答疑系统：

场景描述：

学生提问各种学科问题
同一知识点有多种表述方式
需要快速响应提高用户体验

配置策略：

{
  "similarity_threshold": 0.88,
  "cache_ttl": 168, // 7天
  "embedding_model": "text-embedding-ada-002"
}

效果：

缓存命中率：65%
平均响应时间：从 3.2 秒降低到 0.08 秒
月节省成本：$1,200

案例 2：企业知识库

某企业的智能知识库系统：

场景描述：

员工查询公司政策、流程等信息
问题表述方式多样但内容相似
需要准确的答案匹配

配置策略：

{
  "similarity_threshold": 0.90, // 更严格的阈值
  "cache_ttl": 720, // 30天
  "embedding_model": "text-embedding-ada-002"
}

效果：

缓存命中率：45%
答案准确率：98%
查询响应时间：< 100ms

案例 3：代码助手工具

某 IDE 插件的代码生成功能：

场景描述：

开发者请求代码生成和解释
常见编程模式重复度高
对响应速度要求极高

配置策略：

{
  "similarity_threshold": 0.82, // 相对宽松
  "cache_ttl": 24, // 1天
  "embedding_model": "text-embedding-ada-002"
}

效果：

缓存命中率：35%
代码生成速度：从 8 秒提升到 0.05 秒
开发者满意度：显著提升

最佳实践

1. 阈值设置建议

应用场景	推荐阈值	说明
FAQ/客服	0.85-0.90	需要较高准确性
内容创作	0.90-0.95	避免创意雷同
代码助手	0.80-0.85	可接受相似代码
知识问答	0.85-0.88	平衡准确性和命中率

2. 缓存过期时间

# 根据内容时效性设置
实时新闻: 1-6 小时
技术文档: 1-7 天
通用知识: 7-30 天
历史信息: 30-365 天

3. 监控和调优

定期检查以下指标：

命中率趋势：理想情况下应该稳定在预期范围
相似度分布：了解查询的相似性模式
成本节省：量化缓存带来的成本收益
响应时间：确保缓存服务本身的性能

4. 故障处理

当缓存服务不可用时，系统会自动降级：

try:
    cached_result = semantic_cache.get(query)
    if cached_result:
        return cached_result
except CacheError:
    logger.warning("Cache service unavailable, fallback to LLM")
    
# 直接调用 LLM API
return llm_api.chat_completion(query)

跳过缓存选项

在某些场景下，你可能需要跳过语义缓存：

# 在请求头中添加跳过标志
curl http://localhost:3000/v1/chat/completions \
  -H "Authorization: Bearer sk-xxxxxx" \
  -H "X-Skip-Semantic-Cache: true" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4",
    "messages": [{"role": "user", "content": "生成一首原创诗歌"}]
  }'

跳过缓存的场景：

需要全新创意内容
实时性要求极高的查询
测试和调试目的
一次性的特殊需求

技术细节

Embedding 模型选择

不同 embedding 模型的特点：

模型	维度	语言支持	成本	适用场景
text-embedding-ada-002	1536	多语言	低	通用场景
text-embedding-3-small	1536	多语言	低	轻量级应用
text-embedding-3-large	3072	多语言	中	高精度要求

存储优化

语义缓存的存储需求：

单条缓存大小 ≈ 向量大小 + 元数据 + 内容
- 1536维向量: ~6KB
- 元数据: ~1KB  
- 缓存内容: 变长（通常 1-10KB）
- 总计: ~8-17KB/条

10万条缓存 ≈ 800MB - 1.7GB

性能调优

Redis Stack 配置优化：

# redis.conf 优化配置
maxmemory 4gb
maxmemory-policy allkeys-lru
save 900 1
save 300 10
save 60 10000

总结

语义缓存是提升 LLM 应用性能和控制成本的重要手段。通过合理配置和监控，可以在保证服务质量的同时显著提升用户体验。

关键要点：

根据应用场景选择合适的相似度阈值
定期监控缓存命中率和成本节省情况
考虑内容时效性设置合理的过期时间
准备缓存降级方案确保服务可用性

下一篇文章我们将介绍 Prompt 防火墙如何保护你的 LLM 应用安全。

什么是语义缓存？​

传统缓存 vs 语义缓存​

工作原理​

1. 查询向量化​

2. 相似度检索​

3. 缓存命中判断​

配置语义缓存​

环境准备​

系统配置​

API 配置示例​

使用效果分析​

性能提升​

成本节省​

缓存命中率优化​

实际应用案例​

案例 1：在线教育平台​

案例 2：企业知识库​

案例 3：代码助手工具​

最佳实践​

1. 阈值设置建议​

2. 缓存过期时间​

3. 监控和调优​

4. 故障处理​

跳过缓存选项​

技术细节​

Embedding 模型选择​

存储优化​

性能调优​

总结​

什么是语义缓存？

传统缓存 vs 语义缓存

工作原理

1. 查询向量化

2. 相似度检索

3. 缓存命中判断

配置语义缓存

环境准备

系统配置

API 配置示例

使用效果分析

性能提升

成本节省

缓存命中率优化

实际应用案例

案例 1：在线教育平台

案例 2：企业知识库

案例 3：代码助手工具

最佳实践

1. 阈值设置建议

2. 缓存过期时间

3. 监控和调优

4. 故障处理

跳过缓存选项

技术细节

Embedding 模型选择

存储优化

性能调优

总结