WASM 运行时替换:Wasmtime-Java → Chicory
Issue: #6353 Branch:
fix-6353类型: 重构 (refactor)
Issue: #6353 Branch:
fix-6353类型: 重构 (refactor)
对应 Issue: #3355 分支:
feat-3355-metadata-renew-and-gc
朴素 RAG(索引→检索→生成)的核心问题是"盲目检索"——无论问题是否需要外部知识都检索,无论检索结果质量如何都喂给生成器,无论回答是否可靠都输出。高级 RAG 模式从三个方向突破这一限制:让系统"会判断"(Self-RAG、CRAG、Adaptive RAG)、让系统"会行动"(Agentic RAG)、让知识"有结构"(Graph RAG),而 Modular RAG 提供了统一这些模式的理论框架和工程实现基础。
这些模式并非互斥的竞争关系,而是从不同维度补强 RAG 流水线,实践中组合使用是常态。
论文:Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (Asai et al., ICLR 2024 Oral, arXiv:2310.11511)
本文是对 Your AI Product Needs Evals 的读书笔记,作者 Hamel Husain 是独立顾问,曾领导创建 GitHub CodeSearchNet(GitHub Copilot 的前身)。文中还整合了 Nuvi (Relari) 团队关于评估数据集策略和进阶实践的内容。
不成功的 AI 产品几乎都有一个共同的根源:未能建立健壮的评估系统。
AI 产品的成功取决于迭代速度,而迭代需要三个环节:
很多人只关注第 3 点,忽略前两点,导致产品永远停留在 demo 阶段。
SaaS 产品 Rechat 的 AI 助手 Lucy 就是一个典型:随着功能增加,性能遇到瓶颈——修一个问题导致另一个问题出现(打地鼠),无法系统评估 AI 的有效性,Prompt 变得冗长且难以维护。团队最终通过建立以评估为中心的系统化方法打破瓶颈。
RAG 部分见 RAG
来源:How important is a Golden Dataset for LLM evaluation? — Yi Zhang & Pasquale Antonante, Nuvi (formerly Relari)