即使以高度能力的 LLM 为核心,生产级的生成型 AI 应用通常在三个主要领域面临挑战:
- 质量
- 控制
- 成本
在实践中,团队必须同时应对这三项挑战,才能在生产环境中运行 Gen AI 应用。
构建生产级的质量
- 不可预知的性能: LLM 可能会产生不一致或意外的结果。 某一天有效的提示可能在第二天失效,如果模型或上下文发生变化。
- 响应准确性和安全性: 开发人员必须确保响应正确且安全。 不正确的输出(幻觉)或有害和冒犯性内容可能会损害用户信任、品牌声誉甚至违反法规。
- 定义“高质量”: 领域专家通常需要贡献其专业知识来评估输出并优化提示逻辑。 此协作需要非技术利益干系人可以使用的工具。
控制数据和模型
- 数据泄露: 如果未强制实施适当的防护措施和清理步骤,敏感的客户或企业数据可能会无意中通过模型输出泄露。
- 治理和所有权: 许多组织已经具有数据管理协议或合规性要求,例如 SOC2 或 HIPAA。 将 LLM 集成到这些框架可能很复杂,尤其是在模型外部托管的情况下。
- 可观察性: Teams 需要跟踪应用程序中的每个请求、响应和中间作,以审核模型决策或排查错误。 如果没有可靠的日志记录和跟踪,很难维护合规性或根本原因问题。
规模化成本
- 成本与质量: 基于 LLM 的解决方案在大规模上可能变得昂贵,尤其是在使用更高级或推理模型时。 Teams 必须在高成本与性能提升之间进行权衡,通常通过采用缓存或专用模型路由来保持在预算内,同时保证质量不受影响。
- 开发人员时间和复杂性: 除了模型推理成本之外,构建可靠的 Gen AI 应用可能非常耗时,尤其是在合并多个组件(如检索器、结构化数据库和第三方 API)时。 最大程度地减少开发人员工作量需要简化的工作流和自动化测试。