基于LLM的生成式AI应用架构 (LLM application architectures)

一、构建LLM应用的关键组成部分（LLM应用的技术栈）

基础设施层（Infrastructure Layer）
- 提供计算、存储和网络资源。
- 可选择本地部署或使用按需计费的云服务。
- 支持大模型推理及应用组件的部署。
模型层（Model Layer）
- 包括基础模型（Foundation Models）和任务定制模型（Fine-tuned Models）。
- 部署时需考虑是否需要实时或近实时的推理响应能力。
外部信息检索（External Retrieval）
- 若模型上下文窗口不足，可结合“检索增强生成”（RAG）机制。
- 可从外部数据库、文档或API获取信息来辅助推理。
输出与反馈（Outputs & Feedback）
- 返回生成结果给用户或调用方（如其他系统或API）。
- 可选择性地存储用户会话中的输出，用于上下文增强或后续微调。
- 用户反馈可用于模型的再训练、调优和评估。
工具与框架（LLM工具与开发框架）
- 示例工具：LangChain（支持ReAct、Chain of Thought、RAG等）。
- 可借助模型中心（Model Hub）进行模型管理与共享。
用户界面与安全层（UI & Security）
- 提供交互界面，如网页端或REST API。
- 配置必要的身份验证与访问控制机制，保障数据与用户安全。

推理优化（Inference Optimization）
- 通过模型蒸馏（Distillation）、量化（Quantization）、**剪枝（Pruning）**来减小模型体积，降低计算资源消耗。
结构化提示与外部连接（Structured Prompting & External Connections）
- 使用明确的提示模板（Prompt Templates）提高推理表现。
- 利用外部工具（如Python解释器、数据库）增强模型能力。

RLHF（Reinforcement Learning with Human Feedback）
- 即“人类反馈强化学习”，用于将模型调优为更有用、无害、诚实。
- 越来越多的人类对齐数据集（Alignment Datasets）和奖励模型（Reward Models）可供使用，便于快速启动对齐训练。
- RLHF可有效减少有害输出、提升安全性和可信度。