生成式 AI 项目全流程 (Generative AI Project Lifecycle Cheat Sheet)

黎 浩然/ 25 11 月, 2023/ 大语言模型/LARGELANGUAGEMODEL/LLM, 机器学习/MACHINELEARNING, 研究生/POSTGRADUATE, 计算机/COMPUTER/ 0 comments


1 整体生命周期概览

阶段主要目标典型耗时技术/资源要求何时考虑跳过
A. 预训练 (Pre-training)从零训练大型基础模型数周-数月海量数据 + 大规模算力 + 深厚模型架构经验已有成熟基础模型可用时
B. 提示工程 (Prompt Engineering)仅通过设计提示评估并提升模型表现数小时-数天低~中级 ML & 业务知识总是值得先做
C. 微调 (Fine/Prompt Tuning)用任务数据定制模型1 天-数周PEFT(LoRA、Prefix/Prompt Tuning)或全参微调技术;少量标注数据即可当提示工程仍不达标时
D. 对齐 (RLHF/RLAIF)让模型符合人类偏好与安全原则极快-极慢
  • 现成 Reward Model:数小时
  • 需自建 RM:收集人类反馈→数周-数月 | RL 框架(PPO 等)+ 反馈标注流程 | 若已有合适 RM |
    | E. 部署优化 (推理加速/量化/蒸馏等) | 压缩模型、降低延迟、节省成本 | 数小时-数天 | 硬件兼容性测试 + 性能监控 | 若优化影响精度需回滚 |

2 各阶段要点与实操提示

  1. 预训练
    • 难度最高:需决定模型规模、数据管线、分布式训练策略。
    • 一般项目可跳过:直接从开源或商业基础模型开始。
  2. 提示工程
    • 核心思路:多轮试验、Few-shot / Chain-of-Thought / System Prompt 调整。
    • 低门槛:不改模型权重;适合早期快速验证可行性。
  3. 微调
    • 方法梯度
      1. Prompt Tuning(软提示,极少参数)
      2. LoRA / IA³(对少数权重添加可训练适配器)
      3. 全参数微调(任务极特殊或数据量大时才用)
    • 数据量:往往几百到几千条高质量样本即可显著提升。
    • 预算控制:PEFT 在单张 A100 上数小时即可完成。
  4. 对齐 (RLHF/RLAIF)
    • 现成 Reward Model:首选,可快速迭代。
    • 自训练 Reward Model:需要
      • 设计多样化指令/回答集合
      • 收集人类偏好标注(成对比较)
      • 训练 RM → 再用 PPO/SFT 等对抗训练
    • 耗时变量最大:标注难度与规模决定周期。
  5. 部署优化
    • 常用技术
      • 8/4-bit 量化
      • 知识蒸馏 → 小模型
      • 编译器加速 (TensorRT / TVM)
    • 验证流程:每次压缩都要重新做回归测试,确保业务指标不跌。

3 时间与难度对比(直观梯度)

预训练  ────────────────┐  ↑成本 & 复杂度
微调 (全参) ────────┘
微调 (LoRA/Prompt) ───┐
对齐 (自建 RM) ─────┘
对齐 (现成 RM) ──┐
部署优化 ────────┘
提示工程 ───────┘ ↓成本 & 复杂度

4 策略性建议

  1. 先易后难
    Prompt → PEFT 微调 → 现成 RLHF → (必要时) 自建 RM → 预训练
  2. 数据优先:小而精的指令/标注数据常常比盲目扩充参数更有效。
  3. 预算评估:在每一阶段前量化收益 vs. 资源投入,防止过度优化。
  4. 持续评估:每完成一阶段立即回到业务指标(准确率、响应速度、成本)做 A/B 测试。
Share this Post

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注

*
*