lesson1_书生浦语大模型全链路开源体系

468 words

开篇

热度

发展趋势

大模型由针对特定任务的专用模型转为通用大模型

从模型到应用的流程

全链条开源体系

image-20240110210133007

细节

  • 数据(超2T)
    • 文本数据
      • 50亿个文档
      • 数据量超1TB
    • 图像-文本数据集
      • 超2200万个文件
      • 数据量超140GB
    • 视频数据
      • 超1000个文件
      • 数据量超900GB

对数据的处理包括:

多模态融合(指包含文本,图像,视频多个模态的数据)

精细化处理(语言筛选、文本提取、格式化标准、基于规则和模型的数据过滤和清洗、多尺度去重和数据质量评估)

价值观对齐(与主流中国价值观对齐)

  • 预处理
    • 高可扩展
      • 支持从8卡到千卡的训练,千卡加速效率达92%
    • 极致性能优化
    • 兼容主流
      • 无缝接入HuggingFace等技术生态,支持各类轻量化技术
    • 开箱即用
      • 支持多种规格语言模型,修改配置即可训练
  • 微调
    • XTuner,只需要8G的显存就可以训练7B的大模型
  • 评测

    • OpenCompass
  • 应用

    • 智能体的概念
      • 大模型智能体是指基于大型语言模型构建的智能体,具有强大的语言理解和处理能力,可以自动化地完成各种复杂的任务。 大模型智能体的构建需要使用大量的数据和计算资源,同时需要进行精细的模型训练和优化,以实现高性能的智能体。
Comments