开篇
热度
发展趋势
大模型由针对特定任务的专用模型转为通用大模型
从模型到应用的流程
全链条开源体系
细节
- 数据(超2T)
- 文本数据
- 50亿个文档
- 数据量超1TB
- 图像-文本数据集
- 超2200万个文件
- 数据量超140GB
- 视频数据
- 超1000个文件
- 数据量超900GB
- 文本数据
对数据的处理包括:
多模态融合(指包含文本,图像,视频多个模态的数据)
精细化处理(语言筛选、文本提取、格式化标准、基于规则和模型的数据过滤和清洗、多尺度去重和数据质量评估)
价值观对齐(与主流中国价值观对齐)
- 预处理
- 高可扩展
- 支持从8卡到千卡的训练,千卡加速效率达92%
- 极致性能优化
- 兼容主流
- 无缝接入HuggingFace等技术生态,支持各类轻量化技术
- 开箱即用
- 支持多种规格语言模型,修改配置即可训练
- 高可扩展
- 微调
- XTuner,只需要8G的显存就可以训练7B的大模型
评测
- OpenCompass
应用
- 智能体的概念
- 大模型智能体是指基于大型语言模型构建的智能体,具有强大的语言理解和处理能力,可以自动化地完成各种复杂的任务。 大模型智能体的构建需要使用大量的数据和计算资源,同时需要进行精细的模型训练和优化,以实现高性能的智能体。
- 智能体的概念