lesson6_OpenCompass大模型测评

2024-02-21

大模型

966 words

Lecture6 OpenCompass大模型测评

在Lecture6中，主要讲了三个部分：大模型评测的意义，OpenCompass工具介绍和OpenCompass实战。

❓ 为什么要评测

Untitled

❓ 需要测什么

Untitled

Untitled

❓ 如何测评大语言模型

评测分为客观评测和主观评测。

👉 大模型已有评测框架 VS OpenCompass

Untitled

可以支持很多主流模型，对OC的评测流水线进行了设计，OC现在还在对多模态模型的评测进行探索，在垂直领域，如法律领域提供了LawBench，在医疗领域提供了MedBench。

对用户的开发、使用也比较友好。支持对开源模型和API模型进行测试，也支持自定义模型的测试。集成了100多个数据集。测试的时候也进行了推理的优化。支持评测任务的切分，支持高效完成评测。

Untitled

大模型测试框架面临挑战，如测试集数据混入训练集，导致数据污染和准确率虚高。需要开发测试数据污染工具。

在OpenCompass文件夹里，config文件里不同的模型评测设置，指定好数据集和模型，设置好相关的参数就能进行评测

分片操作：同时推理多个模型(SizePartitioner)
其他命令：—reuse（断点续存） —debug（在终端print）

SUMMARY: OpenCompass其实很简单，运行run.py文件就可以对模型进行测评，在命令行中进行指定模型路径等，也可以写一个config文件，在里面指定模型models、数据集datasets。