learn_about_humanEval
在这里记录一下评估模型代码生成能力常用的Benchmark:humanEval
HumanEval 数据集是 OpenAI 为评估代码生成模型而创建的一个数据集,专门用于测试模型的编程能力。该数据集中一共有164条数据,均以python书写。
数据格式
举例一条数据如下:
1 |
|
在prompt
中,告诉了模型函数名、函数定义和预期输出,entry_point
为函数名,canonical_solution
提供了示例函数,test
为测试用例。
评价指标‘Pass@k’
HumanEval 使用 pass@k 作为主要评估指标,它衡量的是模型生成代码在多次尝试中成功解决问题的概率。具体计算方式如下:
- k = 1:模型只生成一个代码解决方案,评估该方案是否通过所有测试用例。
- k > 1:模型可以生成多个候选代码,评估在这 k 个候选方案中,至少有一个通过所有测试用例的情况。
learn_about_humanEval
https://august6676.github.io/2024/09/18/learn-about-humanEval/