Question 1

MT-Bench 可以商用吗？

Accepted Answer

可以——MT-Bench 采用 Apache 2.0 宽松许可证，允许商业使用，包括训练用于产品的模型。发布前请查看数据集卡片中的署名要求。

Question 2

MT-Bench 有多少数据？需要全部使用吗？

Accepted Answer

MT-Bench 包含 80 Questions。它是评估基准，用于完整地衡量模型——切勿混入训练数据，否则基准分数将失去意义。

Question 3

MT-Bench 最适合做什么？

Accepted Answer

Judging multi-turn chat quality with LLM-as-judge。它属于数据集中心的「评估与基准测试」板块，那里有替代和互补的数据集。

Provider	lmsys
Category	评估与基准测试
Size	80 Questions
License	Apache 2.0
Downloads	900k
Tags	Benchmark, Multi-Turn, LLM-Judge, GPT-4, Chatbot-Arena

MT-Bench — LLM 评估与基准测试 Dataset

Dataset Details