Question 1

SlimPajama 可以商用吗？

Accepted Answer

可以——SlimPajama 采用 Apache 2.0 宽松许可证，允许商业使用，包括训练用于产品的模型。发布前请查看数据集卡片中的署名要求。

Question 2

SlimPajama 有多少数据？需要全部使用吗？

Accepted Answer

SlimPajama 包含 627B Tokens。通常不需要全部：风格和格式微调只需几百到几千条样本——先加载切片（如 split="train[:1000]"），质量到达瓶颈时再扩大规模。

Question 3

SlimPajama 最适合做什么？

Accepted Answer

Efficient English pretraining on a heavily deduplicated corpus。它属于数据集中心的「预训练」板块，那里有替代和互补的数据集。

Provider	Cerebras
Category	预训练
Size	627B Tokens
License	Apache 2.0
Downloads	150k
Tags	English, Deduplicated, CommonCrawl

SlimPajama — LLM 预训练 Dataset

Dataset Details