Question 1

Stanford Alpaca 可以商用吗？

Accepted Answer

不能用于产品——Stanford Alpaca 采用 CC-BY-NC 4.0，仅限研究等非商业用途。商业微调请改用同类别中宽松许可的数据集。

Question 2

Stanford Alpaca 有多少数据？需要全部使用吗？

Accepted Answer

Stanford Alpaca 包含 52k Rows。通常不需要全部：风格和格式微调只需几百到几千条样本——先加载切片（如 split="train[:1000]"），质量到达瓶颈时再扩大规模。

Question 3

Stanford Alpaca 最适合做什么？

Accepted Answer

Learning the classic instruction format; research only (CC BY-NC)。它属于数据集中心的「指令 / SFT」板块，那里有替代和互补的数据集。

Provider	tatsu-lab
Category	指令 / SFT
Size	52k Rows
License	CC-BY-NC 4.0
Downloads	4.5M
Tags	Self-Instruct, GPT-3, Foundational, General

7B QLoRA	~6GB VRAM
13B QLoRA	~10GB VRAM

Stanford Alpaca — LLM 指令 / SFT Dataset

Dataset Details