Question 1

Czy mogę użyć Smoltalk komercyjnie?

Accepted Answer

Tak — Smoltalk jest udostępniony na licencji Apache 2.0, liberalnej licencji pozwalającej na użycie komercyjne, w tym trenowanie modeli wdrażanych w produkcie. Przed publikacją sprawdź wymogi atrybucji na karcie zbioru.

Question 2

Ile danych zawiera Smoltalk i czy potrzebuję wszystkich?

Accepted Answer

Smoltalk zawiera 1M Rows. Rzadko potrzebujesz całości: do fine-tuningu stylu i formatu wystarcza kilkaset–kilka tysięcy przykładów — załaduj wycinek (np. split="train[:1000]") i zwiększaj skalę tylko, gdy jakość przestaje rosnąć.

Question 3

Do czego Smoltalk nadaje się najlepiej?

Accepted Answer

General SFT for small models (the SmolLM2 recipe). Należy do sekcji „Instrukcje / SFT" naszego centrum zbiorów danych, gdzie znajdziesz alternatywy i zbiory komplementarne.

Provider	HuggingFaceTB
Category	Instrukcje / SFT
Size	1M Rows
License	Apache 2.0
Downloads	600k
Tags	Synthetic, 2025, Small-Models, High-Quality

7B QLoRA	~6GB VRAM
13B QLoRA	~10GB VRAM

Smoltalk — LLM Instrukcje / SFT Dataset

Dataset Details

Fine-tuning z tym zbiorem danych

Powiązane zbiory danych

Najczęstsze pytania