Question 1

Czy mogę użyć FineWeb komercyjnie?

Accepted Answer

Tak — FineWeb jest udostępniony na licencji ODC-By 1.0, liberalnej licencji pozwalającej na użycie komercyjne, w tym trenowanie modeli wdrażanych w produkcie. Przed publikacją sprawdź wymogi atrybucji na karcie zbioru.

Question 2

Ile danych zawiera FineWeb i czy potrzebuję wszystkich?

Accepted Answer

FineWeb zawiera 15 TB. Rzadko potrzebujesz całości: do fine-tuningu stylu i formatu wystarcza kilkaset–kilka tysięcy przykładów — załaduj wycinek (np. split="train[:1000]") i zwiększaj skalę tylko, gdy jakość przestaje rosnąć.

Question 3

Do czego FineWeb nadaje się najlepiej?

Accepted Answer

Pretraining or continued pretraining on high-quality English web text. Należy do sekcji „Pretrening" naszego centrum zbiorów danych, gdzie znajdziesz alternatywy i zbiory komplementarne.

Provider	HuggingFaceFW
Category	Pretrening
Size	15 TB
License	ODC-By 1.0
Downloads	2.5M
Tags	Web, English, Cleaned, CommonCrawl

FineWeb — LLM Pretrening Dataset

Dataset Details

Powiązane zbiory danych

Najczęstsze pytania