Question 1

Czy mogę użyć UltraFeedback komercyjnie?

Accepted Answer

Tak — UltraFeedback jest udostępniony na licencji MIT, liberalnej licencji pozwalającej na użycie komercyjne, w tym trenowanie modeli wdrażanych w produkcie. Przed publikacją sprawdź wymogi atrybucji na karcie zbioru.

Question 2

Ile danych zawiera UltraFeedback i czy potrzebuję wszystkich?

Accepted Answer

UltraFeedback zawiera 64k Rows. Rzadko potrzebujesz całości: do fine-tuningu stylu i formatu wystarcza kilkaset–kilka tysięcy przykładów — załaduj wycinek (np. split="train[:1000]") i zwiększaj skalę tylko, gdy jakość przestaje rosnąć.

Question 3

Do czego UltraFeedback nadaje się najlepiej?

Accepted Answer

The default DPO preference set to run after any SFT pass. Należy do sekcji „Preferencje (RLHF / DPO)" naszego centrum zbiorów danych, gdzie znajdziesz alternatywy i zbiory komplementarne.

Provider	OpenBMB
Category	Preferencje (RLHF / DPO)
Size	64k Rows
License	MIT
Downloads	1.2M
Tags	RLHF, DPO, Alignment

7B QLoRA	~6GB VRAM
13B QLoRA	~10GB VRAM

UltraFeedback — LLM Preferencje (RLHF / DPO) Dataset

Dataset Details

Fine-tuning z tym zbiorem danych

Powiązane zbiory danych

Najczęstsze pytania