Verl: Pustaka RL Fleksibel untuk Pelatihan LLM dari ByteDance

Nama: Verl (Volcano Engine Reinforcement Learning)

Website/Sumber Utama: https://github.com/volcengine/verl

Fungsi Utama: Pustaka pelatihan Reinforcement Learning yang fleksibel dan efisien untuk Large Language Models (LLMs).

Tipe: Pustaka Open Source

Cocok Untuk: Peneliti dan pengembang AI yang bekerja dengan LLMs, terutama untuk pelatihan Reinforcement Learning from Human Feedback (RLHF)

Model Harga/Lisensi: Open Source (Apache-2.0) Lihat Detail Lisensi

Highlight Utama: Throughput state-of-the-art dengan integrasi kerangka kerja pelatihan dan inferensi LLM terkini

Apa Itu Verl?

Verl (Volcano Engine Reinforcement Learning) adalah pustaka pelatihan RL (Reinforcement Learning) yang dikembangkan oleh tim ByteDance Seed dan dipertahankan oleh komunitas verl. Verl merupakan versi open-source dari kerangka kerja HybridFlow yang dirancang khusus untuk Large Language Models (LLMs). Pustaka ini menyediakan pendekatan yang fleksibel dan efisien untuk implementasi berbagai algoritma RL dan RLHF (Reinforcement Learning from Human Feedback), memungkinkan peningkatan kemampuan LLM melalui umpan balik pembelajaran penguatan.

Fitur Utama / Andalan

(Disimpulkan dari eksplorasi halaman fitur/dokumentasi)

Ekstensi Algoritma RL yang Fleksibel

Deskripsi: Model pemrograman hybrid-controller yang memungkinkan representasi yang fleksibel dan eksekusi efisien dari aliran data Post-Training yang kompleks.
Manfaat/Contoh: Membangun aliran data RL seperti GRPO, PPO hanya dalam beberapa baris kode.
Info Lebih Lanjut: Pelajari Lebih Lanjut

Integrasi dengan Infrastruktur LLM yang Ada

Deskripsi: API modular yang memisahkan komputasi dan dependensi data.
Manfaat/Contoh: Integrasi mulus dengan kerangka kerja LLM yang ada, seperti FSDP, Megatron-LM, vLLM, SGLang, dll.
Info Lebih Lanjut: Pelajari Lebih Lanjut

Pemetaan Perangkat yang Fleksibel

Deskripsi: Mendukung berbagai penempatan model pada set GPU yang berbeda.
Manfaat/Contoh: Pemanfaatan sumber daya yang efisien dan skalabilitas di berbagai ukuran cluster.
Info Lebih Lanjut: Pelajari Lebih Lanjut

Throughput State-of-the-Art

Deskripsi: Integrasi mesin pelatihan dan inferensi LLM SOTA dan throughput RL SOTA.
Manfaat/Contoh: Kecepatan pelatihan yang lebih tinggi dan penggunaan sumber daya yang lebih efisien.
Info Lebih Lanjut: Pelajari Lebih Lanjut

3D-HybridEngine

Deskripsi: Resharding model aktor yang efisien.
Manfaat/Contoh: Menghilangkan redundansi memori dan secara signifikan mengurangi overhead komunikasi selama transisi antara fase pelatihan dan generasi.
Info Lebih Lanjut: Pelajari Lebih Lanjut

Kelebihan (Pros)

(Disimpulkan dari berbagai halaman)

Dukungan bagi berbagai algoritma RL seperti PPO, GRPO, ReMax, REINFORCE++, RLOO, PRIME, DAPO, DrGRPO, dll.
Kompatibilitas dengan model Hugging Face Transformers dan Modelscope Hub: Qwen-3, Qwen-2.5, Llama3.1, Gemma2, DeepSeek-LLM, dll.
Mendukung model berbasis reward dan reward berbasis fungsi (verifiable reward).
Dukungan untuk model vision-language (VLMs) dan RL multi-modal.
Mendukung Flash attention 2, sequence packing, sequence parallelism melalui DeepSpeed Ulysses, LoRA, Liger-kernel.
Dapat diskalakan hingga model 70B dan ratusan GPU.
Pelacakan eksperimen dengan wandb, swanlab, mlflow dan tensorboard.

Kekurangan (Cons) / Batasan

(Disimpulkan dari eksplorasi)

Beberapa fitur masih dalam pengembangan, seperti diindikasikan dalam roadmap (#710, #708, #1037, #1138, #1172).
Membutuhkan sumber daya komputasi yang relatif besar untuk menjalankan model-model besar.
Perlu pengalaman teknis yang cukup untuk mengkonfigurasi dan mengoptimalkannya secara efektif.

Harga / Lisensi

(Dicari secara aktif dari tautan Pricing/License)

Model: Open Source

Lisensi: Apache-2.0 (Lihat File Lisensi)

Contoh Penerapan & Observasi

(Berdasarkan dokumentasi, blog, use cases, komunitas)

Pelatihan LLM dengan RLHF untuk meningkatkan kemampuan penalaran dan pemecahan masalah
Training LLM Seed-Thinking-v1.5 yang mencapai 86.7 pada AIME 2024, 55.0 pada Codeforces dan 77.3 pada GPQA
Implementasi algoritma VAPO (value-based augmented PPO) untuk model penalaran
Implementasi algoritma DAPO yang mencapai 50 poin pada AIME 2024 berdasarkan model pra-terlatih Qwen2.5-32B
Dokumentasi lengkap di sini
Komunitas aktif di GitHub
Blog dari komunitas yang membahas penggunaan verl seperti ini