Nama: Evo 2
Website/Sumber Utama: https://github.com/ArcInstitute/evo2
Fungsi Utama: Model bahasa DNA canggih untuk pemodelan dan desain genom di seluruh domain kehidupan
Tipe: Proyek Open Source, Model Kecerdasan Buatan
Cocok Untuk: Peneliti biologi, ilmuwan genomik, ahli bioinformatika, pengembang AI untuk biomolekular
Model Harga/Lisensi: Open Source Lihat Detail Lisensi
Highlight Utama: Kemampuan memproses konteks DNA hingga 1 juta pasangan basa dengan resolusi nukleotida tunggal
Apa Itu Evo 2?
Evo 2 adalah model fondasi biologis yang dikembangkan oleh Arc Institute dan kolaborator dari berbagai institusi termasuk Stanford dan NVIDIA. Model ini dilatih pada 9,3 triliun pasangan basa DNA dari atlas genomik yang mencakup semua domain kehidupan. Evo 2 mampu memodelkan urutan DNA dengan resolusi nukleotida tunggal pada konteks hingga 1 juta pasangan basa menggunakan arsitektur StripedHyena 2. Model ini bertujuan untuk memperdalam pemahaman tentang kompleksitas yang dikodekan dalam genom dan membantu dalam desain sistem biologis baru.
Fitur Utama / Andalan
(Disimpulkan dari eksplorasi halaman fitur/dokumentasi)
Pemodelan Konteks Panjang
- Deskripsi: Kemampuan memodelkan urutan DNA hingga 1 juta token (pasangan basa) dengan resolusi nukleotida tunggal.
- Manfaat/Contoh: Memungkinkan analisis genom skala besar dan pemahaman konteks biologis yang kompleks dalam satu proses inferensi.
- Info Lebih Lanjut: Pelajari Lebih Lanjut
Prediksi Dampak Variasi Genetik
- Deskripsi: Kemampuan memprediksi dampak fungsional dari variasi genetik tanpa fine-tuning spesifik.
- Manfaat/Contoh: Dapat memprediksi mutasi patogenik non-coding hingga varian BRCA1 yang signifikan secara klinis, yang berguna untuk penelitian biomedis dan diagnosis.
- Info Lebih Lanjut: Pelajari Lebih Lanjut
Generasi Sekuens DNA
- Deskripsi: Kemampuan menghasilkan sekuens DNA mitokondria, prokariota, dan eukariota dalam skala genom.
- Manfaat/Contoh: Memungkinkan pembuatan sekuens DNA baru dengan kealamian dan koherensi yang lebih tinggi dibandingkan metode sebelumnya, berguna untuk desain biologis.
- Info Lebih Lanjut: Pelajari Lebih Lanjut
Embedding DNA
- Deskripsi: Kemampuan membuat representasi vektor (embedding) dari sekuens DNA untuk analisis lanjutan.
- Manfaat/Contoh: Memungkinkan peneliti menggunakan representasi vektor ini untuk tugas pembelajaran mesin lainnya seperti klasifikasi sekuens atau analisis perbandingan.
- Info Lebih Lanjut: Pelajari Lebih Lanjut
Kelebihan (Pros)
(Disimpulkan dari berbagai halaman)
- Jendela konteks yang sangat panjang (1 juta token) memungkinkan analisis sekuens DNA yang kompleks
- Tersedia dalam beberapa ukuran model (1B, 7B, dan 40B parameter) untuk kebutuhan komputasi yang berbeda
- Kemampuan mempelajari fitur biologis secara otonom, termasuk batas ekson-intron, situs pengikatan faktor transkripsi, elemen struktur protein, dan wilayah genom profage
- Sepenuhnya open source, termasuk parameter model, kode pelatihan, kode inferensi, dan dataset OpenGenome2
- Dukungan dari NVIDIA dengan layanan API yang dihosting dan integrasi dengan NIM untuk deployment mudah
Kekurangan (Cons) / Batasan
(Disimpulkan dari eksplorasi)
- Membutuhkan GPU H100 (atau GPU lain dengan kemampuan komputasi ≥8.9) untuk beberapa lapisan yang menggunakan Transformer Engine FP8
- Pemrosesan sekuens panjang saat ini masih lambat dan sedang dalam optimasi
- Membutuhkan Python ≥3.11, yang mungkin membatasi kompatibilitas dengan beberapa sistem yang ada
- Untuk model 40B, dibutuhkan beberapa GPU untuk menjalankannya
Harga / Lisensi
(Dicari secara aktif dari tautan Pricing/License)
Model: Open Source
Tingkatan Utama:
- Model Open Source: Tersedia gratis untuk diunduh dan digunakan
- Layanan NVIDIA Hosted API: Tersedia untuk akses tanpa instalasi lokal (mungkin ada biaya)
Link Halaman Harga/Lisensi: Lihat Detail Lisensi di Sini
Lisensi: Tidak dinyatakan secara eksplisit, kemungkinan Apache 2.0 (seperti dataset)
(Detail lisensi lengkap tidak ditemukan secara jelas dari eksplorasi saat ini.)
Contoh Penerapan & Observasi
(Berdasarkan dokumentasi, blog, use cases, komunitas)
- Prediksi efek varian BRCA1 secara zero-shot, berguna untuk penelitian kanker lihat notebook
- Generasi sekuens DNA berdasarkan prompt, berguna untuk desain DNA sintetis lihat notebook
- Integrasi dengan BioNeMo NVIDIA untuk fine-tuning dan deployment model lihat dokumentasi
- Penemuan obat yang dipercepat dan aplikasi dalam biologi sintetis lihat deskripsi model
- Membantu ilmuwan memahami dan merancang sistem biologis kompleks untuk kemajuan di berbagai bidang biomedis baca lebih lanjut
Tanggapan (0 )