Model biologi AI terbesar yang pernah ada menulis DNA sesuai permintaan

Jaringan kecerdasan buatan yang dilatih dengan sejumlah besar data sekuens merupakan langkah untuk merancang genom yang sama sekali baru.

SANGIA Daily
Genomes of eukaryotic organisms such as yeast were used to train the Evo-2 model.
Credit: Thomas Deerinck, NCMIR/Science Photo Library

Para ilmuwan hari ini merilis apa yang mereka katakan sebagai model kecerdasan buatan (AI) terbesar yang pernah ada untuk biologi.

Model ini – yang dilatih pada 128.000 genom yang mencakup pohon kehidupan, mulai dari manusia hingga bakteri bersel tunggal dan archaea – dapat menulis seluruh kromosom dan genom kecil dari awal. Model ini juga dapat memahami DNA yang ada, termasuk varian gen ‘non-coding’ yang sulit ditafsirkan yang terkait dengan penyakit.

Evo-2, yang dikembangkan bersama oleh para peneliti di Arc Institute dan Stanford University, keduanya di Palo Alto, California, dan pembuat chip NVIDIA, tersedia bagi para ilmuwan melalui antarmuka web atau mereka dapat mengunduh kode perangkat lunak yang tersedia secara bebas, data, dan parameter lain yang diperlukan untuk mereplikasi model.

Para pengembang melihat Evo-2 sebagai platform yang dapat diadaptasi oleh pihak lain untuk keperluan mereka. “Kami sangat menantikan bagaimana para ilmuwan dan insinyur membangun ‘toko aplikasi’ untuk biologi ini,” kata Patrick Hsu, seorang ahli biologi di Arc Institute dan University of California, Berkeley, dalam sebuah konferensi pers yang mengumumkan peluncuran Evo-2.

Ilmuwan lain terkesan dengan apa yang telah mereka baca tentang model ini – yang dijelaskan dalam makalah yang diposting ke situs web Arc Institute dan dikirimkan ke server pracetak bioRxiv. Namun mereka mengatakan bahwa mereka perlu melakukan uji coba sebelum mengambil kesimpulan.

“Kita harus melihat bagaimana hasilnya dalam tolok ukur independen setelah pracetak keluar,” kata Anshul Kundaje, seorang ahli genomika komputasi di Stanford University di Palo Alto. Sejauh ini, dia terkesan dengan rekayasa yang mendukung model tersebut.

BACA JUGA  Apa saja alat bantu AI terbaik untuk penelitian? Panduan dari Nature

Triliunan huruf

Dalam beberapa tahun terakhir, para peneliti telah mengembangkan ‘model bahasa protein’ yang semakin kuat seperti model ESM-3 yang dikembangkan oleh mantan karyawan Meta yang, setelah melatih jutaan sekuens protein, telah digunakan untuk membantu memprediksi struktur protein dan mendesain protein yang sama sekali baru, termasuk editor gen dan molekul berpendar.

Tidak seperti model-model ini, Evo-2 dilatih pada data genom yang berisi ‘urutan pengkodean’ – yang membawa instruksi untuk membuat protein – dan DNA non-pengkodean yang berisi urutan yang dapat mengontrol kapan, di mana, dan bagaimana gen-gen aktif. Versi pertama Evo yang dirilis tahun lalu dilatih pada genom 80.000 bakteri dan archaea – organisme sederhana yang disebut prokariota – serta virus dan sekuens lainnya.

Model terbaru didasarkan pada 128.000 genom, termasuk genom manusia dan hewan lain, tumbuhan dan organisme eukariotik lainnya. Genom-genom ini mencakup total 9,3 triliun huruf DNA. Berdasarkan daya komputasi yang dibutuhkan untuk melahap data ini dan fitur-fitur lainnya, Evo-2 adalah model AI biologis terbesar yang pernah dirilis, kata Hsu.

Credit: Arc Institute

Dibandingkan dengan prokariota, genom eukariota cenderung lebih panjang dan lebih kompleks: gen terbuat dari segmen-segmen yang diselingi oleh daerah pengkodean dan non-pengkodean, dan ‘DNA pengatur’ non-pengkodean dapat berada jauh dari gen yang dikontrolnya. Untuk menangani kerumitan ini, Evo-2 dibuat agar dapat mempelajari pola dalam urutan DNA sejauh 1 juta pasang basa.

Untuk menunjukkan kemampuannya dalam memahami genom yang kompleks, Hsu dan rekan-rekannya menggunakan Evo-2 untuk memprediksi efek mutasi yang telah dipelajari sebelumnya pada gen yang terlibat dalam kanker payudara yang disebut BRCA1. Hasil yang diperolehnya hampir sama baiknya dengan model bio-AI terbaik dalam menentukan apakah perubahan pada daerah pengkodean akan menyebabkan penyakit, kata Hsu. “Ini adalah hal yang paling canggih untuk mutasi non-kode.” Di masa depan, model ini dapat membantu mengidentifikasi perubahan yang sulit ditafsirkan dalam genom pasien.

BACA JUGA  Bagaimana Tiongkok menciptakan model AI DeepSeek dan mengejutkan dunia

Para peneliti juga menguji kemampuan model untuk menguraikan fitur-fitur lain dari genom yang kompleks – termasuk genom mammoth berbulu. “Evo-2 merupakan langkah penting dalam mempelajari tata bahasa pengaturan DNA,” kata Christina Theodoris, ahli biologi komputasi di Gladstone Institutes di San Francisco, California.

Kundaje mengatakan bahwa Evo-2 tampaknya bagus dalam menemukan urutan pengkodean – dan DNA yang tidak berkode di dekatnya. Namun, masih belum jelas apakah model ini telah mempelajari urutan non-kode yang jauh yang mengatur aktivitas gen.

Urutan awal

Salah satu daya tarik model genom seperti Evo-2 adalah bahwa mereka dapat menghasilkan sekuens DNA baru yang tidak hanya sesuai dengan protein, tetapi juga sekuens non-kode yang bekerja dengannya. Hsu dan rekan-rekannya menggunakan Evo-1 untuk membuat editor gen CRISPR baru, yang mencakup enzim pemotong DNA dan molekul RNA yang mengarahkan protein tersebut ke tempat target. Hal ini terbukti berhasil dalam eksperimen laboratorium.

Mereka juga mencoba merancang genom bakteri dan virus, tetapi tidak memiliki banyak fitur genom yang bonafid. “Kami mengibaratkan ini sebagai gambar genom yang buram,” kata Brian Hie, ahli biologi komputasi di Stanford dan Arc Institute, dalam pengarahan tersebut.

Dengan Evo-2, gambar-gambar ini menjadi tidak terlalu buram. Para peneliti menggunakan model ini untuk membuat genom yang terinspirasi oleh genom Mycoplasma genitalium – bakteri yang merupakan organisme seluler pertama yang genomnya disintesis secara penuh – mitokondria manusia, dan kromosom ragi dengan panjang 330.000 huruf DNA. Ini terlihat lebih realistis daripada genom yang dihasilkan Evo-1 – yang tidak memiliki protein yang masuk akal dalam beberapa kasus – tetapi “masih ada ruang untuk perbaikan,” kata Hie. Tanpa perbaikan lebih lanjut, ia meragukan genom tersebut akan bekerja jika dimasukkan ke dalam sel.

BACA JUGA  Para peneliti membangun 'Ilmuwan AI' - apa yang dapat dilakukannya?

Karena dilatih dengan DNA dari seluruh pohon kehidupan, Evo-2 bisa jadi mahir dalam menerapkan apa yang telah dipelajari dari genom bakteri dan arkea untuk menghasilkan protein manusia yang baru, kata Yunha Wang, ahli biologi komputasi dan kepala eksekutif Tatta Bio, perusahaan nirlaba di New York yang mengembangkan model genom.

Para peneliti berharap dapat memvalidasi Evo-2 dengan eksperimen laboratorium. Sebagai contoh, mereka merancang sekuens yang mengubah aksesibilitas DNA terlipat yang disebut kromatin – fitur yang memengaruhi identitas sel dalam organisme multiseluler – dan berkolaborasi dengan laboratorium lain untuk menguji desain ini pada sel punca embrionik tikus.

Model bahasa protein dan alat bantu AI lainnya untuk desain protein telah mengantarkan pada revolusi desain biologi. Hie dan rekan-rekannya – yang pada akhirnya ingin memodelkan seluruh sel dengan AI – berharap bahwa model genom seperti Evo-2 dapat menggerakkan jarum lebih jauh. “Kami ingin mendorong bidang ini lebih dari sekadar desain protein ke desain genom.”

Advertisements
Advertisements
Advertisements

Tinggalkan Balasan

Advertisements

Eksplorasi konten lain dari SANGIA Daily

Langganan sekarang agar bisa terus membaca dan mendapatkan akses ke semua arsip.

Lanjutkan membaca