Apa saja alat bantu AI terbaik untuk penelitian? Panduan dari Nature

Ada banyak model bahasa besar yang dapat dipilih; beberapa unggul dalam pengkodean, sedangkan yang lain lebih baik untuk mensintesis informasi.

SANGIA Daily
Credit: Lionel Bonaventure/AFP via Getty

Alat kecerdasan buatan (AI) yang baru dan tampaknya lebih mengesankan dirilis hampir setiap minggu, dan para peneliti berbondong-bondong untuk mencobanya. Baik untuk mengedit naskah, menulis kode, atau membuat hipotesis, para peneliti memiliki lebih banyak alat AI yang dapat dipilih daripada sebelumnya.

Setiap model bahasa besar (LLM) cocok untuk tugas yang berbeda. Beberapa tersedia melalui chatbot gratis, sedangkan yang lain menggunakan antarmuka pemrograman aplikasi (API) berbayar yang berarti dapat diintegrasikan dengan perangkat lunak lain. Beberapa juga dapat diunduh, sehingga peneliti dapat membuat model khusus mereka sendiri.

Meskipun LLM menghasilkan respons yang mirip dengan manusia, semuanya tetap terlalu rentan terhadap kesalahan untuk digunakan sendiri, kata Carrie Wright, seorang ilmuwan data di Fred Hutchinson Cancer Center, yang berkantor pusat di Seattle, Washington.

Jadi, LLM mana yang terbaik untuk tugas apa? Di sini, para peneliti berbagi favorit mereka saat ini dengan Nature untuk membantu memandu mereka yang membutuhkan.

o3-mini (sang penalar)

OpenAI, yang berbasis di San Francisco, California, memperkenalkan LLM kepada dunia pada tahun 2022 dengan bot ChatGPT yang dapat digunakan secara gratis. Para ilmuwan terutama menggunakan bot ini untuk mencari informasi atau sebagai asisten penulis, misalnya untuk menyusun abstrak, tetapi model yang lebih baru memperluas potensi penggunaan teknologi ini. September lalu, dalam kemajuan perusahaan yang paling signifikan sejak saat itu, OpenAI memukau para ilmuwan dengan ‘model penalaran’ o1, yang diikuti dengan o3 yang lebih canggih pada bulan Desember. Kedua model penalaran ini bekerja lebih lambat daripada LLM, karena mereka telah dilatih untuk menjawab pertanyaan dengan cara selangkah demi selangkah. Proses ‘rantai pemikiran’ ini, yang bertujuan untuk mensimulasikan penalaran manusia, telah membantu mereka memecahkan tolok ukur yang sulit dalam ilmu pengetahuan dan matematika. Hal ini juga membuat mereka mahir dalam tugas-tugas teknis, seperti memecahkan masalah pengkodean dan memformat ulang data.

Setelah perusahaan rintisan Tiongkok yang kurang dikenal, DeepSeek di Hangzhou, meluncurkan mesin penalaran saingannya pada tanggal 20 Januari lalu, OpenAI merespons dengan berbagai alat baru. Ini termasuk speedy o3-mini – sebuah reasoner yang gratis untuk pengguna chatbot terdaftar – dan ‘penelitian mendalam’, yang memungkinkan beberapa pelanggan yang membayar untuk membuat laporan yang mensintesis informasi, dengan kutipan, dari ratusan situs web, mirip dengan melakukan tinjauan literatur. Model-model ini sangat baik jika digunakan secara bersamaan, kata Andrew White, seorang ahli kimia dan pakar AI di FutureHouse, sebuah perusahaan rintisan di San Francisco.

BACA JUGA  Perusahaan AI harus bersikap adil ketika mereka menggunakan data akademis dalam pelatihan

Dalam hal tugas-tugas seperti memilah-milah konsep yang tidak dikenal dalam pembuktian matematika baru, o3-mini melakukan “pekerjaan yang sangat baik”, kata Simon Frieder, seorang ahli matematika dan peneliti AI di University of Oxford, Inggris. Namun, bahkan model terbaik sekalipun “masih belum bisa menyaingi seorang ahli matematika”, katanya.

DeepSeek (yang serba bisa)

DeepSeek-R1, yang diluncurkan bulan lalu, memiliki kemampuan yang setara dengan o1, tetapi tersedia melalui API dengan biaya yang lebih murah. Model ini juga berbeda dengan model OpenAI karena bersifat terbuka, yang berarti bahwa meskipun data pelatihannya belum dirilis, siapa pun dapat mengunduh model yang mendasarinya dan menyesuaikannya dengan proyek penelitian spesifik mereka. R1 telah “membuka paradigma baru” di mana komunitas, terutama yang memiliki sumber daya yang relatif sedikit, dapat membangun model penalaran khusus, kata White.

Menjalankan model lengkap membutuhkan akses ke chip komputasi yang kuat, yang tidak dimiliki oleh banyak akademisi. Namun, para peneliti seperti Benyou Wang, seorang ilmuwan komputer di Chinese University of Hong Kong, Shenzhen, menciptakan versi yang dapat menjalankan atau melatih pada satu mesin. Seperti o1, keahlian DeepSeek-R1 adalah soal matematika dan menulis kode. Namun, ia juga bagus dalam tugas-tugas seperti membuat hipotesis, kata White. Hal ini karena DeepSeek telah memilih untuk mempublikasikan ‘proses berpikir’ model secara penuh, yang memungkinkan para peneliti untuk lebih menyempurnakan pertanyaan lanjutan mereka dan pada akhirnya meningkatkan keluarannya, katanya. Transparansi seperti itu juga bisa sangat bermanfaat untuk diagnostik medis. Wang mengadaptasi R1 dalam eksperimen yang menggunakan kekuatan seperti penalaran model untuk membangun “jalur yang jelas dan logis dari penilaian pasien hingga diagnosis dan rekomendasi pengobatan”, katanya.

DeepSeek-R1 memiliki beberapa kekurangan. Model ini tampaknya memiliki proses ‘berpikir’ yang sangat panjang, yang memperlambatnya dan membuatnya kurang berguna untuk mencari informasi atau curah pendapat. Kekhawatiran tentang keamanan input data ke dalam API dan chatbotnya telah menyebabkan beberapa pemerintah melarang pekerja di lembaga nasional untuk menggunakan chatbot. DeepSeek juga tampaknya telah mengambil lebih sedikit tindakan untuk mengurangi modelnya yang menghasilkan output berbahaya daripada pesaing komersialnya. Menambahkan filter untuk mencegah keluaran seperti itu – instruksi untuk membuat senjata, misalnya – membutuhkan waktu dan usaha. Meskipun kecil kemungkinannya hal ini dilakukan dengan sengaja, “kurangnya pagar pengaman cukup mengkhawatirkan”, kata Simon.

OpenAI juga menyarankan bahwa DeepSeek mungkin telah “menyaring modelnya secara tidak tepat”, mengacu pada metode untuk melatih model pada keluaran algoritme lain, yang dilarang oleh ketentuan penggunaan OpenAI.

BACA JUGA  Bagaimana Tiongkok menciptakan model AI DeepSeek dan mengejutkan dunia

DeepSeek tidak dapat dihubungi untuk dimintai komentar atas kritik-kritik ini sebelum artikel ini diterbitkan.

Beberapa peneliti melihat penyulingan seperti itu sebagai hal yang lumrah dan dengan senang hati menggunakan R1, tetapi yang lain berhati-hati dalam menggunakan alat yang dapat menjadi subjek litigasi di masa depan. Ada kemungkinan para ilmuwan yang menggunakan R1 dapat dipaksa untuk menarik kembali makalahnya, jika menggunakan model tersebut dianggap melanggar standar etika jurnal, kata Ana Catarina De Alencar, seorang pengacara di EIT Manufacturing di Paris yang berspesialisasi dalam hukum AI. Situasi serupa dapat diterapkan pada penggunaan model oleh OpenAI dan perusahaan lain yang dituduh melakukan pelanggaran hak kekayaan intelektual, kata De Alencar. Organisasi berita mengklaim bahwa perusahaan-perusahaan tersebut menggunakan konten jurnalistik untuk melatih model mereka tanpa izin.

Llama (si pekerja keras)

Llama telah lama menjadi LLM andalan bagi komunitas penelitian. Sebuah keluarga model open-weight yang pertama kali dirilis oleh Meta AI di Menlo Park, California, pada tahun 2023, versi Llama telah diunduh lebih dari 600 juta kali melalui platform sains terbuka Hugging Face saja. Fakta bahwa Llama dapat diunduh dan dikembangkan adalah “mungkin alasan mengapa Llama dirangkul oleh komunitas penelitian”, kata Elizabeth Humphries, seorang ilmuwan data di Fred Hutchinson Cancer Center.

Kemampuan untuk menjalankan LLM di server pribadi atau institusional sangat penting ketika bekerja dengan data yang dipatenkan atau dilindungi, untuk menghindari informasi sensitif yang diumpankan kembali ke pengguna lain atau ke pengembang, kata Wright.

Para peneliti telah membangun model Llama untuk membuat LLM yang memprediksi struktur kristal material, serta untuk mensimulasikan keluaran komputer kuantum. Tianlong Chen, seorang ilmuwan pembelajaran mesin di University of North Carolina di Chapel Hill, mengatakan bahwa Llama sangat cocok untuk mensimulasikan komputer kuantum karena relatif mudah untuk mengadaptasinya untuk memahami bahasa kuantum khusus.

Tetapi Llama mengharuskan pengguna untuk meminta izin untuk mengaksesnya, yang merupakan titik gesekan kecil bagi sebagian orang, kata White. Akibatnya, model terbuka lainnya seperti OLMo, yang dikembangkan oleh Allen Institute for Artificial Intelligence di Seattle, atau Qwen, yang dibangun oleh perusahaan Cina Alibaba Cloud, yang berbasis di Hangzhou, sekarang sering menjadi pilihan pertama dalam penelitian, tambahnya. Model V3 DeepSeek yang efisien dan mendasari model V3 juga merupakan basis saingan untuk membangun model ilmiah.

Claude (sang pembuat kode)

Di Silicon Valley, banyak orang bersumpah untuk menggunakan Claude 3.5 Sonnet untuk menulis kode, kata Simon. Dibuat oleh perusahaan AI yang berbasis di San Francisco, Anthropic, Claude 3.5 Soneta juga dapat menginterpretasikan informasi visual, seperti bagan dan grafik, di samping teks. Selain itu, ia memiliki mode yang memungkinkannya untuk mengoperasikan komputer pengguna dari jarak jauh, yang berpotensi memungkinkannya untuk mengontrol perangkat lunak lain.

BACA JUGA  Para peneliti membangun 'Ilmuwan AI' - apa yang dapat dilakukannya?

Model Claude juga mendapat pujian untuk gaya penulisan mereka. Ketika beberapa LLM, seperti ChatGPT, menghilangkan bahasa teknis, mereka juga dapat menghilangkan makna yang penting, kata Wright. Model Claude lebih baik dalam menghaluskan tulisan sambil mempertahankan arti aslinya. Hal ini dapat menjadi nilai tambah ketika menggunakan model ini untuk memulai proposal hibah atau untuk membuat anotasi penjelasan pada kode, katanya.

Claude 3.5 Soneta berkinerja baik dalam tantangan pengkodean dalam tes tolok ukur berdasarkan tugas-tugas ilmiah berbasis data, yang diambil dari makalah nyata di berbagai bidang seperti bioinformatika dan kimia komputasi, kata Huan Sun, seorang peneliti AI di Ohio State University di Columbus. Meskipun Claude 3.5 Soneta gratis untuk digunakan sebagai chatbot online, seperti model OpenAI, para peneliti hanya bisa mendapatkan integrasi penuh dengan mengaksesnya melalui API berbayar. “Dengan model open-source yang lebih murah dan semakin kuat, saya yakin orang-orang akan lebih memilihnya daripada API close-source,” kata Sun.

Olmo (yang benar-benar terbuka)

Para peneliti yang ingin memahami apa yang terjadi di balik layar LLM akan membutuhkan sesuatu yang lebih transparan daripada model yang ditawarkan oleh Llama dan DeepSeek. Model sumber terbuka, bukan hanya model terbuka, dilengkapi dengan data pelatihan algoritme, serta kode yang digunakan untuk melatih dan mengevaluasi model, kata Lewis Tunstall, seorang peneliti di Hugging Face. Saat ini, model dengan performa terbaik dari jenis ini adalah OLMo 2.

Mempelajari model-model tersebut memungkinkan para peneliti untuk melacak sumber-sumber bias dalam LLM kembali ke data pelatihannya, serta meningkatkan efisiensi dengan lebih memahami bagaimana algoritma tersebut menghasilkan outputnya. Saat ini, kelemahan utama dari model terbuka adalah bahwa para peneliti biasanya membutuhkan keahlian untuk menjalankannya, tetapi dengan semakin banyaknya kursus gratis dan langsung yang disediakan untuk komunitas, “penghalang untuk masuk semakin rendah setiap hari”, kata Tunstall.

Dia mencatat bahwa jika pengadilan menganggap ilegal untuk melatih AI pada konten berhak cipta, model yang dilatih pada kumpulan data ‘permisif’ yang memungkinkan penggunaan ulang dan modifikasi, seperti upaya yang dipimpin oleh Hugging Face untuk membuat ulang DeepSeek-R1, mungkin satu-satunya yang aman untuk digunakan.

Advertisements
Advertisements
Advertisements

Tinggalkan Balasan

Advertisements

Eksplorasi konten lain dari SANGIA Daily

Langganan sekarang agar bisa terus membaca dan mendapatkan akses ke semua arsip.

Lanjutkan membaca