Bagaimana Tiongkok menciptakan model AI DeepSeek dan mengejutkan dunia

Kebijakan pemerintah, pendanaan yang besar, dan jalur lulusan AI telah membantu perusahaan-perusahaan Tiongkok menciptakan LLM yang canggih.

SANGIA Daily
Model bahasa besar DeepSeek-R1 dapat melakukan beberapa tugas pada tingkat yang menyaingi model yang dibuat oleh OpenAI, pengembang chatbot ChatGPT
Credit: Nicolas Tucat/AFP via Getty

Perusahaan rintisan teknologi asal Tiongkok, DeepSeek, telah menggemparkan dunia teknologi dengan merilis dua model bahasa besar (LLM) yang menyaingi kinerja alat dominan yang dikembangkan oleh raksasa teknologi AS – tetapi dibuat dengan biaya dan daya komputasi yang lebih rendah.

Pada tanggal 20 Januari, perusahaan yang berbasis di Hangzhou ini merilis DeepSeek-R1, sebuah model ‘penalaran’ open-source yang dapat menyelesaikan beberapa masalah ilmiah dengan standar yang sama dengan o1, LLM tercanggih dari OpenAI, yang diluncurkan oleh perusahaan yang bermarkas di San Fransisco, California ini pada akhir tahun lalu. Dan awal minggu ini, DeepSeek meluncurkan model lain, yang disebut Janus-Pro-7B. LLM ini dapat menghasilkan gambar dari perintah teks, sama seperti DALL-E 3 dan Stable Diffusion milik OpenAI, yang dibuat oleh Stability AI di London.

Jika kinerja DeepSeek-R1 mengejutkan banyak orang di luar Tiongkok, para peneliti di dalam negeri mengatakan bahwa kesuksesan perusahaan rintisan ini sudah bisa diduga dan sesuai dengan ambisi pemerintah untuk menjadi pemimpin global dalam bidang kecerdasan buatan (artificial intelligence/AI).

Tidak dapat dipungkiri bahwa perusahaan seperti DeepSeek akan muncul di Tiongkok, mengingat investasi modal ventura yang sangat besar di perusahaan-perusahaan yang mengembangkan LLM dan banyaknya orang yang memiliki gelar doktor di bidang sains, teknologi, teknik, atau matematika, termasuk AI, ujar Yunji Chen, seorang ilmuwan komputer yang bekerja pada chip AI di Institut Teknologi Komputasi Akademi Ilmu Pengetahuan Tiongkok di Beijing. “Jika tidak ada DeepSeek, akan ada beberapa LLM Tiongkok lainnya yang bisa melakukan hal-hal hebat.”

Faktanya, memang ada. Pada tanggal 29 Januari, raksasa teknologi Alibaba merilis LLM tercanggihnya sejauh ini, Qwen2.5-Max, yang menurut perusahaan tersebut mengungguli V3 DeepSeek, LLM lain yang dirilis perusahaan tersebut pada bulan Desember. Dan minggu lalu, Moonshot AI dan ByteDance merilis model penalaran baru, Kimi 1.5 dan 1.5-pro, yang diklaim oleh kedua perusahaan tersebut dapat mengungguli o1 dalam beberapa tes benchmark.

BACA JUGA  Perusahaan AI harus bersikap adil ketika mereka menggunakan data akademis dalam pelatihan

Prioritas pemerintah

Pada tahun 2017, pemerintah Tiongkok mengumumkan niatnya untuk menjadi pemimpin dunia dalam bidang AI pada tahun 2030. Pemerintah menugaskan industri untuk menyelesaikan terobosan besar AI “sehingga teknologi dan aplikasi mencapai tingkat terdepan di dunia” pada tahun 2025.

Mengembangkan ‘talenta AI’ menjadi prioritas. Pada tahun 2022, kementerian pendidikan Tiongkok telah menyetujui 440 universitas untuk menawarkan gelar sarjana yang berspesialisasi dalam AI, menurut laporan dari Center for Security and Emerging Technology (CSET) di Georgetown University di Washington DC. Pada tahun itu, Tiongkok memasok hampir setengah dari peneliti AI terkemuka di dunia, sedangkan Amerika Serikat hanya menyumbang 18%, menurut lembaga pemikir MacroPolo di Chicago, Illinois.

DeepSeek mungkin diuntungkan oleh investasi pemerintah dalam pendidikan AI dan pengembangan bakat, yang mencakup banyak beasiswa, hibah penelitian, dan kemitraan antara akademisi dan industri, kata Marina Zhang, seorang peneliti kebijakan sains di University of Technology Sydney, Australia, yang berfokus pada inovasi di Tiongkok. Sebagai contoh, ia menambahkan, inisiatif yang didukung oleh pemerintah seperti Laboratorium Teknik Nasional untuk Teknologi dan Aplikasi Pembelajaran Mendalam, yang dipimpin oleh perusahaan teknologi Baidu di Beijing, telah melatih ribuan spesialis AI.

Angka pasti tentang tenaga kerja DeepSeek sulit ditemukan, tetapi pendiri perusahaan Liang Wenfeng mengatakan kepada media Tiongkok bahwa perusahaan telah merekrut lulusan dan mahasiswa doktoral dari universitas-universitas ternama di Tiongkok. Beberapa anggota tim kepemimpinan perusahaan berusia di bawah 35 tahun dan tumbuh besar menyaksikan kebangkitan Tiongkok sebagai negara adidaya teknologi, kata Zhang. “Mereka sangat termotivasi oleh dorongan untuk mandiri dalam inovasi.”

Wenfeng, di usia 39 tahun, adalah seorang wirausahawan muda dan lulusan ilmu komputer dari Universitas Zhejiang, sebuah institusi terkemuka di Hangzhou. Dia ikut mendirikan hedge fund High-Flyer hampir satu dekade yang lalu dan mendirikan DeepSeek pada tahun 2023.

BACA JUGA  Tujuh teknologi yang perlu menjadi perhatian pada tahun 2024

Jacob Feldgoise, yang mempelajari talenta AI di Tiongkok di CSET, mengatakan bahwa kebijakan nasional yang mendorong ekosistem pengembangan model untuk AI akan membantu perusahaan seperti DeepSeek, dalam hal menarik pendanaan dan talenta.

Namun, terlepas dari peningkatan kursus AI di universitas, Feldgoise mengatakan bahwa tidak jelas berapa banyak siswa yang lulus dengan gelar khusus AI dan apakah mereka diajari keterampilan yang dibutuhkan perusahaan. Perusahaan-perusahaan AI di Tiongkok telah mengeluh dalam beberapa tahun terakhir bahwa “lulusan dari program-program ini tidak sesuai dengan kualitas yang mereka harapkan”, katanya, yang membuat beberapa perusahaan memilih untuk bermitra dengan universitas.

‘Efisiensi di bawah kendala’

Mungkin elemen yang paling mengesankan dari kesuksesan DeepSeek, menurut para ilmuwan, adalah bahwa perusahaan ini mengembangkan DeepSeek-R1 dan Janus-Pro-7B di tengah-tengah kontrol ekspor pemerintah AS, yang telah memblokir akses Tiongkok ke chip komputasi AI yang canggih sejak tahun 2022.

Zhang mengatakan bahwa kepemimpinan DeepSeek mewujudkan pendekatan khas Tiongkok terhadap inovasi, yang menekankan efisiensi di bawah keterbatasan. Namun, perusahaan belum mengungkapkan rincian spesifik tentang berapa banyak perangkat keras yang digunakannya, tambahnya.

DeepSeek mengatakan bahwa mereka menggunakan sekitar 2.000 chip H800 yang dibuat oleh pembuat chip AS, Nvidia, untuk melatih DeepSeek-V3, model yang dirilis pada bulan Desember1 yang mengungguli LLM GPT-4o dari OpenAI, yang diluncurkan pada bulan Mei tahun lalu, dalam pengujian benchmark. Sebaliknya, Llama 3.1 405B, LLM canggih yang dirilis pada bulan Juli dari Meta di Menlo Park, California, mengandalkan lebih dari 16.000 chip Nvidia H100 yang lebih canggih. Dalam sebuah postingan tahun 2022 di platform media sosial WeChat, High-Flyer mengatakan bahwa mereka memiliki 10.000 chip A100 Nvidia yang lebih tua, yang mungkin dapat diakses oleh DeepSeek. Penggunaan chip yang kurang bertenaga oleh DeepSeek mungkin membuat modelnya lebih murah untuk dibuat. “Masalah yang kami hadapi bukanlah uang, tetapi larangan terhadap chip kelas atas,” kata Wenfeng kepada media Tiongkok pada bulan Juli.

BACA JUGA  AI mempersulit plagiarisme. Bagaimana seharusnya para ilmuwan menanggapinya?

DeepSeek menggunakan berbagai pendekatan untuk meningkatkan efisiensi modelnya. Misalnya, perusahaan ini menggunakan arsitektur ‘campuran para ahli’, sebuah metode pembelajaran mesin yang melatih model lebih cepat daripada teknik konvensional, dan dengan parameter yang lebih sedikit. Hal ini memungkinkan perusahaan untuk melatih model dengan lebih sedikit chip, kata Chang Xu, seorang ilmuwan komputer di University of Sydney. Metode ini juga menggunakan versi inovatif dari teknik lain, yang disebut multi-head latent attention, yang memungkinkan model menyimpan lebih banyak data dengan lebih sedikit memori.

Minggu ini, laporan media menunjukkan bahwa OpenAI sedang meninjau klaim bahwa DeepSeek melatih modelnya menggunakan output dari model OpenAI. (OpenAI sedang dituntut atas pelanggaran hak kekayaan intelektual oleh organisasi berita). DeepSeek belum menanggapi klaim tersebut. Bahkan jika benar, hal itu “sama sekali tidak akan mengurangi” pencapaian DeepSeek dalam menciptakan R1, kata Lewis Tunstall, seorang peneliti di platform ilmu pengetahuan terbuka Hugging Face, yang berbasis di Bern. Kemajuan mereka adalah menggunakan pendekatan pembelajaran untuk menanamkan kemampuan ‘penalaran’ ke dalam LLM, yang telah direproduksi oleh eksperimen, katanya. Hugging Face memimpin sebuah proyek untuk mencoba menciptakan kembali R1 dari awal. “Saya berharap kami akan belajar dengan cepat apakah data sintetis dari OpenAI benar-benar dibutuhkan atau tidak,” katanya.

Pencapaian DeepSeek dapat menawarkan cetak biru bagi negara-negara yang memiliki ambisi AI tetapi tidak memiliki sumber daya keuangan dan perangkat keras untuk melatih LLM secara besar-besaran menggunakan pendekatan standar Silicon Valley, kata Yanbo Wang, seorang peneliti kebijakan sains yang berfokus pada inovasi di Universitas Hong Kong. “Hal ini dapat mengundang terciptanya sejumlah besar model baru,” katanya.

Advertisements
Advertisements
Advertisements

Tinggalkan Balasan

Advertisements

Eksplorasi konten lain dari SANGIA Daily

Langganan sekarang agar bisa terus membaca dan mendapatkan akses ke semua arsip.

Lanjutkan membaca