Perusahaan AI harus bersikap adil ketika mereka menggunakan data akademis dalam pelatihan

Para peneliti termasuk di antara mereka yang merasa tidak nyaman dengan penggunaan kekayaan intelektual mereka yang tidak terkendali dalam melatih model bahasa komersial yang besar. Perusahaan dan regulator perlu menyepakati aturan keterlibatan.

SANGIA Daily
The definition of copyright in an age of artificial-intelligence tools is an open question, both legally and morally.
The definition of copyright in an age of artificial-intelligence tools is an open question, both legally and morally.
Credit: Getty

Tidak ada yang tahu pasti apa yang dilatih oleh ChatGPT – produk kecerdasan buatan yang paling terkenal – dan alat serupa. Tetapi jutaan makalah akademis yang diambil dari web adalah salah satu dari rim data yang telah dimasukkan ke dalam model bahasa besar (LLM) yang menghasilkan teks, dan algoritme serupa yang menghasilkan gambar (lihat Nature 632, 715-716; 2024). Haruskah pencipta data pelatihan semacam itu mendapatkan penghargaan – dan jika ya, bagaimana caranya? Ada kebutuhan mendesak untuk kejelasan yang lebih baik mengenai batas-batas penggunaan yang dapat diterima.

Hanya sedikit LLM – bahkan yang digambarkan sebagai ‘terbuka’ – yang memiliki pengembang yang berterus terang tentang data mana yang digunakan untuk pelatihan. Namun, teks yang kaya informasi dan berbentuk panjang, sebuah kategori yang mencakup banyak karya ilmiah, sangat berharga. Menurut investigasi yang dilakukan oleh The Washington Post dan Allen Institute for Artificial Intelligence di Seattle, Washington, materi dari keluarga jurnal akses terbuka PLOS dan Frontiers muncul secara mencolok dalam kumpulan data yang disebut C4, yang telah digunakan untuk melatih LLM seperti Llama, yang dibuat oleh perusahaan teknologi raksasa Meta. Juga diduga secara luas bahwa, seperti halnya buku-buku yang memiliki hak cipta telah digunakan untuk melatih LLM, demikian pula dengan makalah-makalah penelitian yang tidak memiliki akses terbuka.

Satu pertanyaan mendasar adalah mengenai apa yang diperbolehkan menurut hukum yang berlaku saat ini. Organisasi Kekayaan Intelektual Dunia (WIPO), yang berbasis di Jenewa, Swiss, mengatakan bahwa masih belum jelas apakah mengumpulkan data atau menggunakannya untuk membuat hasil LLM dianggap sebagai pelanggaran hak cipta, atau apakah aktivitas ini termasuk dalam salah satu dari beberapa pengecualian, yang berbeda menurut yurisdiksi. Beberapa penerbit mencari kejelasan di pengadilan: dalam kasus yang sedang berlangsung, The New York Times menuduh bahwa perusahaan teknologi Microsoft dan OpenAI – perusahaan yang mengembangkan ChatGPT – menyalin artikelnya untuk melatih LLM mereka. Untuk menghindari risiko litigasi, lebih banyak perusahaan AI sekarang, seperti yang direkomendasikan oleh WIPO, membeli lisensi dari pemegang hak cipta untuk data pelatihan. Pemilik konten juga menggunakan kode di situs web mereka yang memberi tahu alat penggalian data untuk LLM apakah mereka diizinkan untuk melakukannya.

BACA JUGA  Tujuh teknologi yang perlu menjadi perhatian pada tahun 2024

Hal-hal menjadi lebih kabur ketika materi dipublikasikan di bawah lisensi yang mendorong distribusi dan penggunaan ulang secara bebas, tetapi masih memiliki batasan tertentu. Creative Commons, sebuah organisasi nirlaba di Mountain View, California, yang bertujuan untuk meningkatkan pembagian karya kreatif, mengatakan bahwa menyalin materi untuk melatih AI secara umum tidak boleh dianggap sebagai pelanggaran. Namun, organisasi ini juga mengakui adanya kekhawatiran mengenai dampak AI terhadap para pencipta, dan bagaimana memastikan bahwa AI yang dilatih dengan ‘the commons’ – materi yang tersedia secara bebas – memberikan kontribusi kepada masyarakat umum sebagai gantinya.

Pertanyaan-pertanyaan yang lebih luas tentang keadilan ini sangat mendesak bagi para seniman, penulis, dan pembuat kode, yang mata pencahariannya bergantung pada hasil kreatif mereka dan yang karyanya berisiko digantikan oleh produk AI generatif. Namun, pertanyaan-pertanyaan tersebut juga sangat relevan bagi para peneliti. Pergerakan menuju penerbitan akses terbuka secara eksplisit mendukung distribusi dan penggunaan kembali karya ilmiah secara gratis – dan ini mungkin juga berlaku untuk LLM. Belajar dari karya ilmiah dapat membuat LLM menjadi lebih baik, dan beberapa peneliti mungkin akan senang jika model AI yang lebih baik dapat membantu mereka mendapatkan wawasan baru.

BACA JUGA  AI mempersulit plagiarisme. Bagaimana seharusnya para ilmuwan menanggapinya?

Kredit yang telah jatuh tempo

Namun, ada juga yang mengkhawatirkan prinsip-prinsip seperti atribusi, mata uang yang digunakan dalam ilmu pengetahuan. Atribusi yang adil adalah syarat penggunaan ulang di bawah CC BY, lisensi hak cipta akses terbuka yang umum digunakan. Di yurisdiksi seperti Uni Eropa dan Jepang, ada pengecualian terhadap aturan hak cipta yang mencakup faktor-faktor seperti atribusi – untuk penggalian teks dan data dalam penelitian yang menggunakan analisis sumber otomatis untuk menemukan pola, misalnya. Beberapa ilmuwan melihat penggalian data LLM untuk LLM berpemilik sebagai hal yang melampaui apa yang dimaksudkan untuk dicapai oleh pengecualian ini.

Bagaimanapun, atribusi tidak mungkin dilakukan ketika LLM komersial yang besar menggunakan jutaan sumber untuk menghasilkan keluaran tertentu. Namun, ketika pengembang membuat alat AI untuk digunakan dalam sains, sebuah metode yang dikenal sebagai retrieval-augmented generation dapat membantu. Teknik ini tidak memberikan kredit pada data yang melatih LLM, tetapi memungkinkan model untuk mengutip makalah yang relevan dengan keluarannya, kata Lucy Lu Wang, seorang peneliti AI di University of Washington di Seattle.

Memberikan para peneliti kemampuan untuk tidak menggunakan karya mereka dalam pelatihan LLM juga dapat meringankan kekhawatiran mereka. Para pencipta memiliki hak ini di bawah hukum Uni Eropa, tetapi sulit untuk ditegakkan dalam praktiknya, kata Yaniv Benhamou, yang mempelajari hukum digital dan hak cipta di Universitas Jenewa. Perusahaan-perusahaan merancang cara-cara inovatif untuk membuatnya lebih mudah. Spawning, sebuah perusahaan rintisan di Minneapolis, Minnesota, telah mengembangkan alat yang memungkinkan para pencipta untuk tidak ikut serta dalam pengikisan data. Beberapa pengembang juga ikut bergabung: Alat Media Manager OpenAI, misalnya, memungkinkan kreator untuk menentukan bagaimana karya mereka dapat digunakan oleh algoritme pembelajaran mesin.

BACA JUGA  Ilmu yang tidak pernah dikutip

Transparansi yang lebih besar juga dapat berperan. Undang-Undang AI Uni Eropa, yang mulai berlaku pada tanggal 1 Agustus, mengharuskan para pengembang untuk mempublikasikan ringkasan karya yang digunakan untuk melatih model AI mereka. Hal ini dapat meningkatkan kemampuan para kreator untuk memilih keluar, dan dapat menjadi contoh bagi yurisdiksi lain. Namun, masih harus dilihat bagaimana hal ini akan bekerja dalam praktiknya.

Sementara itu, penelitian harus terus dilakukan untuk mengetahui apakah ada kebutuhan akan solusi yang lebih radikal, seperti jenis lisensi baru atau perubahan pada undang-undang hak cipta. Alat-alat AI generatif menggunakan ekosistem data yang dibangun oleh gerakan open-source, namun sering kali mengabaikan ekspektasi timbal balik dan penggunaan yang wajar, kata Sylvie Delacroix, seorang sarjana hukum digital di King’s College London. Alat-alat ini juga berisiko mencemari Internet dengan konten buatan AI dengan kualitas yang meragukan. Dengan tidak mengarahkan pengguna ke sumber-sumber buatan manusia yang menjadi dasar pembuatannya, LLM dapat membuat kreasi orisinal menjadi tidak menarik. Tanpa memberikan lebih banyak kekuatan ke tangan para pencipta, sistem akan berada di bawah tekanan berat. Regulator dan perusahaan harus bertindak.

Advertisements
Advertisements
Advertisements

Tinggalkan Balasan

Advertisements

Eksplorasi konten lain dari SANGIA Daily

Langganan sekarang agar bisa terus membaca dan mendapatkan akses ke semua arsip.

Lanjutkan membaca