Bulan lalu, pemerintah AS mengumumkan bahwa artikel-artikel penelitian dan sebagian besar data dasar yang dihasilkan dengan dana federal harus tersedia untuk umum tanpa biaya, sebuah kebijakan yang akan diimplementasikan pada akhir tahun 2025. Hal ini merupakan langkah penting lainnya. Program Uni Eropa untuk pendanaan sains, Horizon Europe, telah mengamanatkan bahwa hampir semua data bersifat FAIR (yaitu, dapat ditemukan, dapat diakses, dapat dioperasikan, dan dapat digunakan kembali). Motivasi di balik kebijakan berbagi data tersebut adalah untuk membuat data lebih mudah diakses sehingga orang lain dapat menggunakannya untuk memverifikasi hasil dan melakukan analisis lebih lanjut.
Namun, hanya dengan membuat kumpulan data tersebut menjadi online tidak akan memberikan manfaat yang diharapkan: hanya sedikit kumpulan data yang benar-benar FAIR, karena sebagian besar tidak dapat ditemukan. Yang dibutuhkan adalah kebijakan dan infrastruktur untuk mengatur metadata.
Bayangkan jika Anda harus mencari publikasi tentang suatu topik – misalnya, metode reklamasi karbon – namun Anda hanya dapat menggunakan judul artikelnya saja (tanpa kata kunci, abstrak, atau istilah pencarian). Pada dasarnya itulah situasi yang terjadi dalam menemukan kumpulan data. Jika saya ingin mengidentifikasi semua data yang disimpan terkait reklamasi karbon, maka tugas tersebut akan sia-sia. Metadata yang ada saat ini sering kali hanya berisi informasi administratif dan organisasi, seperti nama peneliti dan tanggal perolehan data.
Terlebih lagi, agar data ilmiah dapat berguna bagi peneliti lain, metadata harus secara masuk akal dan konsisten mengkomunikasikan hal-hal penting dari eksperimen – apa yang diukur, dan dalam kondisi apa. Sebagai seorang peneliti yang membangun teknologi untuk membantu anotasi data, sangat disayangkan bahwa, di sebagian besar bidang, standar metadata yang diperlukan untuk membuat data menjadi FAIR tidak ada.
Metadata tentang kumpulan data biasanya tidak memiliki deskriptor khusus eksperimen. Jika ada, deskriptor tersebut jarang dan istimewa. Seorang penyelidik yang mencari Gene Expression Omnibus (GEO), misalnya, mungkin mencari kumpulan data genom yang berisi informasi tentang bagaimana suatu penyakit atau kondisi bermanifestasi pada hewan atau manusia muda. Untuk melakukan pencarian seperti itu, diperlukan pengetahuan tentang bagaimana usia individu direpresentasikan – yang dalam repositori GEO, dapat berupa usia, AGE, usia (setelah lahir), usia (tahun), Usia (tahun), atau lusinan kemungkinan lainnya. (Sering kali, informasi seperti itu tidak ada dalam kumpulan data sama sekali.) Karena metadata bersifat ad hoc, pencarian otomatis gagal, dan para investigator membuang banyak waktu untuk memilah-milah catatan secara manual untuk menemukan kumpulan data yang relevan, tanpa jaminan bahwa sebagian besar (atau semua) dapat ditemukan.
Beberapa orang yang optimis berasumsi bahwa masalah ini dapat diatasi dengan merujuk pada kumpulan data dalam manuskrip yang telah diterbitkan, yang setidaknya mencakup rincian eksperimen. Namun seringkali, tidak ada naskah yang dipublikasikan yang pernah muncul; jika ada, deskripsinya jarang memadai untuk memahami data dalam bentuk yang disimpan. Oleh karena itu, metadata untuk kumpulan data harus berdiri sendiri, dan harus mengikuti panduan yang diterima oleh komunitas, dengan menyebutkan atribut utama eksperimen.
Ketika standar metadata sudah ada, teknologi bisa sangat membantu. CEDAR Workbench, yang dikembangkan oleh kelompok saya di Stanford University di California, menawarkan pendekatan tujuan umum untuk membuat metadata standar. CEDAR bergantung pada pustaka yang dapat dibaca mesin untuk pedoman pelaporan metadata dan terminologi terkontrol yang diadopsi oleh disiplin ilmu tertentu, dan secara otomatis menghasilkan formulir yang meminta mereka yang menyetorkan data secara online untuk mengisi kolom metadata dan untuk membuat anotasi set data dengan semua deskriptor eksperimental yang didukung oleh komunitas ilmiah tertentu. (Alat ini telah digunakan di berbagai bidang seperti investigasi biomarker dan eksperimen energi angin). Hasilnya adalah metadata yang dapat dicari dengan andal dan menggunakan istilah yang spesifik dan konsisten yang mengindikasikan tentang apa sebenarnya sebuah eksperimen. (Sebagai contoh, hanya ada satu cara untuk menunjukkan ‘usia’.) Namun, meja kerja tidak berguna dalam disiplin ilmu yang tidak memiliki standar metadata dasar – termasuk sebagian besar bidang sains.
Jika kita serius dalam berbagi data, kita perlu mengembangkan standar yang dapat membuat data menjadi ADIL. Lembaga-lembaga penyandang dana harus lebih dari sekadar memberikan mandat sederhana untuk data yang adil. Organisasi Belanda untuk Penelitian dan Pengembangan Kesehatan (ZonMw) di Den Haag, misalnya, menyelenggarakan lokakarya untuk mengembangkan standar metadata sederhana yang dapat digunakan oleh para penerima hibah. Proses ini telah menghasilkan pedoman untuk melaporkan hasil terkait COVID-19 dan resistensi antimikroba, dan masih banyak lagi lokakarya yang direncanakan. Sebagai syarat pendanaan, ZonMw mewajibkan penerima hibah baru untuk menggunakan standar ini. Penyandang dana lain harus mengadopsi pendekatan yang lebih partisipatif ini, memberikan bantuan yang disesuaikan dengan persyaratan yang dikeluarkan. Hal ini tidak hanya akan menghasilkan kumpulan data yang lebih baik untuk program penelitian yang ditargetkan, namun juga menciptakan standar metadata yang ingin diterapkan oleh masyarakat.
Jika kita benar-benar menginginkan data yang FAIR, mandat internasional yang baru untuk berbagi data akan memiliki harga yang signifikan. Para pemimpin lokakarya ZonMw memperkirakan bahwa pengembangan satu standar saja membutuhkan biaya sebesar €40.000 (US$40.000) jika mempertimbangkan tenaga kerja yang disumbangkan oleh para peserta lokakarya.
Para ilmuwan dan penyandang dana mereka perlu menyadari bahwa data FAIR akan membutuhkan lebih dari sekadar mandat – data tersebut akan membutuhkan investasi yang sangat besar. Komunitas penelitian harus berkomitmen untuk menciptakan standar khusus disiplin ilmu untuk metadata dan menerapkannya di seluruh kegiatan ilmiah.