Minggu lalu, lab Tiongkok DeepSeek merilis versi terbaru dari model AI penalaran R1 yang berkinerja baik pada sejumlah tolok ukur matematika dan pengodean. Perusahaan tersebut tidak mengungkapkan sumber data yang digunakan untuk melatih model tersebut, tetapi beberapa peneliti AI berspekulasi bahwa setidaknya sebagian berasal dari keluarga AI Gemini milik Google.
Sam Paech, pengembang yang berbasis di Melbourne yang membuat evaluasi "kecerdasan emosional" untuk AI, menerbitkan apa yang ia klaim sebagai bukti bahwa model terbaru DeepSeek dilatih pada keluaran dari Gemini. Model DeepSeek, yang disebut R1-0528, lebih menyukai kata-kata dan ekspresi yang mirip dengan yang disukai Google Gemini 2.5 Pro, kata Paech dalam sebuah posting X.
Itu bukan bukti kuat. Namun, pengembang lain, pencipta anonim dari "evaluasi kebebasan berbicara" untuk AI yang disebut SpeechMap, mencatat jejak model DeepSeek — "pikiran" yang dihasilkan model saat bekerja menuju kesimpulan — "terbaca seperti jejak Gemini."
DeepSeek sebelumnya dituduh melatih data dari model AI pesaing. Pada bulan Desember, pengembang mengamati bahwa model V3 DeepSeek sering mengidentifikasi dirinya sebagai ChatGPT, platform chatbot bertenaga AI milik OpenAI, yang menunjukkan bahwa model tersebut mungkin telah dilatih pada log obrolan ChatGPT.
Awal tahun ini, OpenAI memberi tahu Financial Times bahwa mereka menemukan bukti yang menghubungkan DeepSeek dengan penggunaan distilasi, sebuah teknik untuk melatih model AI dengan mengekstraksi data dari model yang lebih besar dan lebih mampu. Menurut Bloomberg, Microsoft, kolaborator dan investor dekat OpenAI, mendeteksi bahwa sejumlah besar data sedang diekstraksi melalui akun pengembang OpenAI pada akhir tahun 2024 — akun yang diyakini OpenAI berafiliasi dengan DeepSeek.
Penyulingan bukanlah praktik yang tidak umum, tetapi ketentuan layanan OpenAI melarang pelanggan menggunakan keluaran model perusahaan untuk membangun AI yang bersaing.
Untuk lebih jelasnya, banyak model yang salah mengidentifikasi diri mereka sendiri dan menyatu pada kata-kata dan frasa yang sama. Itu karena web terbuka, yang merupakan tempat perusahaan AI mendapatkan sebagian besar data pelatihan mereka, dipenuhi dengan sampah AI. Ladang konten menggunakan AI untuk membuat clickbait, dan bot membanjiri Reddit dan X.
"Kontaminasi" ini, jika boleh saya katakan, telah membuat penyaringan output AI dari kumpulan data pelatihan menjadi sangat sulit.
Namun, pakar AI seperti Nathan Lambert, seorang peneliti di lembaga penelitian AI nirlaba AI2, tidak menganggap mustahil bahwa DeepSeek dilatih menggunakan data dari Gemini milik Google.
"Jika saya DeepSeek, saya pasti akan membuat banyak sekali data sintetis dari model API terbaik di luar sana," tulis Lambert dalam sebuah posting di X. "[DeepSeek] kekurangan GPU dan punya banyak uang. Secara harfiah, ini lebih efektif untuk komputasi mereka."
Sebagian dalam upaya untuk mencegah penyulingan, perusahaan AI telah meningkatkan langkah-langkah keamanan.
Pada bulan April, OpenAI mulai mengharuskan organisasi untuk menyelesaikan proses verifikasi ID untuk mengakses model-model canggih tertentu. Proses ini memerlukan ID yang dikeluarkan pemerintah dari salah satu negara yang didukung oleh API OpenAI; Tiongkok tidak ada dalam daftar.
Di tempat lain, Google baru-baru ini mulai "meringkas" jejak yang dihasilkan oleh model yang tersedia melalui platform pengembang AI Studio, sebuah langkah yang membuatnya lebih menantang untuk melatih model pesaing yang berkinerja pada jejak Gemini. Anthropic pada bulan Mei mengatakan akan mulai meringkas jejak modelnya sendiri, dengan alasan perlunya melindungi "keunggulan kompetitifnya."
Kami telah menghubungi Google untuk meminta komentar dan akan memperbarui bagian ini jika kami mendapat tanggapan.
DeepSeek mungkin telah menggunakan Gemini milik Google untuk melatih model terbarunya