Bagaimana Tera Air ChatGPT Berfungsi Dan Mengapa Ia Boleh Dikalahkan

ChatGPT OpenAI memperkenalkan cara untuk mencipta kandungan secara automatik tetapi rancangan untuk memperkenalkan ciri penanda air untuk memudahkan pengesanan membuatkan sesetengah orang gementar. Beginilah cara penanda air ChatGPT berfungsi dan sebab mungkin ada cara untuk mengalahkannya.

ChatGPT ialah alat yang luar biasa yang disukai dan digeruni oleh penerbit dalam talian, ahli gabungan dan SEO secara serentak.

Sesetengah pemasar menyukainya kerana mereka menemui cara baharu untuk menggunakannya untuk menjana ringkasan kandungan, garis besar dan artikel yang rumit.

Penerbit dalam talian takut prospek kandungan AI membanjiri hasil carian, menggantikan artikel pakar yang ditulis oleh manusia.

Akibatnya, berita tentang ciri penanda air yang membuka kunci pengesanan kandungan yang dikarang ChatGPT juga dijangkakan dengan kebimbangan dan harapan.

Tera Air Kriptografi

Tera air ialah tanda separa lutsinar (logo atau teks) yang dibenamkan pada imej. Tera air menandakan siapa pengarang asal karya itu.

Ia sebahagian besarnya dilihat dalam gambar dan semakin banyak dalam video.

Teks penanda air dalam ChatGPT melibatkan kriptografi dalam bentuk membenamkan corak perkataan, huruf dan tanda baca dalam bentuk kod rahsia.

Scott Aaronson dan Penanda Air ChatGPT

Seorang saintis komputer yang berpengaruh bernama Scott Aaronson telah diupah oleh OpenAI pada Jun 2022 untuk mengusahakan Keselamatan dan Penjajaran AI.

Keselamatan AI ialah bidang penyelidikan yang berkaitan dengan mengkaji cara AI mungkin mendatangkan kemudaratan kepada manusia dan mencipta cara untuk mencegah jenis gangguan negatif tersebut.

Jurnal saintifik Distill, yang menampilkan pengarang yang bergabung dengan OpenAI, mentakrifkan Keselamatan AI seperti ini:

"Matlamat keselamatan kecerdasan buatan (AI) jangka panjang adalah untuk memastikan sistem AI lanjutan diselaraskan dengan pasti dengan nilai manusia - bahawa mereka boleh melakukan perkara yang orang mahu mereka lakukan."

Penjajaran AI ialah bidang kecerdasan buatan yang berkenaan dengan memastikan AI sejajar dengan matlamat yang dimaksudkan.

Model bahasa besar (LLM) seperti ChatGPT boleh digunakan dengan cara yang mungkin bertentangan dengan matlamat Penjajaran AI seperti yang ditakrifkan oleh OpenAI, iaitu untuk mencipta AI yang memberi manfaat kepada manusia.

Sehubungan itu, sebab penanda air adalah untuk mengelakkan penyalahgunaan AI dengan cara yang membahayakan manusia.

Aaronson menjelaskan sebab untuk menanda air keluaran ChatGPT:

“Ini boleh membantu untuk mencegah plagiarisme akademik, jelas, tetapi juga, sebagai contoh, penjanaan massa propaganda…”

Bagaimanakah Penanda Air ChatGPT Berfungsi?

Penanda air ChatGPT ialah sistem yang membenamkan corak statistik, kod, ke dalam pilihan perkataan dan juga tanda baca.

Kandungan yang dicipta oleh kecerdasan buatan dijana dengan corak pilihan perkataan yang agak boleh diramal.

Perkataan yang ditulis oleh manusia dan AI mengikut corak statistik.

Menukar corak perkataan yang digunakan dalam kandungan yang dijana ialah cara untuk "tera air" teks untuk memudahkan sistem mengesan sama ada ia adalah produk penjana teks AI.

Helah yang menjadikan penanda air kandungan AI tidak dapat dikesan ialah pengedaran perkataan masih mempunyai penampilan rawak serupa dengan teks yang dijana AI biasa.

Ini dirujuk sebagai pengedaran kata-kata pseudorandom.

Pseudorandomness ialah siri perkataan atau nombor rawak secara statistik yang sebenarnya bukan rawak.

Penanda air ChatGPT tidak digunakan pada masa ini. Bagaimanapun Scott Aaronson di OpenAI berada dalam rekod menyatakan bahawa ia dirancang.

Buat masa ini ChatGPT berada dalam pratonton, yang membolehkan OpenAI menemui "salah jajaran" melalui penggunaan dunia sebenar.

Mungkin penanda air mungkin diperkenalkan dalam versi akhir ChatGPT atau lebih awal daripada itu.

Scott Aaronson menulis tentang cara penanda air berfungsi:

"Projek utama saya setakat ini adalah alat untuk menanda air secara statistik output model teks seperti GPT.
Pada asasnya, setiap kali GPT menjana beberapa teks yang panjang, kami mahu ada isyarat rahsia yang tidak dapat dilihat dalam pilihan perkataannya, yang boleh anda gunakan untuk membuktikan kemudian bahawa, ya, ini datang daripada GPT.”

Aaronson menerangkan dengan lebih lanjut cara penanda air ChatGPT berfungsi. Tetapi pertama sekali, adalah penting untuk memahami konsep tokenisasi.

Tokenisasi ialah langkah yang berlaku dalam pemprosesan bahasa semula jadi di mana mesin mengambil perkataan dalam dokumen dan memecahkannya kepada unit semantik seperti perkataan dan ayat.

Tokenisasi menukar teks kepada bentuk berstruktur yang boleh digunakan dalam pembelajaran mesin.

Proses penjanaan teks ialah mesin meneka token mana yang akan datang berdasarkan token sebelumnya.

Ini dilakukan dengan fungsi matematik yang menentukan kebarangkalian token seterusnya, apa yang dipanggil taburan kebarangkalian.

Apa perkataan seterusnya diramalkan tetapi ia adalah rawak.

Penanda air itu sendiri ialah apa yang Aaron huraikan sebagai pseudorandom, kerana terdapat sebab matematik untuk perkataan atau tanda baca tertentu berada di sana tetapi ia masih rawak secara statistik.

Berikut ialah penjelasan teknikal penanda air GPT:

“Untuk GPT, setiap input dan output ialah rentetan token, yang boleh berupa perkataan tetapi juga tanda baca, bahagian perkataan atau lebih—terdapat kira-kira 100,000 token secara keseluruhan.
Pada terasnya, GPT sentiasa menjana pengedaran kebarangkalian ke atas token seterusnya untuk dijana, bersyarat pada rentetan token sebelumnya.
Selepas jaringan saraf menjana pengedaran, pelayan OpenAI kemudiannya benar-benar mengambil sampel token mengikut pengedaran tersebut—atau beberapa versi pengedaran yang diubah suai, bergantung pada parameter yang dipanggil 'suhu.'
Selagi suhu bukan sifar, walaupun, biasanya terdapat beberapa kerawak dalam pilihan token seterusnya: anda boleh berlari berulang kali dengan gesaan yang sama, dan mendapat penyiapan yang berbeza (iaitu, rentetan token output) setiap kali .
Jadi, untuk tera air, daripada memilih token seterusnya secara rawak, ideanya adalah untuk memilihnya secara pseudorandom, menggunakan fungsi pseudorandom kriptografi, yang kuncinya hanya diketahui oleh OpenAI.”

Tera air kelihatan semula jadi kepada mereka yang membaca teks kerana pilihan perkataan meniru kerawak semua perkataan lain.

Ini penjelasan teknikalnya:

“Untuk menggambarkan, dalam kes khas bahawa GPT mempunyai sekumpulan kemungkinan token yang dinilainya berkemungkinan sama, anda boleh memilih mana-mana token yang dimaksimumkan g. Pilihan akan kelihatan secara rawak seragam kepada seseorang yang tidak mengetahui kunci itu, tetapi seseorang yang mengetahui kunci itu kemudiannya boleh menjumlahkan semua n-gram dan melihat bahawa ia adalah besar secara anomali.”

Penanda air ialah Penyelesaian yang mengutamakan Privasi

Saya telah melihat perbincangan di media sosial di mana sesetengah orang mencadangkan bahawa OpenAI boleh menyimpan rekod setiap output yang dihasilkannya dan menggunakannya untuk pengesanan.

Scott Aaronson mengesahkan bahawa OpenAI boleh melakukannya tetapi tindakan itu menimbulkan isu privasi. Pengecualian yang mungkin adalah untuk situasi penguatkuasaan undang-undang, yang tidak dihuraikannya secara terperinci.

Cara Mengesan Penanda Air ChatGPT atau GPT

Sesuatu yang menarik yang nampaknya masih belum diketahui ialah Scott Aaronson menyatakan bahawa terdapat cara untuk mengalahkan penanda air.

Dia tak cakap boleh kalahkan watermarking, dia kata boleh kalah.

“Kini, ini semua boleh dikalahkan dengan usaha yang cukup.
Contohnya, jika anda menggunakan AI lain untuk menghuraikan output GPT—baiklah, kami tidak akan dapat mengesannya.”

Nampaknya penanda air boleh dikalahkan, sekurang-kurangnya pada bulan November apabila kenyataan di atas dibuat.

Tiada petunjuk bahawa penanda air sedang digunakan. Tetapi apabila ia mula digunakan, ia mungkin tidak diketahui sama ada celah ini telah ditutup.

Petikan

Baca catatan blog Scott Aaronson di sini.