Teknologi baru ini boleh mengatasi GPT-4 dan apa-apa yang serupa dengannya

Bagi semua kehebohan tentang program AI chatbot yang dikenali sebagai ChatGPT, dari OpenAI, dan teknologi penerusnya, GPT-4, program-program tersebut hanyalah aplikasi perisian. Dan seperti semua aplikasi, mereka mempunyai batasan teknikal yang boleh menyebabkan prestasi mereka kurang-optimum.

Dalam sebuah kertas yang diterbitkan pada bulan Mac, ahli kecerdasan buatan (AI) di Universiti Stanford dan institut MILA untuk AI di Kanada mencadangkan teknologi yang mungkin lebih efisyen daripada GPT-4-- atau apa-apa yang hampir serupa -- dalam menyerap jumlah data yang besar dan mengubahkannya menjadi sebuah jawapan.

Juga: Ini adalah gadjet yang ingin menggantikan smartphone menurut bekas pekerja Apple

Dikenali sebagai Hyena, teknologi ini mampu mencapai ketepatan yang setara dalam ujian penanda aras, seperti menjawab soalan, sambil menggunakan hanya sebahagian kecil kuasa pengkomputeran. Dalam beberapa keadaan, kod Hyena mampu mengendalikan jumlah teks yang membuat teknologi gaya GPT kehabisan ingatan dan gagal.

"Hasil yang menjanjikan pada skala sub-sejuta parameter menunjukkan bahwa perhatian mungkin bukanlah satu-satunya yang kita butuhkan," tulis para penulis. Ujaran tersebut mengacu pada judul laporan AI bersejarah tahun 2017, 'Perhatian adalah semua yang Anda butuhkan'. Dalam laporan tersebut, ilmuwan Google Ashish Vaswani dan rekan-rekannya memperkenalkan program kecerdasan buatan Google yang disebut Transformer. Transformer menjadi dasar bagi setiap model bahasa besar baru-baru ini.

Tetapi Transformer mempunyai kelemahan yang besar. Ia menggunakan sesuatu yang dipanggil "perhatian" di mana program komputer mengambil maklumat dalam satu kumpulan simbol, seperti perkataan, dan memindahkan maklumat tersebut ke kumpulan simbol yang baru, seperti jawapan yang anda lihat dari ChatGPT, iaitu hasil keluaran.

Juga:Apa itu GPT-4? Inilah segala yang perlu anda tahu

Berebek operasi tersebut -- alat utama dalam semua program bahasa besar termasuk ChatGPT dan GPT-4 -- mempunyai kompleksiti pengkomputeran "kuadratik" (mengikut maklumat "kompleksiti masa" dalam Wikipedia). Kompleksiti tersebut bermakna jumlah masa yang diperlukan oleh ChatGPT untuk menghasilkan jawapan bertambah dengan kuasa dua daripada jumlah data yang diberikan sebagai input.

Pada suatu ketika, jika terdapat terlalu banyak data - terlalu banyak perkataan dalam penggalak atau terlalu banyak rangkaian perbualan dalam berjam-jam berbual dengan program - maka program tersebut akan terhalang untuk memberikan jawapan, atau ia mesti diberikan lebih banyak cip GPU agar ia berfungsi lebih pantas, menyebabkan keperluan pengkomputeran meningkat.

Di dalam kertas terkini yang berjudul 'Hirarki Hyena: Menuju Model Bahasa Konvolusional yang Lebih Besar', yang diposkan di server cetak prapertindakan arXiv, pengarang utama Michael Poli dari Stanford dan rakan-rakannya mencadangkan untuk menggantikan fungsi perhatian Transformer dengan sesuatu yang sub-kuadratik, iaitu Hyena.

Juga:Apa itu Auto-GPT? Semua yang perlu diketahui mengenai alat kecerdasan buatan terkini

Penulis tidak menerangkan nama itu, tetapi seseorang boleh membayangkan beberapa sebab untuk program "Hyena". Hyena adalah haiwan yang hidup di Afrika yang boleh berburu berbatu-batu. Pada satu-sisi, model bahasa yang sangat kuat boleh menjadi seperti hyena, berburu berbatu-batu untuk mencari makanan.

Tetapi penulis sangat membimbangkan "hirarki", sebagaimana yang disyorkan oleh tajuk, dan keluarga-keluarga hidung belang mempunyai hirarki yang ketat di mana ahli-ahli klan hidung belang tempatan mempunyai tahap-tahap ranking yang berbeza untuk menubuhkan dominasi. Secara analogi, program Hidung Belang ini mengaplikasikan beberapa operasi yang sangat mudah, seperti yang akan anda lihat, berulang kali, supaya ia berkombinasi membentuk jenis hirarki pemprosesan data. Inilah elemen kombinatorial yang memberikan program ini nama Hidung Belang.

Juga:Menurut Ben Goertzel, versi ChatGPT di masa depan dapat menggantikan sebagian besar pekerjaan yang dilakukan manusia saat ini

Penulis-penulis penyumbang kertas ini termasuklah tokoh-tokoh terkemuka dunia AI, seperti Yoshua Bengio, pengarah sains MILA, yang menerima Anugerah Turing 2019, persamaan Nobel dalam bidang komputer. Bengio secara meluas diiktiraf sebagai pembangun mekanisme perhatian jauh sebelum Vaswani dan pasukannya menyesuaikannya untuk Transformer tersebut.

Juga di antara para penulis adalah profesor pendamping ilmu komputer Stanford University, Christopher Ré, yang telah membantu dalam beberapa tahun terakhir untuk memajukan konsep AI sebagai "software 2.0".

Untuk mencari alternatif sub-kuadratik kepada perhatian, Poli dan pasukannya mengkaji tentang bagaimana mekanisme perhatian melakukan apa yang dilakukannya, untuk melihat jika kerja itu boleh dilakukan dengan lebih efisien.

Amalan terkini dalam sains AI, dikenali sebagai interpretabiliti mekanistik, memberikan pemahaman tentang apa yang berlaku di dalam jaringan neural, di dalam "litar-litar" pengiraan perhatian. Anda boleh menganggapnya seperti memecahkan perisian cara anda akan memecahkan jam tangan atau PC untuk melihat bahagian-bahagiannya dan mencari tahu bagaimana ia beroperasi.

Juga:Saya menggunakan ChatGPT untuk menulis rutin yang sama dalam 12 bahasa pengaturcaraan teratas. Inilah hasilnya

Satu karya yang dikutip oleh Poli dan pasukannya adalah set eksperimen oleh penyelidik Nelson Elhage dari startup kecerdasan buatan Anthropic. Eksperimen-eksperimen itu memecahkan program-program Transformer untuk melihat apa yang dilakukan oleh perhatian.

Pada hakikatnya, apa yang ditemui oleh Elhage dan pasukannya adalah bahawa perhatian berfungsi pada peringkat paling asas dengan operasi komputer yang sangat mudah, seperti menyalin perkataan daripada input terkini dan menampilkannya dalam output.

Sebagai contoh, jika seseorang memulakan menaip dalam program model bahasa yang besar seperti ChatGPT sebuah ayat dari Harry Potter and the Sorcerer's Stone seperti "Mr. Dursley was the director of a firm called Grunnings...", hanya dengan menaip "D-u-r-s", permulaan nama tersebut, mungkin sudah cukup untuk menggalakkan program untuk melengkapkan nama "Dursley" kerana ia telah melihat nama tersebut dalam ayat sebelumnya dalam Sorcerer's Stone. Sistem ini mampu menyalin dari ingatan rekod aksara "l-e-y" untuk melengkapkan ayat tersebut.

Juga:ChatGPT lebih mirip dengan 'kecerdasan alien' daripada otak manusia, kata futurist

Bagaimanapun, operasi perhatian berhadapan dengan masalah keanjalan kuadratik apabila jumlah perkataan semakin meningkat. Lebih banyak perkataan memerlukan lebih banyak "weights" atau parameter yang dikenali sebagai "weights", untuk menjalankan operasi perhatian.

Mengikut penulis: "Transformer block adalah alat yang kuat untuk pemodelan urutan, tetapi ia tidak terlepas dari kekurangannya. Salah satu yang paling ketara adalah kos pengiraan yang meningkat dengan pantas apabila panjang urutan input meningkat."

Walaupun butiran teknikal mengenai ChatGPT dan GPT-4 belum diumumkan oleh OpenAI, dipercayai bahawa kedua-duanya mungkin mempunyai sejuta atau lebih parameter. Menjalankan parameter-parameter tersebut memerlukan lebih banyak cip GPU daripada Nvidia, oleh itu meningkatkan kos pengiraan.

Untuk mengurangkan kos pengiraan kuadratik tersebut, Poli dan pasukannya menggantikan operasi perhatian dengan apa yang dipanggil "konvolusi", yang merupakan salah satu operasi tertua dalam program AI, yang disempurnakan pada tahun 1980-an. Konvolusi hanyalah filter yang dapat memilih item dalam data, sama ada piksel dalam foto digital atau kata-kata dalam satu ayat.

Juga: Pengalaman berjaya ChatGPT boleh memicu kepada perubahan yang merugikan dalam alam rahsia AI, kata penggerak AI, Bengio.

Poli dan pasukan menjalankan satu sintesis: mereka mengambil kerja yang telah dilakukan oleh penyelidik Stanford, Daniel Y. Fu dan pasukan beliau untuk mengaplikasikan penapisan konvolusi ke dalam jujukan perkataan, dan ia digabungkan dengan kerja oleh sarjana David Romero dan rakan-rakan di Vrije Universiteit Amsterdam yang membolehkan program mengubah saiz penapis secara fleksibel. Keupayaan untuk menyesuaikan secara fleksibel ini membantu mengurangkan bilangan parameter yang mahal, atau, berat, yang diperlukan oleh program tersebut.

Keputusan daripada mash-up ini adalah bahawa sebuah konvolusi boleh digunakan pada jumlah teks yang tidak terhad tanpa memerlukan lebih banyak parameter untuk menyalin data yang lebih banyak. Ia adalah pendekatan yang "bebas-tumpuan" seperti yang dinyatakan oleh pengarang-pengarang.

"Operator hyena dapat secara signifikan menyusutkan kesenjangan kualitas dengan perhatian pada skala," tulis Poli dan timnya, "mencapai kebingungan serupa dan kinerja hilir dengan anggaran komputasi yang lebih kecil." Kebingungan adalah istilah teknis yang mengacu pada seberapa canggih jawaban yang dihasilkan oleh program seperti ChatGPT.

Untuk memperlihatkan kemampuan Hyena, para penulis menguji program ini dengan serangkaian benchmark yang menentukan seberapa baik program bahasa ini dalam berbagai tugas kecerdasan buatan.

Juga: 'Barang-barang baru yang aneh sedang terjadi dalam perangkat lunak,' kata profesor kecerdasan buatan Stanford, Chris Ré

Satu ujian adalah The Pile, koleksi teks sebesar 825 gigabyte yang disusun pada tahun 2020 oleh Eleuther.ai, lembaga riset AI nirlaba. Teks-teks ini dikumpulkan dari sumber-sumber "berkualitas tinggi" seperti PubMed, arXiv, GitHub, Kantor Paten Amerika Serikat, dan lain-lain, sehingga sumber-sumber tersebut memiliki bentuk yang lebih ketat daripada diskusi Reddit, misalnya.

Tantangan utama bagi program ini adalah menghasilkan kata berikutnya saat diberikan sekelompok kalimat baru sebagai masukan. Program Hyena berhasil mencapai skor yang setara dengan program GPT asli OpenAI tahun 2018, dengan 20% lebih sedikit operasi komputasi -- "arsitektur konvolusi tanpa perhatian pertama yang sejajar dengan kualitas GPT" dengan operasi yang lebih sedikit, demikian peneliti menulis.

Seterusnya, pengarang-pengarang diuji program tersebut pada tugas-tugas penalaran yang dikenali sebagai SuperGLUE, diperkenalkan pada tahun 2019 oleh para sarjana di Universiti New York, Penyelidikan AI Facebook, unit DeepMind Google, dan Universiti Washington.

Sebagai contoh, apabila diberikan ayat ini, "Tubuhku melemparkan bayang di atas rumput", dan dua pilihan untuk sebabnya, "matahari sedang terbit" atau "rumput telah dipotong", dan diminta untuk memilih salah satu, program harus menghasilkan "matahari sedang terbit" sebagai output yang sesuai.

Dalam pelbagai tugas, program Hyena mencapai skor yang sama atau hampir sama dengan versi GPT sambil dilatih dengan kurang dari separuh daripada jumlah data latihan.

Juga: Cara menggunakan Bing baru (dan bagaimana ia berbeza daripada ChatGPT)

Lebih menarik lagi apa yang terjadi apabila para pengarang meningkatkan panjang frasa yang digunakan sebagai input: lebih banyak kata menghasilkan peningkatan prestasi yang lebih baik. Pada 2,048 "token", yang boleh anda bayangkan sebagai kata-kata, Hyena memerlukan masa yang lebih singkat untuk menyelesaikan tugas bahasa berbanding pendekatan perhatian.

Pada 64,000 token, penulis berkata, "Peningkatan kelajuan Hyena mencapai 100x" -- peningkatan prestasi sebanyak seratus kali.

Poli dan pasukannya berpendapat bahawa mereka bukan sahaja mencuba pendekatan yang berbeza dengan Hyena, mereka "merompak penghalang kuadratik", menyebabkan perubahan kualitatif dalam kesukaran untuk program mengira hasil.

Mereka mencadangkan bahawa terdapat perubahan yang mungkin signifikan dalam kualiti di peringkat yang lebih jauh di masa akan datang: "Merobek had kuadratik adalah langkah penting ke arah kemungkinan-kemungkinan baru dalam pembelajaran mendalam, seperti menggunakan keseluruhan buku teks sebagai konteks, menghasilkan muzik jangka panjang atau memproses imej berskala gigapiksel," mereka menulis.

Kemampuan Hyena untuk menggunakan penapis yang lebih efisyen dan meluas ke ribuan kata-kata, seperti yang ditulis oleh pengarangnya, bermakna hampir tidak ada batasan "konteks" pertanyaan kepada program bahasa. Dalam kesan ini, ia boleh mengingati elemen-elemen teks atau perbualan sebelumnya yang jauh daripada rangkaian perbualan semasa - sama seperti hyena mencari mangsa berbatu-batu jauhnya.

Juga: AI chatbots terbaik: ChatGPT dan pilihan lain yang menyeronokkan untuk dicuba

"Operator hyena memiliki konteks yang tidak terbatas," tulis mereka. "Yaitu, mereka tidak dibatasi secara artifisial oleh misalnya, lokalitas, dan dapat belajar ketergantungan jarak jauh antara elemen-elemen [input] apa pun."

Selain itu, selain kata-kata, program ini boleh digunakan untuk data dari pelbagai modali, seperti imej dan mungkin juga video dan bunyi.

Penting untuk diperhatikan bahawa program Hyena yang ditunjukkan dalam kertas ini adalah kecil berbanding dengan GPT-4 atau GPT-3. Sementara GPT-3 mempunyai 175 bilion parameter, atau berat, versi terbesar Hyena hanya mempunyai 1.3 bilion parameter. Oleh itu, masih perlu dilihat sejauh mana Hyena akan berjaya dalam perbandingan langsung dengan GPT-3 atau 4.

Tetapi, jika kecekapan yang dicapai berlaku pada versi yang lebih besar dari program Hyena, ia boleh menjadi paradigma baru yang sama popularnya seperti perhatian sepanjang dekad lalu.

Sebagaimana yang disimpulkan oleh Poli dan pasukannya: "Rancangan sub-kwadrat yang lebih sederhana seperti Hyena, yang dipandu oleh seperangkat prinsip sederhana dan dievaluasi dengan menggunakan benchmark interpretabilitas mekanistik, dapat menjadi dasar untuk model besar yang efisien."

Teknologi baru ini boleh menghancurkan GPT-4 dan segala yang serupa dengannya

Artikel Berkaitan