GPT-3 yang sangat besar dari OpenAI mengisyaratkan had penggunaan model bahasa untuk kecerdasan buatan

Sedikit lebih dari setahun yang lalu, OpenAI, sebuah syarikat kecerdasan buatan yang berpangkalan di San Francisco, mengejutkan dunia dengan memperlihatkan lompatan dramatik dalam kemampuan komputer untuk membentuk ayat dalam bahasa semulajadi, malah menyelesaikan soalan seperti melengkapkan satu ayat, serta merangka tulisan panjang yang manusia anggap hampir seperti manusia.

Karya terbaru dari pasukan itu menunjukkan matangnya pemikiran OpenAI dalam beberapa aspek. GPT-3, seperti yang dipanggil ciptaan terbaru, muncul minggu lalu, dengan lebih banyak fitur istimewa, diciptakan oleh beberapa penulis yang sama seperti versi terakhir, termasuk Alec Radford dan Ilya Sutskever, bersama-sama dengan beberapa kolaborator tambahan, termasuk saintis dari Universiti Johns Hopkins.

Ini sekarang menjadi model bahasa monster sejati, seperti namanya, memakan dua perintah saiz teks lebih daripada pendahulunya.

Tetapi dalam trik itu yang lebih besar-lebih baik, pasukan OpenAI nampaknya sedang mendekati beberapa kebenaran yang lebih mendalam, dengan cara yang sama seperti Dr. David Bowman mendekati batas yang diketahui pada akhir filem 2001.

Terkubur di bahagian penutupan kertas sepanjang 72 halaman, Model Bahasa adalah Pembelajar Sedikit Pukulan, yang diposkan minggu lalu di server pra-pencetakan arXiv, adalah pengiktirafan yang agak mencolok.

"Satu batasan yang lebih mendasar terhadap pendekatan umum yang dijelaskan dalam kertas ini - melakukan penskalaan model yang mirip dengan LM, baik yang arahan maupun searah - adalah bahwa pada akhirnya bisa saja mencapai (atau sudah mencapai) batasan objektif pra-pelatihan," tulis penulis.

Apa yang dikatakan oleh para pengarang adalah bahawa membina rangkaian neural yang hanya meramalkan kebarangkalian perkataan seterusnya dalam sebarang ayat atau frasa mungkin mempunyai batasannya. Menggubahkannya supaya lebih kuat dan memasukkan lebih banyak teks mungkin tidak akan menghasilkan hasil yang lebih baik. Ini adalah pengakuan penting dalam satu kertas yang kebanyakkannya mempersembahkan pencapaian menghadapi masalah dengan kuasa pemprosesan yang lebih besar.

Untuk memahami mengapa kesimpulan penulis sangat penting, pertimbangkan bagaimana kita sampai di sini. Sejarah karya OpenAI dalam bahasa telah menjadi bagian dari sejarah kemajuan yang mantap dari satu jenis pendekatan, dengan keberhasilan yang semakin meningkat ketika teknologi tersebut semakin besar dan besar.

GPT asal, dan GPT-2, kedua-duanya adalah adaptasi daripada apa yang dikenali sebagai Transformator, satu penemuan yang dipelopori di Google pada tahun 2017. Transformator menggunakan satu fungsi yang dipanggil perhatian untuk mengira kebarangkalian bahawa suatu perkataan akan muncul berdasarkan perkataan-perkataan sekitarnya. OpenAI telah menimbulkan kontroversi setahun yang lalu apabila ia mengatakan ia tidak akan melepaskan kod sumber kepada versi terbesar GPT-2, kerana, menurutnya, kod itu boleh jatuh ke tangan yang salah dan disalahgunakan untuk menipu orang dengan perkara-perkara seperti berita palsu.

Kertas baharu ini membawa GPT ke tahap seterusnya dengan menjadikannya lebih besar lagi. Versi terbesar GPT-2, yang tidak diposkan dalam bentuk sumber, mempunyai 1.5 bilion parameter. GPT-3 mempunyai 175 bilion parameter. Parameter adalah pengiraan dalam rangkaian neural yang memberikan bobot yang lebih besar atau lebih kecil kepada sesuatu aspek data, untuk memberikan penekanan yang lebih besar atau lebih kecil kepada aspek tersebut dalam pengiraan keseluruhan data. Inilah bobot-bobot ini yang memberi bentuk kepada data, dan memberikan perspektif yang telah dipelajari oleh rangkaian neural terhadap data tersebut.

Meningkatkan bobot dari masa ke masa telah menghasilkan hasil ujian benchmark yang menakjubkan oleh keluarga program GPT, dan oleh turunan Transformer besar lainnya, seperti BERT dari Google, hasil yang secara konsisten sangat mengesankan.

Tidak mengapa bahawa ramai orang telah menunjukkan bahawa model bahasa ini sebenarnya tidak kelihatan memahami bahasa dengan cara yang bermakna. Mereka berjaya dalam ujian, dan perkara itu adakah penting.

Versi terkini ini sekali lagi menunjukkan kemajuan kuantitatif. Sama seperti GPT-2 dan program Transformer lainnya, GPT-3 dilatih menggunakan set data Common Crawl, yaitu sebuah korpus hampir sejuta kata skrap dari web. "Set data dan saiz model ini hampir seratus kali lebih besar daripada yang digunakan untuk GPT-2," tulis pengarang-pengarangnya.

GPT-3 dengan 175 bilion parameter dapat mencapai apa yang dijelaskan oleh pengarang sebagai "meta-pembelajaran." Meta-pembelajaran bermaksud bahawa rangkaian neural GPT tidak dilatih semula untuk menjalankan tugas seperti penyelesaian ayat. Diberikan contoh tugas, seperti ayat yang tidak lengkap, dan kemudian ayat yang lengkap, GPT-3 akan melengkapkan ayat yang tidak lengkap yang diberikan.

GPT-3 mampu belajar melakukan tugas dengan satu petunjuk saja, lebih baik dalam beberapa kasus, daripada versi Transformer yang telah disempurnakan, seperti yang dikhususkan untuk hanya melakukan tugas tersebut. Oleh karena itu, GPT-3 adalah keunggulan generalitas yang meliputi. Cukup beri makanan berupa sejumlah besar teks sampai beratnya ideal, dan ia dapat melaksanakan tugas-tugas tertentu dengan cukup baik tanpa pengembangan lebih lanjut.

Di situlah cerita ini mencapai klimaks yang menarik dalam kertas baru. Setelah menyenaraikan hasil yang mengagumkan dari GPT-3 dalam tugas bahasa yang merangkumi melengkapkan ayat-ayat, menyimpulkan kesimpulan logikal dari pernyataan, hingga menterjemahkan antara bahasa, pengarang mencatat kelemahan-kelemahan.

"Walaupun terdapat peningkatan kuantitatif dan kualitatif yang kuat pada GPT-3, terutamanya berbanding dengan pendahulunya secara langsung, GPT-2, ianya masih mempunyai kelemahan yang ketara."

Kelemahan-kelemahan tersebut termasuk ketidakmampuan untuk mencapai ketepatan yang signifikan pada apa yang disebut Adversarial NLI. NLI, atau kesimpulan bahasa semula jadi, adalah ujian di mana program harus menentukan hubungan antara dua ayat. Para penyelidik dari Facebook dan Universiti North Carolina telah memperkenalkan versi advokasi, di mana manusia mencipta sepasang ayat yang sukar dipecahkan oleh komputer.

GPT-3 tidak "lebih baik daripada peluang" dalam hal seperti Adversarial NLI, seperti yang ditulis oleh penulis. Yang lebih buruk, setelah menguatkan daya pemrosesan sistem mereka menjadi 175 bilion bobot, para penulis tidak begitu yakin mengapa mereka tidak dapat berhasil dalam beberapa tugas.

Itulah ketika mereka sampai pada kesimpulan, yang dikutip di atas, bahawa mungkin hanya memberi makan korpus teks yang sangat besar kepada mesin raksasa bukanlah jawapan sebenar.

Lebih mengejutkan lagi adalah pemerhatian seterusnya. Amalan yang keseluruhan cuba meramalkan apa yang akan berlaku dengan bahasa mungkin menjadi pendekatan yang salah, kata penulis. Mereka mungkin sedang mengalih sasaran ke tempat yang salah.

"Dengan objektif yang diselia sendiri, spesifikasi tugas bergantung pada memaksa tugas yang diinginkan menjadi masalah ramalan," kata mereka, "manakala pada akhirnya, sistem bahasa yang berguna (sebagai contoh pembantu maya) sepatutnya dipertimbangkan dengan lebih baik sebagai tindakan berorientasikan matlamat daripada hanya membuat ramalan."

Penulis-penulis ini meninggalkannya untuk masa depan untuk menentukan bagaimana mereka akan mengambil arah baharu yang agak menarik ini.

Walaupun sedar bahawa yang lebih besar mungkin tidak sentiasa menjadi yang terbaik, hasil yang diperbaiki bagi GPT-3 dalam banyak tugas kemungkinan akan meningkatkan, bukan mengurangkan, keinginan untuk memiliki rangkaian neural yang lebih besar dan lebih besar. Dengan 175 bilion parameter, GPT-3 merupakan raja rangkaian neural besar, untuk masa ini. Satu pembentangan pada bulan April oleh syarikat cip kecerdasan buatan, Tenstorrent, telah menggambarkan rangkaian neural masa depan yang mempunyai lebih daripada sejuta parameter.

Bagi sebahagian besar komuniti pembelajaran mesin, model bahasa yang lebih besar dan lebih besar akan terus menjadi keadaan seni cipta.

GPT-3 yang besar di OpenAI menggambarkan batasan model bahasa untuk AI.

Artikel Berkaitan