Apakah GPT-3 itu? Segala yang perniagaan anda perlu tahu tentang program bahasa AI terobosan OpenAI

zdnet-gpt-3-adalah-kata-kunci-berikutnya-dalam-ai-ver-2.jpg

GPT-3 adalah program komputer yang dicipta oleh startup milik San Francisco, OpenAI. Ia adalah rangkaian neural raksasa dan menjadi sebahagian daripada bahagian pembelajaran mendalam dalam pembelajaran mesin, yang merupakan salah satu cabang dalam sains komputer yang dikenali sebagai kecerdasan buatan atau AI. Program ini lebih baik daripada mana-mana program sebelumnya dalam menghasilkan baris teks yang terdengar seolah-olah ditulis oleh manusia.

Sebab mengapa terobosan seperti ini boleh berguna kepada syarikat adalah kerana ia mempunyai potensi yang besar untuk mengautomatikkan tugas. GPT-3 boleh memberikan respons kepada sebarang teks yang seseorang taipkan ke dalam komputer dengan sebahagian teks yang baru dan bersesuaian dengan konteks. Taipkan ayat penuh dalam Bahasa Inggeris ke dalam kotak carian, misalnya, dan anda lebih mungkin untuk menerima respons dalam ayat penuh yang berkaitan. Ini bermakna GPT-3 boleh meningkatkan upaya manusia dalam pelbagai situasi, dari soalan dan jawapan untuk perkhidmatan pelanggan hinggalah kepada pencarian dokumen kajian akuran dan penjanaan laporan.

Perhatikan contoh ringkas berikut tentang apa yang seseorang taipkan ke dalam komputer, dan bagaimana GPT-3 menghantar balasan:

Masukan yang disediakan oleh manusia : T: Siapa yang berperan sebagai Tess dalam Touched by an Angel?

GPT-3-generasi penuh : A: Delloreese Patricia Early (6 Julai 1931 {19 November 2017), dikenali secara profesional sebagai Della Reese

Rancangan ini saat ini dalam beta privasi di mana orang dapat mendaftar di waitlist. Ia ditawarkan oleh OpenAI sebagai API yang boleh diakses melalui awan, dan syarikat-syarikat yang telah diberikan akses telah membangunkan beberapa aplikasi menarik yang menggunakan penjanaan teks untuk meningkatkan pelbagai jenis program, dari menjawab soalan ringkas hingga menghasilkan kod pemrograman.

Bersama dengan potensi untuk otomatisasi datang kelemahan yang besar. GPT-3 membutuhkan komputasi yang banyak, sehingga tidak dapat digunakan oleh sebagian besar perusahaan secara on-premise. Teks yang dihasilkannya mungkin mengesankan pada pandangan pertama, tetapi komposisi yang panjang cenderung menjadi agak tak masuk akal. Dan itu memiliki potensi besar untuk memperkuat bias, termasuk rasisme dan seksisme.

BAGAIMANA GPT-3 BERFUNGSI?

GPT-3 adalah contoh daripada apa yang dikenali sebagai model bahasa, iaitu jenis program statistik tertentu. Dalam kes ini, ia dicipta sebagai rangkaian neural.

Nama GPT-3 merupakan akronim yang merujuk kepada "generative pre-training," yang merupakan versi ketiga sehingga kini. Ia dikategorikan sebagai generatif kerana berbeza daripada rangkaian neural lain yang menghasilkan skor angka atau jawapan ya atau tidak, GPT-3 boleh menghasilkan jujukan teks asal yang panjang sebagai output. Ia juga sudah dipre-latih dalam erti kata bahawa ia tidak dibangunkan dengan apa-apa pengetahuan domain, walaupun ia masih boleh menyelesaikan tugas-tugas yang berkaitan dengan domain tertentu, seperti terjemahan bahasa asing.

Sebuah model bahasa, dalam kes GPT-3, merupakan sebuah program yang mengira sejauh mana kemungkinan suatu perkataan muncul dalam teks berdasarkan perkataan-perkataan lain dalam teks tersebut. Itulah yang dikenali sebagai kebarangkalian bersyarat perkataan.

Sebagai contoh, dalam ayat, Saya ingin membuat omelet, jadi saya pergi ke peti sejuk dan mengambil sedikit ____, tempat kosong tersebut boleh diisi dengan apa saja, termasuk lafaz yang tidak bermakna, mengingat kebolehkomposabilan yang tak terhingga dalam bahasa. Tetapi perkataan "telur" mungkin mendapat skor yang tinggi untuk mengisi tempat kosong tersebut dalam kebanyakan teks normal, lebih tinggi daripada, katakanlah, "gajah". Kita katakan bahawa kebarangkalian telur dengan keadaan teks yang diberi adalah lebih tinggi daripada kebarangkalian gajah.

Apabila rangkaian neural sedang dibangunkan, dipanggil fasa latihan, GPT-3 diberikan jutaan sampel teks dan ia menukar perkataan menjadi apa yang dipanggil vektor, perwakilan numerik. Ini merupakan satu bentuk pemampatan data. Program kemudian cuba mengurai teks yang dipampatkan ini menjadi ayat yang sah. Tugas pemampatan dan penyahpemapatan ini memperkemas lagi ketepatan program dalam mengira kebarangkalian bersyarat perkataan.

Sekali model ini dilatih, bermaksud pengiraan kebarangkalian bersyaratnya bagi bilion kata menjadi seakurat mungkin, ia kemudiannya dapat meramalkan perkataan berikutnya apabila seseorang memasukkan perkataan atau perkataan awal. Tindakan ramalan ini dikenali dalam pembelajaran mesin sebagai inferens.

Itu membawa kepada kesan cermin yang mencolok. Bukan sahaja perkataan yang mungkin muncul, tetapi tekstur dan irama genre atau bentuk tugas bertulis, seperti set soalan-jawapan, direpresentasikan semula. Oleh itu, sebagai contoh, GPT-3 boleh diberi beberapa nama penyair terkenal dan sampel karya mereka, kemudian nama penyair lain dan hanya judul puisi khayalan, dan GPT-3 akan menghasilkan puisi baru dengan cara yang konsisten dengan irama dan sintaks penyair yang nama mereka telah dijana.

Pertimbangkanlah contoh berikut di mana GPT-3 menciptakan sebuah puisi dari nol yang agak mirip dengan karya-karya Wallace Stevens, setelah diberikan judul, nama, dan contoh-contoh penyair lain beserta karyanya:

Input yang diberikan oleh manusia: The City OLEH C. P. CAVAFY DITERJEMAHKAN OLEH EDMUND KEELEY [Teks puisi dihilangkan]

Penyumbang manusia : BEBERAPA POHON

John Ashbery [Teks puisi dihilangkan]

 Input yang diberi oleh manusia: Shadows on the Way Wallace Stevens

GPT-3-generated completion : -------- Puisi yang Dihasilkan oleh GPT-3 --------   Aku harus mempunyai bayangan di jalan  Jika aku ingin berjalan, aku harus  Setiap langkah diambil perlahan dan sendiri  Agar siap sedia   Dan aku harus berpikir dalam garis-garis kelabu  Agar mempunyai pemikiran yang samar menjadi panduanku  Harus melihat biru dan hijau  Dan jangan pernah biarkan mataku lupa  Bahwa warna adalah sahabatku  Dan ungu juga harus mengelilingiku  Kuning matahari tak lebih  Mengganggu daripada salju yang biru  Yang turun di atas kita semua. Aku harus  Memiliki pemikiran kelabu dan biru berjalan bersamaku  Jika aku harus pergi.

Menghasilkan respons bermakna GPT-3 mampu melampaui hanya menghasilkan tulisan. Ia mampu melakukan berbagai macam ujian termasuk ujian penalaran yang melibatkan respons dalam bahasa semula jadi. Sebagai contoh, jika GPT-3 diberikan satu esei tentang kadar sewa harta tanah di Manhattan, serta satu pernyataan yang merangkum teks, seperti "Manhattan murah," dan pertanyaan "betul atau salah?", GPT-3 akan merespon keseluruhan permintaan tersebut dengan mengembalikan kata "salah," karena pernyataan tersebut tidak sejalan dengan argumen dalam esei.

Input dihasilkan oleh manusia: Trend sewa yang semakin rendah mungkin kelihatan mengejutkan mengingat beberapa komuniti di New York mengeluh kerana kehilangan perniagaan tempatan kegemaran mereka akibat sewa yang tinggi. Namun, walaupun situasi sewa telah melonggarkan baru-baru ini, bagi ramai peniaga ini, terdapat lonjakan yang terlalu besar dari kadar sewa pada akhir 1970-an ketika kontrak sewa mereka ditandatangani. Tentunya, penurunan harga yang terkini tidak bermakna Manhattan jadi murah.

Input yang diberikan oleh manusia : soalan: Menaikkan kesenangan. benar, palsu, atau tiada?

Input yang diberikan oleh manusia: jawapan:

GPT-3-digenerasikan lengkap : palsu

Kemampuan GPT-3 untuk merespons dengan cara yang konsisten dengan tugas contoh, termasuk bentuk-bentuk yang belum pernah diajarkan sebelumnya, menjadikannya apa yang disebut sebagai model bahasa "few-shot". Alih-alih secara intensif disetel atau "dilatih", seperti yang disebutkan, untuk suatu tugas tertentu, GPT-3 sudah memiliki begitu banyak informasi tentang cara kata-kata bergabung sehingga hanya diberikan beberapa contoh tugas, yang disebut langkah penalaan halus, dan ia memperoleh kemampuan untuk juga melakukan tugas baru tersebut.

penerangan-beberapa-tendangan-gambarin-openai-gpt-3.jpg

Kemampuan untuk meniru gaya bahasa alami dan mendapatkan skor yang relatif tinggi dalam tes berbasis bahasa dapat memberikan kesan bahwa GPT-3 mendekati fasilitas menyerupai manusia dalam berbahasa. Seperti yang akan kita lihat, hal tersebut bukanlah kasus yang sebenarnya.

Butiran teknikal lanjut boleh ditemui dalam kertas formal GPT-3 yang diterbitkan oleh ahli-ahli OpenAI.

APA YANG DAPAT DILAKUKAN OLEH GPT-3?

OpenAI kini telah menjadi terkenal -- atau terkenal dengan citarasa yang buruk -- kerana amalan pelepasan kodnya sama seperti kod itu sendiri. Ketika syarikat melancarkan GPT-2, pendahulunya, pada Hari Valentine tahun 2019, ia awalnya tidak akan melepaskan kepada orang awam versi paling berkebolehan, dengan menyatakan bahawa ia terlalu berbahaya untuk dilepaskan ke alam liar kerana risiko pengeluaran berleluasa teks palsu dan menyesatkan. Setelah itu, OpenAI telah menjadikannya tersedia untuk dimuat turun.

Kali ini, OpenAI tidak menyediakan unduhan apa pun. Sebagai gantinya, OpenAI telah mengaktifkan titik akhir API berbasis cloud, menjadikan GPT-3 sebagai layanan yang dapat diakses. (Bayangkan ini sebagai LMaaS, language-model-as-a-service.) Alasannya, menurut OpenAI, adalah untuk membatasi penggunaan GPT-3 oleh pelaku yang tidak bertanggung jawab dan untuk menghasilkan uang.

"Tiada butang 'undo' dengan sumber terbuka," kata OpenAI kepada ZDNet melalui jurucakap.

"Mengeluarkan GPT-3 melalui API membolehkan kami mengawal penggunaannya dengan selamat dan mengurangkan akses jika perlu."

Pada masa ini, perkhidmatan API OpenAI terhad kepada pihak yang diluluskan; terdapat senarai tunggu yang boleh didaftar untuk mendapatkan akses.

"Pada masa ini, API ini berada dalam percubaan beta terkawal dengan sejumlah kecil pembangun yang mengemukakan idea untuk sesuatu yang ingin mereka hasilkan menggunakan API," kata OpenAI kepada ZDNet.

Juga: AI generator teks yang 'berbahaya' dari OpenAI telah dilancarkan: Orang ramai mendapati perkataan 'meyakinkan'

Terdapat contoh menarik mengenai apa yang boleh dilakukan daripada syarikat-syarikat dalam program beta. Sapling, sebuah syarikat yang disokong oleh dana modal Y Combinator, menawarkan satu program yang berada di atas perisian CRM. Apabila seorang wakil pelanggan sedang mengendalikan permintaan bantuan masuk, misalnya, melalui e-mel, program ini menggunakan GPT-3 untuk mencadangkan frasa keseluruhan sebagai respons daripada antara respons yang paling mungkin.

Pembuat permainan Latitude menggunakan GPT-3 untuk meningkatkan permainan petualangan berdasarkan teksnya, AI Dungeon. Biasanya, permainan petualangan memerlukan pohon keputusan yang kompleks untuk menulis banyak kemungkinan jalur dalam permainan. Sebaliknya, GPT-3 dapat secara dinamis menghasilkan keadaan permainan yang berubah sebagai respons terhadap tindakan yang diketik oleh pengguna.

Sudah kini, automasi tugas sedang melampaui bahasa semula jadi untuk menghasilkan kod komputer. Kod adalah sebuah bahasa, dan GPT-3 boleh menginferensikan sintaks operator dan operand yang paling mungkin dalam pelbagai bahasa pengaturcaraan, dan ia boleh menghasilkan jujukan yang boleh dikompil dan dijalankan dengan berjaya.

Sebuah contoh awal yang menjadi perhatian di Twitter, dari startup pengembangan aplikasi Debuild. Pimpinan perusahaan, Sharif Shameem, berhasil membuat sebuah program di mana Anda mengetik deskripsi antarmuka perangkat lunak dengan bahasa Inggris sederhana, dan GPT-3 akan merespons dengan kode komputer menggunakan ekstensi sintaks JSX untuk JavaScript. Kode tersebut menghasilkan sebuah antarmuka yang sesuai dengan deskripsi yang Anda berikan.

Ini sungguh menakjubkan. Dengan GPT-3, saya telah membina satu penyusun susun atur di mana anda hanya perlu menggambarkan susun atur apa pun yang anda inginkan, dan ia akan menghasilkan kod JSX untuk anda. W O W pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 Julai 2020

Shameem menunjukkan bahawa dengan menjelaskan antara muka pengguna dengan beberapa butang, dengan satu ayat beliau dapat menjelaskan satu program keseluruhan, walaupun ia adalah program yang mudah seperti mengira aritmetik asas dan memaparkan hasil, dan GPT-3 akan menghasilkan kesemua kodnya dan memaparkan aplikasi tersebut secara langsung.

Saya baru sahaja membina satu aplikasi React *yang berfungsi* dengan hanya menjelaskan apa yang saya mahukan kepada GPT-3. Saya masih terpesona. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 Julai 2020

OpenAI telah "menerima puluhan ribu permohonan akses API hingga kini, dan kami berhati-hati dalam memberikan akses sambil mempelajari apa yang model-model ini dapat lakukan di dunia nyata," kata syarikat kepada ZDNet. "Oleh itu, senarai menunggu mungkin panjang."

Harga untuk perkhidmatan komersial yang akan datang masih belum ditetapkan. Apabila ditanya apabila program ini akan keluar dari versi beta, OpenAI memberitahu ZDNet, "tidak dalam masa terdekat."

"Mengeluarkan model yang begitu kuat bererti kami perlu bergerak perlahan dan mempertimbangkan impaknya terhadap perniagaan, industri, dan masyarakat," kata syarikat tersebut. "Format API membolehkan kami mengkaji dan mengawal penggunaannya dengan sewajarnya, tetapi kami tidak tergesa-gesa untuk menjadikannya tersedia secara umum mengingatkan kelemahannya."

Jika anda tidak sabar menunggu senarai tunggu beta, anda boleh pada masa yang sama muat turun versi sebelumnya, GPT-2, yang boleh dijalankan pada sebuah laptop menggunakan pemasangan Docker. Kod sumber telah diposkan dalam repositori Github yang sama, dalam format Python untuk rangka kerja TensorFlow. Tentunya anda tidak akan mendapatkan hasil yang sama seperti GPT-3, tetapi ini adalah cara untuk memulakan mengenali dengan lebih lanjut.

Ingat juga, model bahasa baru dengan kemampuan serupa terus muncul, dan beberapa di antaranya mungkin sudah cukup untuk tujuan Anda. Sebagai contoh, Google baru-baru ini merilis versi model bahasa BERT-nya, yang disebut LaBSE, yang menunjukkan peningkatan yang signifikan dalam terjemahan bahasa. Model ini dapat diunduh dari TensorFlow Hub.

Juga: GPT-3 yang raksasa dari OpenAI memberi petunjuk tentang batasan model bahasa untuk AI

Apa sejarah GPT-3?

GPT-3, yang diperkenalkan pada bulan Mei, adalah versi ketiga dari program yang pertama kali diperkenalkan pada tahun 2018 oleh OpenAI dan diikuti tahun lalu oleh GPT-2. Ketiga program ini merupakan contoh inovasi yang cepat dalam bidang model bahasa, berkat dua kemajuan besar yang terjadi pada tahun 2015.

Langkah pertama adalah penggunaan apa yang dikenal sebagai perhatian. Ilmuwan AI Yoshua Bengio dan rekan-rekannya di Institut AI Mila di Montreal mengamati bahwa model bahasa ketika mereka memampatkan sebuah kalimat dalam bahasa Inggris dan kemudian mengembangkannya kembali, semuanya menggunakan vektor dengan panjang tetap. Setiap kalimat dimampatkan menjadi vektor dengan ukuran yang sama, tidak peduli seberapa panjang kalimat tersebut.

Bengio dan pasukannya menyimpulkan bahawa pendekatan yang kaku ini menjadi batasan. Model bahasa sepatutnya dapat mencari di antara banyak vektor dengan panjang yang berbeza untuk mencari perkataan yang mengoptimumkan kebarangkalian bersyarat. Oleh itu, mereka merancang cara untuk membolehkan rangkaian neural secara fleksibel memampatkan perkataan ke dalam vektor dengan saiz yang berbeza, serta mengizinkan program mencari secara fleksibel di dalam vektor-vektor tersebut untuk mencari konteks yang penting. Mereka memanggil ini "perhatian".

Perhatian menjadi elemen yang penting dalam model bahasa. Ia digunakan oleh ahli sains Google dua tahun kemudian untuk mencipta program model bahasa yang dipanggil Transformer. Transformer mencatat markah yang luar biasa dalam ujian pengendalian bahasa. Ia menjadi model bahasa de facto, dan digunakan oleh Google untuk mencipta apa yang dikenali sebagai BERT, sebuah model bahasa yang sangat berjaya. Transformer juga menjadi asas kepada GPT-1.

Bebas untuk tidak perlu secara kaku memanipulasi vektor ukuran tetap, Transformer dan turunannya dapat menjelajah ke berbagai bagian dari teks yang diberikan dan menemukan ketergantungan kondisional yang akan meluas ke konteks yang lebih besar.

Kebebasan itu membuka jalan untuk inovasi lain yang tiba pada tahun 2015 dan yang lebih sentral dalam karya OpenAI, dikenal sebagai pembelajaran tanpa pengawasan.

Fokus sehingga saat itu bagi kebanyakan model bahasa adalah pembelajaran terawasi dengan apa yang dikenal sebagai data berlabel. Diberikan sebuah input, jaringan saraf juga diberikan contoh output sebagai versi objektif dari jawaban. Jadi, jika tugasnya adalah terjemahan, sebuah kalimat berbahasa Inggris mungkin menjadi input, dan terjemahan bahasa Prancis yang dibuat oleh manusia akan diberikan sebagai tujuan yang diinginkan, dan pasangan kalimat tersebut menjadi contoh yang berlabel.

Percubaan rangkaian neural untuk menghasilkan terjemahan Bahasa Perancis akan dibandingkan dengan ayat Bahasa Perancis rasmi, dan perbezaan antara kedua-duanya adalah sejauh mana rangkaian neural itu melakukan kesilapan dalam membuat ramalannya, yang dikenali sebagai fungsi kerugian atau fungsi objektif.

Fasa latihan ini bertujuan untuk menutup jurang ralat antara keluaran yang dicadangkan oleh rangkaian neural dan keluaran sasaran. Apabila jurang ini telah menjadi sekecil mungkin, fungsi objektif telah dioptimumkan, dan rangkaian neural model bahasa dianggap telah dilatih.

Tetapi mempunyai output yang diinginkan yang ditandakan dengan baik boleh menjadi masalah kerana ia memerlukan banyak kajian data, seperti mengumpulkan sepasang contoh ayat oleh penilaian manusia, yang mengambil masa dan sumber yang besar. Andrew Dai dan Quoc Le daripada Google berhipotesis bahawa ia adalah mungkin untuk mengurangkan data yang ditandakan yang diperlukan jika model bahasa itu terlebih dahulu dilatih secara tidak diawasi.

Sebagai gantinya, rangkaian diberi hanya satu ayat dan harus memampatkan setiap satu ke dalam vektor dan mendekompreskannya kembali ke ayat asal. Pemantulan menjadi fungsi kehilangan untuk dioptimumkan. Mereka mendapati bahawa semakin banyak contoh yang tidak diberi label dipampatkan dan didekompreskan dengan cara ini, semakin banyak yang dapat menggantikan data bertanda pada tugas seperti terjemahan.

Pada tahun 2018, pasukan OpenAI menggabungkan dua elemen ini, mekanisme perhatian yang dibangunkan oleh Bengio dan rakan-rakannya, yang akan berjalan melintasi banyak vektor perkataan, dan pendekatan pra-latihan tanpa pengawasan Dai dan Le yang akan menelan sejumlah besar teks, mengkompresinya dan mendekompresinya untuk menghasilkan semula teks asal.

Mereka mengambil satu Transformer standard dan memberikan muatan Kumpulan Isi Buku (BookCorpus) padanya, iaitu pangkalan data yang dikompilasi oleh Universiti Toronto dan MIT yang terdiri daripada lebih daripada 7,000 teks buku yang diterbitkan dengan jumlah perkataan hampir mencapai sejuta perkataan, kesemuanya membabitkan 5GB. GPT-1 telah dilatih untuk memampatkan dan mendekompres buku-buku tersebut.

Maka bermulalah sejarah tiga tahun set data yang lebih besar dan lebih besar. Para penyelidik OpenAI yang menghipotesiskan bahawa data yang lebih banyak menjadikan model lebih tepat, mendorong batas-batas apa yang program tersebut mampu terima. Dengan GPT-2, mereka meninggalkan BookCorpus dan menggunakan dataset buatan sendiri, yang terdiri daripada lapan juta halaman web yang dijaring dari pautan keluar dari Reddit, dengan jumlah data sebanyak 40GB.

Latihan GPT-3 masih lebih besar, terdiri daripada dataset CommonCrawl yang popular yang terdiri daripada laman web dari tahun 2016 hingga 2019. Ia mempunyai jumlah data teks yang terkompres sebanyak 45TB dalam bentuk nominal, walaupun OpenAI mengurusinya untuk mengeluarkan data berulang dan memperbaiki kualiti sebaik mungkin. Versi akhirnya terdiri daripada 570GB data. OpenAI menambahkannya dengan beberapa dataset tambahan dari pelbagai jenis, termasuk data buku.

BAGAIMANA GPT-3 BERGANTUNG PADA KUASA KOMPUTASI?

Dengan kedatangan GPT-1, 2, dan 3, skala komputasi telah menjadi bahan penting dalam kemajuan. Model-model ini menggunakan daya komputer yang lebih besar saat dilatih untuk mencapai hasil yang lebih baik.

Apa yang mengoptimalkan rangkaian neural semasa latihan adalah penyesuaian beratannya. Berat-berat ini, juga dikenali sebagai parameter, adalah matriks, jajaran barisan dan lajur dengan mana setiap vektor dikali. Melalui perkalian, banyak vektor perkataan, atau pecahan perkataan, diberikan bobot yang lebih besar atau lebih kecil dalam output akhir apabila rangkaian neural diselaras untuk menutup jurang ralat.

OpenAI mendapati bahawa untuk berjaya dalam set data yang semakin besar mereka, mereka perlu menambah lebih banyak dan lebih banyak nilai bobot.

Pencipta Transformer asal dari Google mempunyai 110 juta parameter. GPT-1 mengikut reka bentuk yang sama. Dengan GPT-2, jumlah ini dipelbagaikan kepada 1.5 bilion parameter. Dengan GPT-3, bilangan parameter telah meroket kepada 175 bilion, menjadikan GPT-3 rangkaian neural terbesar yang pernah dilihat dunia.

Pendaraban adalah perkara yang mudah, tetapi apabila 175 bilion beras ditambah dengan setiap bit data input, merentasi berbilion-bilion bait data, ia menjadi satu latihan yang luar biasa dalam pemprosesan komputer serentak.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Dengan GPT-1, pada tahun 2018, OpenAI telah melangkah di rantau pengkomputeran praktikal. Meluasnya jumlah data yang digunakan memerlukan peningkatan juga dalam jumlah GPU. Model bahasa yang ada sebelum ini biasa diletakkan dalam satu GPU kerana saiz modelnya yang kecil. GPT-1 memerlukan masa sebulan untuk dilatih menggunakan lapan unit GPU yang beroperasi serentak.

Dengan GPT-3, OpenAI agak berhati-hati. Ia tidak menerangkan konfigurasi komputer yang tepat digunakan untuk latihan, selain daripada menyatakan bahawa ia berjalan di kumpulan cip Nvidia V100 yang beroperasi dalam Microsoft Azure. Syarikat tersebut menerangkan jumlah kitaran pengkomputeran yang diperlukan, menyatakan bahawa ia setara dengan menjalankan seribu trilion operasi titik-mengapung setiap saat selama 3,640 hari.

Pembuat komputer dan operator awan Lambda Computing telah mengira bahawa satu GPU akan mengambil masa selama 355 tahun untuk menjalankan pengiraan sebanyak itu, yang pada harga insiden GPU awan standard, akan berharga $4.6 juta. Dan kemudian ada hal memori. Untuk menyimpan semua nilai berat, memerlukan lebih dan lebih memori apabila parameter bertambah. GPT-3 dengan 175 bilion parameter memerlukan 700GB, 10 kali lebih besar daripada memori pada satu GPU.

Itu adalah jenis keperluan tenaga raksasa yang mendorong perkembangan cip komputer. Ia telah mendorong kenaikan harga saham Nvidia, pembekal GPU dominan untuk latihan AI, hampir 5,000% dalam sepuluh tahun yang lalu. Ia telah mencetuskan kelahiran sejumlah syarikat baru yang disokong oleh ratusan juta dolar dalam pembiayaan modal ventura, termasuk Cerebras Systems, Graphcore, dan Tachyum. Persaingan akan terus berkembang selagi membangunkan model yang lebih besar dan lebih besar menjadi fokus dalam bidang ini.

OpenAI telah menghasilkan kajian sendiri tentang peningkatan kuasa komputer yang diperlukan. Syarikat itu mencatatkan pada tahun 2018 bahawa jumlah kitaran komputasi yang digunakan oleh model-model latihan AI yang terbesar telah berkembang dua kali ganda setiap 3.4 bulan sejak 2012, kadar pertumbuhan yang lebih cepat daripada hukum Moore terkenal mengenai pertumbuhan transistor cip. (Perlu diingat, syarikat ini juga telah menghasilkan kajian yang menunjukkan bahawa dari segi unit, model-model yang lebih besar akhirnya lebih berkesan daripada rangkaian saraf sebelumnya yang melakukan kerja yang sama.)

Sudah ada model yang sedang dibangunkan yang menggunakan lebih daripada sejuta parameter, mengikut syarikat-syarikat yang dimaklumkan tentang projek-projek AI yang sangat sulit. Itu mungkin bukan had semata-mata, selagi syarikat-syarikat hyper-scale seperti Google sanggup menggunakan pusat data yang besar mereka untuk model yang semakin besar. Kebanyakan ahli AI bersetuju bahawa ukuran yang semakin besar akan menjadi norma untuk model pembelajaran mesin dalam masa yang akan datang.

"Dari segi impak terhadap AI sebagai bidang, bahagian yang paling menarik tentang GPT-3 adalah ia menunjukkan bahawa kita masih belum mencapai had skala AI," kata Kenny Daniel, CTO pembekal alat pengurusan AI Algorithmia, kepada ZDNet.

Selain meningkatkan penggunaan komputasi, impak besar lain dari GPT-3 jelas akan menjadi bagaimana ia mempercepat pemrograman dan pengembangan aplikasi secara umum. Demonstrasi Shameem tentang program JSX yang dibangun hanya dengan mengetik frasa hanyalah permulaan dari banyak hal yang akan datang.

Apa kelemahan GPT-3?

Walaupun terdapat peningkatan yang besar berbanding dengan versi sebelumnya, GPT-3 masih mempunyai banyak kelemahan, seperti yang diakui oleh para pengarangnya sendiri. "Walaupun secara keseluruhannya bermutu tinggi, penulisan ulang GPT-3 kadang-kadang mengulang diri dalam konteks dokumen, dan kehilangan koherensi dalam teks yang sangat panjang," mereka mencatat dalam kertas yang diterbitkan.

Program ini juga gagal untuk berfungsi dengan baik dalam beberapa ujian individu. "Secara khusus, GPT-3 mengalami kesulitan dalam menjawab soalan jenis 'Jika saya masukkan keju ke dalam peti sejuk, adakah ia akan meleleh?' tulis penulis, menjelaskan jenis perkara yang berkaitan dengan akal sehat ini menjadi sesuatu yang sukar bagi GPT-3.

Terdapat begitu banyak keghairahan yang timbul sejurus selepas GPT-3 diperkenalkan sehingga CEO syarikatnya, Sam Altman, secara terbuka meminta orang untuk mengawal keghairahan mereka.

"Hype mengenai GPT-3 terlalu berlebihan," twit Altman pada 19 Julai. "Ia mengagumkan (terima kasih atas pujian yang baik!) tetapi masih mempunyai kelemahan yang serius dan kadang-kadang membuat kesilapan yang sangat bodoh," tulisnya. "AI akan mengubah dunia, tetapi GPT-3 hanyalah gambaran awal yang sangat awal. Kita masih banyak lagi yang perlu difahami."

Hype GPT-3 terlalu banyak. Ia menakjubkan (terima kasih atas pujian yang baik!) tetapi masih mempunyai kelemahan yang serius dan kadang-kadang membuat kesalahan yang sangat bodoh. Kecerdasan Buatan akan mengubah dunia, tetapi GPT-3 hanya gambaran awal yang sangat awal. Masih banyak yang perlu kita fahami.

— Sam Altman (@sama) 19 Julai 2020

Orang lain di luar OpenAI telah menawarkan pemeriksaan realiti mereka sendiri. Seorang pengguna berpengalaman dari beberapa generasi GPT, Max Woolf, telah menulis di blog peribadinya bahawa GPT-3 lebih baik daripada apa yang datang sebelumnya, tetapi hanya secara purata. Terdapat spektrum kualiti teks yang dihasilkan, jadi beberapa contoh yang akan anda temui kelihatan luar biasa, dan yang lain tidak begitu baik. Woolf membandingkan GPT-3 dengan Siri Apple, yang mempunyai kebiasaan menghasilkan sampah dalam banyak kes. (Esai Woolf sangat berharga untuk dibaca secara keseluruhan kerana penganalisisan GPT-3 yang berfikir.)

Memang, apabila seseorang membaca lebih banyak contoh GPT-3, terutamanya huraian panjang, semangat awal akan menghilang. GPT-3 dalam huraian panjang cenderung hilang fokus, seperti yang dinyatakan. Apapun genre atau tugasnya, hasil teksnya menjadi terus-menerus dan membosankan, dengan ketidaksesuaian dalam naratif terjadi.

Beberapa programmer, walaupun bersemangat, telah mengumpulkan banyak kekurangan, hal-hal seperti upaya GPT-3 yang gagal dalam joke ala bapak. Dengan memberikan setup joke ala bapak sebagai input, "Apa yang dikatakan satu piring pada yang lain?," punchline joke ala bapak yang tepat adalah, "Makan malam gratis dari ku!" Tapi GPT-3 mungkin akan menjawab dengan tidak lucu, "Celupkan aku!"

Input yang diberikan oleh manusia: S. Apa yang dikatakan oleh satu pinggan kepada pinggan lain?

GPT-3-generat siap : A. Salam!

Sementara GPT-3 dapat menjawab pertanyaan yang seharusnya berhubungan dengan logika, seperti berapa banyak mata yang dimiliki oleh seekor jerapah, ia tidak dapat menghindari pertanyaan omong kosong dan malah memberikan jawaban omong kosong. Jika ditanyakan, "Berapa banyak mata yang dimiliki oleh kakiku?," ia akan dengan tulus menjawab, "Kakiku memiliki dua mata."

Satu cara untuk memahami semua mediokritas itu adalah dengan menyadari bahwa mendapatkan hasil yang baik dari GPT-3 sampai batas tertentu membutuhkan investasi dalam menciptakan prompt yang efektif. Beberapa prompt yang dirancang oleh manusia akan mendapatkan hasil yang lebih baik daripada prompt lainnya. Ini merupakan versi baru dari pepatah "sampah masuk, sampah keluar". Prompt nampaknya akan menjadi domain baru dalam pemrograman itu sendiri, yang membutuhkan kecerdasan dan kefasihan.

Bias merupakan satu pertimbangan besar, bukan hanya dengan GPT-3 tetapi juga dengan semua program yang bergantung pada pendistribusian bersyarat. Pendekatan asas program adalah memberi balik apa yang dimasukkan, seperti sebuah cermin. Ia mempunyai potensi untuk menggandakan bias dalam data. Telah ada perbincangan akademik mengenai keterlaluan bias dalam GPT-2.

Dengan GPT-3, ahli sains kecerdasan buatan Nvidia Anima Anandkumar memperingatkan bahawa kecenderungan menghasilkan output yang memihak, termasuk output yang bersifat rasial dan seksis, masih berlanjutan.

Saya terganggu melihat ini dirilis tanpa pertanggungjawaban atas bias. Dilatih ini pada korpus @reddit dengan banyaknya #rasisme dan #seksisme. Saya pernah bekerja dengan model-model ini dan teks yang dihasilkannya sangatlah bias. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11 Jun 2020

Dipetik mengenai kritikan Anandkumar, OpenAI memberitahu ZDNet, "Seperti semua model generatif yang semakin kuat, keadilan dan penyalahgunaan adalah kebimbangan kami."

"Inilah salah satu sebab mengapa kami berkongsi teknologi ini melalui API dan melancarkan dalam beta persendirian untuk memulakan," kata OpenAI kepada ZDNet. Syarikat tersebut mencatat bahawa "kami tidak akan menyokong penggunaan yang kami nilai boleh menyebabkan bahaya fizikal atau mental kepada manusia, termasuk tetapi tidak terhad kepada gangguan, penipuan sengaja, radikalisasi, astroturfing, atau spam."

OpenAI memberitahu ZDNet bahawa mereka menggunakan jenis wargaming peci putih dan hitam yang akrab untuk mengesan bahaya dalam program:

Kami telah melaksanakan apa yang kami sebut sebagai 'pasukan merah' yang bertugas untuk secara berterusan merosakkan sistem penapisan kandungan agar kami dapat mempelajari lebih lanjut tentang bagaimana dan mengapa model ini menghasilkan output yang tidak baik. Pasukan sepadanannya adalah "pasukan biru" yang bertugas untuk mengukur dan mengurangkan prasangka.

Isu besar lain adalah sifat GPT-3 yang sangat luas, dengan hanya memperkuat bagian terbesar dari kurva probabilitas bersyarat. Terdapat apa yang dikenal sebagai "ekor panjang" dan terkadang "ekor gemuk" dari distribusi probabilitas. Ini adalah kejadian yang lebih jarang dan mungkin merupakan contoh penggunaan bahasa yang paling inovatif. Memfokuskan pada pemantulan teks yang paling umum dalam masyarakat berisiko menghalangi kreativitas dan eksplorasi.

Buat masa ini, jawapan OpenAI terhadap masalah itu adalah pengaturan yang boleh diubah suai dalam GPT-3 yang dipanggil nilai suhu. Mengemudi dengan pemutar ini akan menala GPT-3 untuk memilih kombinasi kata yang kurang mungkin dan oleh itu menghasilkan teks yang mungkin lebih tidak biasa.

Satu kebimbangan yang lebih mendesak bagi perniagaan adalah tidak dapat menala GPT-3 dengan data khusus syarikat. Tanpa boleh menala apa-apa, sukar untuk mengkhususkan GPT-3 untuk sesuatu bidang industri, katakanlah. Ia mungkin berlaku bahawa mana-mana syarikat yang menggunakan perkhidmatan API berakhir dengan teks yang perlu dikaji semula untuk menjadikannya relevan dalam sesuatu bidang. Mungkin startup seperti Sapling akan membentuk ekosistem, setaraf dengan VAR (Peniaga Nilai Tambah) yang akan menyelesaikan isu tersebut. Mungkin, tetapi itu masih perlu dilihat.

Seandainya itu tidak cukup membuat bimbang, ada isu lain yang perlu dipertimbangkan iaitu GPT-3 sebagai perkhidmatan awan merupakan kotak hitam. Apa yang dimaksudkan dengan itu adalah syarikat-syarikat yang menggunakan perkhidmatan ini tidak tahu bagaimana ia menghasilkan outputnya -- terutamanya berbahaya jika kita mempertimbangkan isu-isu kecenderungan. Ekosistem pihak seperti Sapling yang meningkatkan GPT-3 mungkin menambahkan lapisan penyamaran yang lebih dalam pada masa yang sama ketika mereka meningkatkan perkhidmatan tersebut.

Sebagai sub-seksyen isu kotak hitam, GPT-3 dalam sesetengah kes boleh sahaja menghafal apa yang telah diserapinya dari web. Ini menimbulkan isu hak cipta. Sekiranya syarikat mengambil keluaran dari perkhidmatan API yang merupakan bahan yang dilindungi hak cipta, syarikat tersebut boleh melanggar hak cipta pihak lain. Apabila ditanya tentang hak cipta, OpenAI memberitahu ZDNet bahawa hak cipta teks yang dihasilkan oleh GPT-3 "milik pengguna, bukan milik OpenAI." Apa yang bermaksud dalam praktikannya belum lagi diketahui.

Pada masa ini, kekurangan praktikal terbesar adalah skala yang diperlukan untuk melatih dan menjalankan GPT-3. OpenAI mengakui hal tersebut dalam kertas formal. Penulis menulis bahawa perlu dilakukan kerja untuk mengira bagaimana kos model besar dikaji secara beransur-ansur dari masa ke masa berdasarkan nilai output yang dihasilkan.

Juga: Tidak, AI ini tidak dapat menyelesaikan kalimat anda

ADAKAH GPT-3 BENAR-BENAR BELAJAR?

Dalam pengertian sempit kata-kata tersebut, GPT-3 sedang belajar dalam arti bahwa bobot parameter diatur secara otomatis melalui penerimaan data pelatihan sehingga model bahasa menjadi lebih baik daripada hasil pemrograman eksplisitnya sendiri. Dalam hal itu, GPT-3 adalah kemajuan dalam pencarian komputer selama beberapa dekade yang dapat belajar fungsi untuk mentransformasikan data tanpa secara eksplisit dikodekan oleh manusia.

Dalam hal ini, seseorang akan bertanya sama ada mesin itu benar-benar pintar atau benar-benar belajar. Terdapat banyak cara untuk membahaskan perkara itu, tetapi pemikiran santai mencadangkan bahawa banyak perkara yang kita anggap sebagai pemikiran manusia tidak berlaku di sini.

Bayangkan jika anda boleh mempunyai skor angka dalam minda anda untuk menentukan berapa banyak perkataan yang mungkin muncul bersama-sama. Adakah anda katakan kemampuan anda untuk membentuk frasa, ayat, perenggan, dan keseluruhan teks adalah berfikir? Anda mungkin mengatakan bahawa ianya hanya statistik, dan bahawa sesuatu yang lain hilang.

Perbandingan telah dibuat antara pembelajaran mendalam dan Clever Hans yang terkenal, seekor kuda Jerman yang tuannya memamerkannya di hadapan orang ramai sebagai haiwan yang mampu melakukan aritmetik dengan kuku kakinya. Kemudian, diketahui bahawa Hans merespons isyarat badan dari tuannya untuk menekan kuku kakinya, dan tanpa isyarat tersebut, dia tidak mampu melakukan itu.

Seperti juga itu, kualiti manusia GPT-3 ini terhakis apabila diperiksa dengan lebih dekat. Apabila GPT-3 menjawab dengan betul kepada soalan benar-salah tentang esei hartanah New York, itu bukan kerana program itu tahu tentang hartanah atau New York. Program tersebut hanya menyimpan taburan kebarangkalian yang merekodkan pernyataan dalam teks dan format sepasang pernyataan-soalan, serta mampu memaparkannya dalam output.

Hans tidak tahu apa-apa tentang aritmetik, walaupun, dalam membela Hans, dia masih memiliki kecerdasan. Dalam hal jaringan saraf, para kritikus akan mengatakan hanya trik yang ada, tanpa ada kesadaran yang memadai.

Walalupun begitu, kecerdasan dan pembelajaran boleh bermakna banyak perkara, dan penanda aras telah berubah sepanjang tahun-tahun berkenaan kecerdasan buatan, seperti yang dicatatkan oleh Pamela McCorduck, sejarawan dalam bidang ini. Sesetengah mungkin berpendapat bahawa sebuah program yang boleh mengira kebarangkalian melalui himpunan teks yang luas mungkin merupakan jenis kecerdasan yang berbeza, mungkin suatu kecerdasan alien selain daripada kita sendiri. Mengabaikannya kelihatan terlalu tergesa-gesa.

Selain itu, rangkaian neural yang menghasilkan probabiliti bersyarat ini lebih daripada program statistik semata-mata. Perhitungan mereka adalah sifat muncul daripada beberapa operasi matematik serentak yang berlaku secara serentak, penalaan parameter berat. Jika memang mungkin untuk mempertimbangkan bentuk-bentuk kecerdasan lain, maka properti muncul seperti representasi terdistribusi yang terbentuk di dalam rangkaian neural mungkin menjadi tempat yang perlu dicari.

APAKAH MASA DEPAN GPT-3?

Sesuatu yang pasti adalah GPT-3 telah membuka bab baru dalam pembelajaran mesin. Ciri paling menariknya adalah kegeneralisasinya. Hanya beberapa tahun yang lalu, rangkaian saraf dibina dengan fungsi yang diselaraskan untuk tugas tertentu, seperti terjemahan atau menjawab soalan. Dataset dipilih dengan teliti untuk mencerminkan tugas tersebut. Sebaliknya, GPT-3 tidak mempunyai fungsi khusus untuk tugas tertentu, dan ia tidak memerlukan dataset khas. Ia hanya menyerap sebanyak mungkin teks dari mana-mana sumber dan mencerminkannya dalam outputnya.

Bagaimanapun, dalam pengiraan taburan kebarangkalian bersyarat meliputi segala gigabait teks itu, sebuah fungsi muncul yang boleh menghasilkan jawapan yang bersaing dalam pelbagai tugas. Ia merupakan kejayaan yang menakjubkan dalam kemudahan yang mungkin mempunyai banyak tahun pencapaian akan datang.

Walau bagaimanapun, tafsiran tersebut juga ada batasnya. Sebenarnya, penulis-penulis GPT-3 mencatat pada akhir kertas mereka bahawa arah pra-pelatihan mungkin akhirnya kehabisan daya. "Satu batasan yang lebih mendasar bagi pendekatan umum yang diterangkan dalam kertas ini [...] ialah ia mungkin akhirnya sampai kepada (atau sudah mungkin sampai kepada) had objektif pra-pelatihan."

Penulis-penulis mencadangkan arah baru yang menjanjikan mungkin termasuk "pembelajaran fungsi objektif daripada manusia," dan mencampurkan jenis-jenis pembelajaran mendalam lain, seperti pendekatan "pembelajaran penguatan" yang digunakan dalam AlphaZero oleh DeepMind untuk memenangi catur dan go. (Mereka sudah mula melaksanakan pendekatan-pendekatan sedemikian. Pada awal September, penulis-penulis OpenAI menunjukkan bahawa mereka dapat menggunakan pembelajaran penguatan untuk melatih GPT-3 untuk menghasilkan rumusan artikel yang lebih baik dengan memberi maklum balas manusia kepada model bahasa mengenai rumusan yang kedengaran lebih baik.)

Satu perkara yang mereka cadangkan adalah dengan menambahkan jenis data lain, seperti gambar, untuk melengkapkan "model dunia" program.

Benar, tahun-tahun mendatang kemungkinan besar akan melihat pendekatan umum ini menyebar ke modalitas lain selain teks, seperti gambar dan video. Bayangkan sebuah program seperti GPT-3 yang dapat menerjemahkan gambar ke kata-kata dan sebaliknya tanpa algoritma khusus untuk memodelkan hubungan antara keduanya. Misalnya, program tersebut dapat "mempelajari" deskripsi scene teks dari foto-foto atau memprediksi urutan fisik peristiwa dari deskripsi teks.

Pengarah AI Facebook, Yann LeCun, telah membuat hujah bahawa latihan tanpa pengawasan dalam pelbagai bentuk adalah masa depan pembelajaran mendalam. Jika itu benar, pendekatan pra-latihan yang diterapkan ke pelbagai modality data, dari suara kepada teks kepada imej kepada video, boleh dilihat sebagai satu arah masa depan yang sangat menjanjikan bagi gelombang tidak terawasi.

Apa itu GPT-3? Segalanya yang perniagaan anda perlu tahu tentang program kecerdasan buatan bahasa AI terobosan OpenAI