Duplikat ChatGPT Sumber Terbuka Baru

Open Source GPT Chat juga mengambil langkah selanjutnya dengan peluncuran Dolly Large Language Model (DLL) yang dibuat oleh perusahaan perangkat lunak enterprise Databricks.

Salinan ChatGPT baru dinamakan Dolly, dinamakan sempena biri-biri terkenal yang bernama sama, mamalia pertama yang diklon.

Model Bahasa Besar Sumber Terbuka

Dolly LLM adalah manifestasi terkini gerakan AI sumber terbuka yang semakin berkembang, yang bertujuan untuk menyediakan akses yang lebih besar terhadap teknologi ini agar tidak dimonopoli dan dikendalikan oleh korporasi besar.

Salah satu kebimbangan yang mendorong pergerakan AI sumber terbuka adalah bahawa perniagaan mungkin enggan untuk memberikan data sensitif kepada pihak ketiga yang mengawal teknologi AI.

Berdasarkan Sumber Terbuka

Dolly telah dicipta daripada model open source yang dibangunkan oleh institut penyelidikan tidak bercorak untung EleutherAI dan model Stanford University Alpaca itu sendiri yang dicipta daripada model LLaMA open source dengan 65 bilion parameter yang dicipta oleh Meta.

LLaMA, yang merupakan singkatan bagi Large Language Model Meta AI, merupakan sebuah model bahasa yang dilatih berdasarkan data yang tersedia secara umum.

Menurut satu artikel oleh Weights & Biases, LLaMA boleh mengungguli banyak model bahasa terkemuka (OpenAI GPT-3, Gopher by Deep Mind dan Chinchilla by DeepMind) walaupun lebih kecil.

Mencipta Set Data yang Lebih Baik

Sebuah inspirasi lain datang dari sebuah kertas penyelidikan akademik (SELF-INSTRUCT: Menyelaraskan Model Bahasa dengan Arahan Dijana Sendiri PDF) yang menggariskan satu cara untuk mencipta data latihan soalan dan jawapan autogenerasi berkualiti tinggi yang lebih baik daripada data awam yang terhad.

Kertas penyelidikan Self-Instruct menjelaskan:

"...kami mengumpulkan satu set arahan yang ditulis oleh pakar untuk tugas-tugas baru, dan melalui penilaian manusia, kami menunjukkan bahawa penalaan GPT3 dengan SELF-INSTRUCT mengungguli penggunaan dataset arahan awam yang sedia ada dengan jarak relatif besar, hanya meninggalkan jurang mutlak 5% di belakang InstructGPT...

...Dengan menerapkan kaedah kami ke GPT3 vanilla, kami memperlihatkan peningkatan mutlak sebanyak 33% berbanding model asal dalam SUPERNATURALINSTRUCTIONS, setanding dengan prestasi InstructGPT... yang dilatih dengan data pengguna peribadi dan anotasi manusia."

Kepentingan Dolly adalah bahawa ia menunjukkan bahawa model bahasa besar yang berguna boleh dicipta dengan set data yang lebih kecil tetapi berkualiti tinggi.

Databricks mengamati:

"Dolly berfungsi dengan mengambil model sumber terbuka dengan 6 bilion parameter dari EleutherAI dan mengubahnya sedikit untuk mencapai kemampuan mengikuti instruksi seperti berkelompok pikir dan generasi teks yang tidak ada dalam model asal, menggunakan data dari Alpaca."

...Kami menunjukkan bahawa sesiapa pun dapat mengambil model bahasa besar open source yang telah disesuaikan (LLM) dan memberikannya kemampuan mengikuti arahan seperti ChatGPT dengan ajaib dengan melatihnya dalam masa 30 minit pada satu mesin, menggunakan data latihan berkualiti tinggi.

Secara mengejutkan, mengikuti petunjuk tidak memerlukan model terbaru atau terbesar: model kami hanya memiliki 6 bilion parameter, dibandingkan dengan 175 bilion pada GPT-3."

Inteligensi Buatan Open Source Databricks

Dolly dikatakan menjadikan AI demokratik. Ia merupakan sebahagian daripada gerakan yang semakin berkembang yang baru-baru ini disertai oleh organisasi bukan untung Mozilla dengan penubuhannya Mozilla.ai. Mozilla adalah penerbit pelayar Firefox dan perisian sumber terbuka lain.

Clone ChatGPT Sumber Terbuka Baru - Dijuluki Dolly

Model Bahasa Besar Sumber Terbuka

Berdasarkan Sumber Terbuka

Mencipta Set Data yang Lebih Baik

Inteligensi Buatan Open Source Databricks

Artikel Berkaitan