Google telah mengumumkan PaLM 2: model bahasa AI terbaru dan pesaing untuk sistem pesaing seperti GPT-4 OpenAI.

“Model PaLM 2 lebih kuat dalam logika dan penalaran, berkat pelatihan ekstensif dalam logika dan penalaran,” kata CEO Google Sundar Pichai di atas panggung pada konferensi I/O perusahaan. “Itu juga dilatih dengan skrip multibahasa yang mencakup lebih dari 100 bahasa.”

PaLM 2 jauh lebih baik dalam berbagai tugas berbasis teks, termasuk penalaran, pengkodean, dan terjemahan, direktur riset senior Google Slav Petrov mengatakan kepada wartawan di meja bundar sebelum pengumuman model di Google I/O. Ini meningkat secara signifikan dibandingkan dengan PaLM 1 (yang sebelumnya Diumumkan pada April 2022) kata Petrov.

Sebagai contoh kemampuan multibahasanya, Petrov menunjukkan bagaimana PaLM 2 mampu memahami idiom dalam berbagai bahasa, memberikan contoh frasa bahasa Jerman “Ich verstehe nur Bahnhof”, yang secara harfiah diterjemahkan menjadi “Saya hanya mengerti stasiun kereta” tetapi lebih baik dipahami sebagai “tidak”. Saya mengerti apa yang Anda katakan” atau, seperti istilah bahasa Inggrisnya, “Itu semua bahasa Yunani bagi saya.”

Dalam sebuah makalah yang menjelaskan kemampuan PaLM 2, para insinyur Google mengklaim bahwa kemahiran bahasa sistem “cukup untuk mengajarkan bahasa tersebut” dan mencatat bahwa hal ini sebagian disebabkan tingginya prevalensi teks non-Inggris dalam data pelatihannya.

Contoh keterampilan multibahasa yang diperluas di PaLM 2.
Gambar: Google

Seperti paradigma bahasa besar lainnya, yang membutuhkan banyak waktu dan sumber daya untuk dibuat, PaLM 2 bukanlah satu produk lebih dari rangkaian produk – dengan versi yang berbeda untuk digunakan dalam pengaturan konsumen dan perusahaan. Sistem ini tersedia dalam empat ukuran, bernama Gecko, Otter, Bison, dan Unicorn, dari yang terkecil hingga yang terbesar, dan telah disesuaikan dengan data khusus domain untuk melakukan tugas khusus bagi pelanggan perusahaan.

Pikirkan modifikasi ini seperti mengambil bodi truk dasar dan menambahkan mesin baru atau bemper depan untuk menyelesaikan pekerjaan tertentu atau bekerja lebih baik di medan tertentu. Ada versi PaLM yang dilatih dalam data kesehatan (Med-PaLM 2), yang menurut Google dapat menjawab pertanyaan serupa dengan yang ada di ujian lisensi medis AS ke tingkat “ahli”, dan versi lain yang dilatih dalam data keamanan siber (Sec-PaLM).2) Itu dapat “menafsirkan perilaku skrip yang berpotensi berbahaya dan membantu mendeteksi ancaman dalam kode Anda,” kata Petrov. Kedua model akan tersedia melalui Google Cloud, awalnya untuk memilih pelanggan.

Di dalam domain Google sendiri, PaLM 2 sudah digunakan untuk mendukung 25 fitur dan produk, termasuk Bard, chatbot eksperimental perusahaan. Pembaruan yang tersedia melalui Bard mencakup peningkatan kemampuan pengkodean dan dukungan bahasa yang lebih baik. Ini juga digunakan untuk mendukung fitur di aplikasi Google Workspace seperti Dokumen, Slide, dan Spreadsheet.

Khususnya, Google mengatakan bahwa versi paling ringan dari PaLM 2, Gecko, cukup kecil untuk dijalankan di ponsel, memproses 20 simbol per detik — kira-kira setara dengan 16 atau 17 kata. Google tidak mengatakan perangkat mana yang digunakan untuk menguji model ini, tetapi puas dengan bekerja “pada ponsel terbaru”. Namun, miniaturisasi model bahasa seperti itu penting. Sistem ini mahal untuk dijalankan di cloud, dan dapat menggunakannya secara lokal akan memberikan keuntungan lain, seperti peningkatan privasi. Masalahnya adalah bahwa versi model bahasa yang lebih kecil pasti kurang mampu dibandingkan saudara-saudaranya yang lebih besar.

Contoh kemampuan penalaran yang ditingkatkan dari PaLM 2.
Gambar: Google

Dengan PaLM 2, Google berharap dapat menjembatani “kesenjangan AI” antara perusahaan dan pesaing seperti Microsoft, yang telah secara agresif memasukkan alat bahasa AI ke dalam rangkaian perangkat lunak Office-nya. Microsoft kini menawarkan fitur AI yang membantu meringkas dokumen, menulis email, membuat slide untuk presentasi, dan banyak lagi. Google perlu menjaga keseimbangan dengan perusahaan atau berisiko dianggap lambat dalam mengimplementasikan penelitian AI-nya.

Meskipun PaLM 2 tentu saja merupakan langkah maju untuk pekerjaan Google pada model bahasa AI, ia mengalami masalah dan tantangan yang umum terjadi pada teknologi secara lebih luas.

Misalnya, beberapa pakar mulai mempertanyakan keabsahan data pelatihan yang digunakan untuk membuat model bahasa. Data ini biasanya diekstraksi dari Internet dan seringkali menyertakan teks berhak cipta dan e-book bajakan. Perusahaan teknologi yang membuat model ini umumnya menjawab dengan menolak menjawab pertanyaan tentang sumber data pelatihan mereka. Google melanjutkan tradisi ini dalam penjelasannya tentang PaLM 2, hanya mencatat bahwa rangkaian pelatihan sistem terdiri dari “berbagai sumber: dokumen web, buku, kode, matematika, dan data percakapan”, tanpa memberikan detail lebih lanjut.

Ada juga masalah yang melekat dengan keluaran model bahasa seperti ‘halusinasi’, atau kecenderungan sistem ini untuk sekadar mengarang informasi. Berbicara kepada tepiWakil Presiden Riset Google Zubin Ghahramani mengatakan bahwa PaLM 2 merupakan peningkatan dari model sebelumnya “dalam artian bahwa kami berupaya keras untuk terus meningkatkan landasan dan metrik atribusi” tetapi mencatat bahwa bidang secara keseluruhan “masih jauh dari kita.” Salah satu cara untuk memerangi kesalahan informasi yang dihasilkan oleh kecerdasan buatan.