Google baru saja menggabungkan DeepMind dan Google Brain menjadi satu tim AI besar, dan pada hari Rabu, Google DeepMind yang baru membagikan detail tentang bagaimana ia menggunakan Model Bahasa Visual (VLM) untuk membuat deskripsi video pendek YouTube, yang dapat membantu penemuan.
“Film pendek dibuat hanya dalam beberapa menit dan seringkali tidak menyertakan deskripsi dan judul yang berguna, yang membuatnya semakin sulit ditemukan melalui pencarian.” DeepMind menulis di pos. Flamingo dapat membuat deskripsi ini dengan menganalisis bingkai mentah video untuk menjelaskan apa yang terjadi. (DeepMind memberikan contoh “seekor anjing menyeimbangkan tumpukan biskuit di kepalanya.”) Deskripsi teks akan disimpan sebagai metadata untuk “mengkategorikan video dengan lebih baik dan mencocokkan hasil penelusuran dengan kueri penonton”.
Ini memecahkan masalah nyata, kata Colin Murdoch, kepala bisnis Google DeepMind tepi: Untuk film pendek, pembuat terkadang tidak menambahkan metadata karena proses pembuatan video jauh lebih sederhana daripada video yang lebih panjang. Todd Sherman, direktur manajemen produk untuk Shorts, menambahkan bahwa karena video shorts sebagian besar dilihat di feed tempat orang-orang men-scroll ke video berikutnya daripada menjelajahinya secara aktif, tidak ada banyak insentif untuk menambahkan metadata.
“Model Flamingo ini — mampu memahami video ini dan menyediakan teks deskriptif — benar-benar berguna untuk membantu sistem kami yang benar-benar mencari metadata ini,” kata Sherman. “Ini memungkinkan mereka untuk memahami video ini dengan lebih efektif sehingga kami dapat mencocokkannya dengan pengguna saat mereka mencarinya.”
Deskripsi yang dihasilkan tidak akan menghadap pengguna. “Kita berbicara tentang metadata di balik layar,” kata Sherman. “Kami tidak memberikannya kepada pembuatnya, tetapi banyak upaya dilakukan untuk memastikannya akurat.” Adapun bagaimana Google akan memastikan deskripsi ini akurat, Sherman mengatakan: “Semua teks deskriptif akan mematuhi standar tanggung jawab kami.” “Sangat tidak mungkin bahwa teks deskriptif yang membingkai video entah bagaimana dibuat dalam cahaya yang buruk. Ini sama sekali bukan hasil yang kami harapkan.”
Flamingo sudah menerapkan deskripsi yang dibuat secara otomatis untuk unggahan film pendek baru
Flamingo sudah menerapkan deskripsi yang dibuat secara otomatis untuk unggahan program pendek baru, dan telah melakukannya untuk “banyak pilihan video yang ada, termasuk video yang paling banyak dilihat,” menurut juru bicara DeepMind Duncan Smith.
Saya harus bertanya apakah Flamingo akan diterapkan ke format video YouTube yang lebih panjang. “Saya pikir sangat masuk akal hal itu bisa terjadi,” kata Sherman. “Tapi saya pikir kebutuhannya mungkin sedikit berkurang.” Dia mencatat bahwa untuk video yang lebih panjang, pembuat konten mungkin menghabiskan waktu berjam-jam untuk hal-hal seperti praproduksi, pengambilan gambar, dan pengeditan, jadi menambahkan metadata adalah bagian yang relatif kecil dari proses pembuatan video. Dan karena orang sering menonton video berdurasi lebih lama berdasarkan hal-hal seperti judul dan gambar mini, pembuat konten terdorong untuk menambahkan metadata yang membantu video mudah ditemukan.
Jadi saya kira jawabannya adalah kita harus menunggu dan melihat. Tetapi mengingat dorongan besar Google untuk memasukkan AI ke dalam hampir semua hal yang dilakukannya, menerapkan sesuatu seperti Flamingo untuk memformat video YouTube yang lebih panjang tampaknya tidak keluar dari kemungkinan, yang dapat berdampak besar pada pencarian YouTube di masa mendatang.