Foto: Reuters.
JAKARTA – Meta secara publik merilis rangkaian model AI baru, yang disebut Chameleon, yang sebanding dengan alat komersial seperti Gemini Pro dan GPT-4V.
Sebuah makalah yang membahas berbagai hal terkait AI ini menunjukkan bahwa Chameleon, yang hadir dengan versi parameter 7 miliar dan 34 miliar, mampu memahami dan menghasilkan gambar dan teks.
Chameleon juga dapat memproses kombinasi teks dan gambar (yang mungkin terkait satu sama lain) dan menghasilkan respons yang bermakna, kata Meta, sebagaimana dilansir Tom’s Guide.
Anda bisa memotret isi lemari es Anda dan menanyakan apa yang bisa Anda masak hanya dengan bahan-bahan yang Anda miliki. Hal ini tidak mungkin terjadi pada model AI generasi Llama dan membawa open source lebih dekat ke model visi mainstream yang lebih tinggi dari OpenAI dan Google.
Setelah makalah tersebut dipublikasikan, tim Fundamental AI Research (FAIR) di Meta kini telah merilis model tersebut secara publik untuk tujuan penelitian, meskipun dengan beberapa keterbatasan.
Penulis makalah ini mengatakan bahwa kunci kesuksesan Chameleon adalah arsitekturnya yang sepenuhnya berbasis token. Model belajar untuk mempertimbangkan gambar dan teks secara bersamaan, hal ini tidak mungkin dilakukan pada model yang menggunakan encoder terpisah untuk setiap masukan.
Tantangan teknis yang harus diatasi oleh tim Meta termasuk tantangan terkait stabilitas dan penskalaan pengoptimalan. Mereka melakukannya dengan menggunakan metode dan teknik pelatihan baru.