谷歌最強大的文生圖大模型 Imagen 2,可提供與用戶提示詞緊密結合且一致的高質量、逼真的圖像輸出。它可以通過使用訓練數(shù)據(jù)的自然分布來生成更逼真的圖像,而不是采用預先編程的風格。
谷歌的增強模型 Imagen 2是利用谷歌旗艦人工智能實驗室Google DeepMind的技術開發(fā)的,該模型在5月份的科技巨頭 I/O大會上悄悄推出了預覽版。谷歌聲稱,與第一代Imagen相比,它在圖像質量方面“顯著”提高,并引入了新功能,包括渲染文本和Logo的能力。
“Imagen 2 可以生成……徽章、字母標記和抽象徽標……[并且]能夠將這些徽標覆蓋到產(chǎn)品、服裝、名片和其他表面上。”
得益于“新穎的訓練和建模技術”,Imagen 2還可以理解更具描述性的長格式提示,并對有關圖像中元素的問題提供“詳細答案”。谷歌表示,這些技術還增強了 Imagen 2的多語言理解能力——允許模型將一種語言的提示翻譯成另一種語言的輸出(例如Logo)。
Imagen 2利用SynthID(DeepMind開發(fā)的一種方法)將隱形水印應用到其創(chuàng)建的圖像上。當然,檢測這些水印(谷歌聲稱這些水印能夠適應圖像編輯,包括壓縮、濾鏡和顏色調整)需要谷歌提供的工具,而第三方無法使用該工具。