區分爲 Ultra、Pro、Nano 三個尺寸的 Gemini,不僅號稱在各種「AI 考試」中得了「高分」,演示視頻裏顯示的 Gemini 簡直就是「聽說讀寫」樣樣拿的「超級工具」。
按照官方說法,Gemini Ultra 最爲強大,兼具多模態能力、專業性與准確度,能以圖文、語音的形式輸入輸出不說,具體還能批改數學作業,指導運動員的動作與發力,還能夠執行復雜的繪制圖表、編碼等任務,在 MMLU(大規模多任務語言理解)測試裏甚至「超越了人類專家」。
不過,目前能供 C 端普通用戶體驗的是 Gemini Pro 版,按官方定位是「在各種任務上擴展的最佳模型」,已集成至谷歌此前發布的對話機器人 Bard 中;「在設備上執行任務的最高效模型」Gemini Nano 將置入谷歌智能手機 Pixel8 Pro;而「最大且最有能力,適用於高度復雜任務」的 Gemini Ultra,谷歌的計劃是在明年年初开放給开發者和企業用戶。
那么,Gemini 真的比 GPT-4 強嗎?
有網友發現,谷歌給出的 Gemini Ultra「考試成績」用的是自家的「試卷」(測試方法);而彭博社指出,Gemini 的演示視頻非實時,網友們也覺得該視頻有剪輯痕跡。
《元宇宙日爆》實測了 Bard 的數學能力,該對話機器人已植入了精調的 Gemini Pro 模型,結果顯示,Bard 對復雜的數學題仍有理解錯誤,尤其是識圖方面。
谷歌展示 Gemini 「聽說讀寫」能力
Gemini 是谷歌從頭構建的多模態人工智能大模型。盡管在時間上落後 GPT-4 許多,但被谷歌以「能力最強」對外推出,「強」的一面是 Gemini 的多模態能力。
它能夠同時處理和解析文本、圖像、音頻、視頻以及代碼等多種數據類型,也就是說,用戶可以將各種形式的信息輸入給 Gemini,它不僅能理解,還能分析甚至按你的需求處理任務。
目前,Gemini 還在 1.0 版,按規模不同分爲 Ultra、Pro 和 Nano。Ultra 版本是適用於高度復雜的任務,而 Pro 版本則專注於多任務處理,Nano 版本則針對移動設備上的應用。三種版本有針對性地適用於多個不同場景,且在多項基准測試中展現出超群實力。
谷歌官方放出的宣傳視頻展示了 Gemini 超強的多模態能力,相信看完後你會驚呼。
「超級模型」Gemini Ultra 的背後有谷歌發布的測試數據支撐。在 32 個廣泛用於測評大型語言模型(LLM)的學術基准中,它在 30 個上性能超過了大模型領域當前的技術水平。
Gemini Ultra 號稱以 90.0% 的得分成爲第一個在 MMLU(大規模多任務語言理解)上「勝過人類專家的模型」,該測試使用數學、物理、歷史、法律、醫學和倫理學等 57 個學科的組合來測試世界知識和解決問題的能力。Gemini 在包括文本和編碼在內的一系列基准測試中超越了目前的技術水平。
MMLU 是一種針對大模型的語言理解能力的測評,包含了 57 個關於人類知識的多選題回答任務,涵蓋了初等數學、美國歷史、計算機科學、法律等,難度覆蓋高中水平到專家水平的人類知識,是目前主流的的大模型語義理解測評之一。
從谷歌給出的測試結果來看,Gemini 在理解復雜數據和執行高級任務方面將對 GPT-4 構成強有力的競爭。
谷歌稱 Gemini 在 MMLU 測評中首次超越人類專家
由於從一开始構建就基於多模態訓練,Gemini Ultra 理論上對文字、圖片、語音、視頻、代碼等各種形態的信息都能理解,這就給 AI 應用和使用場景帶來了更多可能性。
例如在教育領域,借助 Gemini Ultra 的多模態推理技能,凌亂的手寫筆記能被理解,學生解題時出錯的步驟能被發現,然後給出題目的正確解答和過程。這一套下來,不能說要淘汰教師吧,至少老師們也得到了一個高能 AI 助手。
Gemini 可以批改學生作業
在視頻的理解與推理上,Gemini Ultra 甚至展現出「足球教練」的素養,能分析運動員的動作與發力,還會給出具體的改進建議。
Gemini 可理解視頻內容並給運動員提供指導建議
對於復雜的圖像理解、代碼生成、指令跟蹤,Gemini Ultra 也不在話下。輸入圖像與提示次「我希望你採用左上角子圖中描繪的函數,將其乘以 1000,然後將其添加到左下子圖中描繪的函數中,生成 matplotlib 代碼單個結果圖」後,Gemini Ultra 能夠完美的執行逆圖形任務來推斷生成繪圖的代碼、執行額外的數學轉換並生成相關代碼。
從谷歌給出的這些案例看,Gemini Ultra 簡直是「地表最強」的大模型,觀衆朋友們最想知道的是,這個大模型界的「超級賽亞人」,咱啥時候能用上?
按照谷歌的披露,從 12 月 6 號开始,Bard 就會上載 Gemini Pro 的精細調整版本,用於更高級的推理、規劃、理解等,這是 Bard 自推出以來的最大升級。
需要注意的是,集成了 Gemini Pro 的 Bard 只提供英語支持,可在全球 170 多個國家和地區使用,計劃在不久的將來擴展到不同的模態,支持新的語言和地區。也就是說,中文用戶目前還無法完美體驗 Gemini Pro。
Gemini Nano 最先在谷歌的 Pixel 8 Pro 智能手機上應用,從 WhatsApp 开始,明年將支持更多的消息應用。
在未來幾個月中,Gemini 還將在更多的產品和服務中推出,包括 Search、Ads、Chrome 和 Duet AI。也就是說,谷歌的搜索引擎中也將輸入 Gemini 能力。
至於「最強」的 Gemini Ultra,普通用戶還得等等。谷歌說,它正在進行信任和安全性檢查,在推出前還得通過對人類反饋的微調和強化學習(RLHF)的進一步改進。
在這個過程中,Gemini Ultra 會有選擇地給客戶、开發人員、合作夥伴以及安全和責任專家拿來早期實驗,等待反饋,然後在明年初向开發人員和企業客戶开放。
Ultra 的 MMLU「試卷」疑爲谷歌版
展示的是最強的 Gemini Ultra,但推出和使用要緩一緩,谷歌這樣的操作很快就惹來了懷疑,真比 GPT-4 強嗎?
彭博社就出來「打臉」說,谷歌的模型和 OpenAI 相比還仍有差距,現在這能力也僅憑演示,而視頻演示還是錄制的,又不實時,很可能是「精心調整的文本提示與靜態圖像」。彭博社還指出,Gemini 的回答需要其他信息的輔助,在真正的交互中需要暗示性很強的提示。
圍觀演示視頻的網友們也覺得,視頻中有很明顯的剪輯痕跡,「強大的能力存在水分」。
而谷歌給 Gemini Ultra 考試的 MMLU 測評,被網友指出用的是自家出的「試卷」。在 57 個科目的多選題測試中,得了 90 分的 Ultra,底下分明標着「CoT@32*」,這是谷歌自己調試的測評方案。如果採用和 GPT-4 同樣的標准,它的得分只有 83.7,還不如得分 86.4 的 GPT-4。
Gemini Ultra 在谷歌調整的測試方案中得分 90
學術上的事情太專業,好在谷歌已經把 Gemini 植入了 Bard,盡管用的是 Utral 的低配版 Pro,但也號稱能多任務處理,這是普通大衆最能直接測試 Gemini 的方式了。
《元宇宙日爆》直接選用了數學題,因爲 ChatGPT 對數學就不太精通,而有唯一正確性的數學被 OpenAI 視作通往 AGI 的基礎,咱來看看被輸入 Gemini 能力的 Bard 是否擅長數學。
我們統一用英文進行提問,題 1 爲求算圓錐體積,題 2 爲稍難的幾何證明題。
測試結果表明,Gemini Pro 能夠准確識別圖像以及圖片內的文字,也能夠正確解決簡單數學問題,但在處理復雜數學題時,仍然存在明顯錯誤。題 2 中的錯誤就很明顯,Bard 在第 2 步將 EG 與 AB 兩條线錯誤地證明爲相互垂直。
有 Gemin Pro 能力的 Bard 做數學題還不完美
這難道是因爲 Bard 用的是 Gemini Pro 而顯得不夠強大?那咱只能等 Ultra 加入再測試了。
而會引入智能手機 Pixel 8 Pro 的 Gemini Nano,將應用在「記錄器摘要」和 「Gboard 智能回復」兩項功能中。
按谷歌說法,即使手機不連網,記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要;而智能回復功能類似掛斷電話後的自動回復,Gemini Nano 可以識別來信的內容,生成對應的回復。不過,這兩項功能,目前也只支持英文文本的識別。
按照 DeepMind 曾提出的 AGI 評估框架,在 AGI-1 階段,人工智能將能夠跨領域和跨模態地進行學習和推理,在多個領域和任務上表現出智能,如問答、摘要、翻譯、對話等,實現與人類和其他 AI 進行基本的溝通和協作,感知和表達簡單的情感和價值。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。