Gemini 在理解復雜數據和執行高級任務方面將對 GPT-4 構成強有力的競爭。

區分爲 Ultra、Pro、Nano 三個尺寸的 Gemini，不僅號稱在各種「AI 考試」中得了「高分」，演示視頻裏顯示的 Gemini 簡直就是「聽說讀寫」樣樣拿的「超級工具」。

按照官方說法，Gemini Ultra 最爲強大，兼具多模態能力、專業性與准確度，能以圖文、語音的形式輸入輸出不說，具體還能批改數學作業，指導運動員的動作與發力，還能夠執行復雜的繪制圖表、編碼等任務，在 MMLU（大規模多任務語言理解）測試裏甚至「超越了人類專家」。

不過，目前能供 C 端普通用戶體驗的是 Gemini Pro 版，按官方定位是「在各種任務上擴展的最佳模型」，已集成至谷歌此前發布的對話機器人 Bard 中；「在設備上執行任務的最高效模型」Gemini Nano 將置入谷歌智能手機 Pixel8 Pro；而「最大且最有能力，適用於高度復雜任務」的 Gemini Ultra，谷歌的計劃是在明年年初开放給开發者和企業用戶。

那么，Gemini 真的比 GPT-4 強嗎？

有網友發現，谷歌給出的 Gemini Ultra「考試成績」用的是自家的「試卷」（測試方法）；而彭博社指出，Gemini 的演示視頻非實時，網友們也覺得該視頻有剪輯痕跡。

《元宇宙日爆》實測了 Bard 的數學能力，該對話機器人已植入了精調的 Gemini Pro 模型，結果顯示，Bard 對復雜的數學題仍有理解錯誤，尤其是識圖方面。

谷歌展示 Gemini 「聽說讀寫」能力

Gemini 是谷歌從頭構建的多模態人工智能大模型。盡管在時間上落後 GPT-4 許多，但被谷歌以「能力最強」對外推出，「強」的一面是 Gemini 的多模態能力。

它能夠同時處理和解析文本、圖像、音頻、視頻以及代碼等多種數據類型，也就是說，用戶可以將各種形式的信息輸入給 Gemini，它不僅能理解，還能分析甚至按你的需求處理任務。

目前，Gemini 還在 1.0 版，按規模不同分爲 Ultra、Pro 和 Nano。Ultra 版本是適用於高度復雜的任務，而 Pro 版本則專注於多任務處理，Nano 版本則針對移動設備上的應用。三種版本有針對性地適用於多個不同場景，且在多項基准測試中展現出超群實力。

谷歌官方放出的宣傳視頻展示了 Gemini 超強的多模態能力，相信看完後你會驚呼。

「超級模型」Gemini Ultra 的背後有谷歌發布的測試數據支撐。在 32 個廣泛用於測評大型語言模型（LLM）的學術基准中，它在 30 個上性能超過了大模型領域當前的技術水平。

Gemini Ultra 號稱以 90.0% 的得分成爲第一個在 MMLU（大規模多任務語言理解）上「勝過人類專家的模型」，該測試使用數學、物理、歷史、法律、醫學和倫理學等 57 個學科的組合來測試世界知識和解決問題的能力。Gemini 在包括文本和編碼在內的一系列基准測試中超越了目前的技術水平。

MMLU 是一種針對大模型的語言理解能力的測評，包含了 57 個關於人類知識的多選題回答任務，涵蓋了初等數學、美國歷史、計算機科學、法律等，難度覆蓋高中水平到專家水平的人類知識，是目前主流的的大模型語義理解測評之一。

從谷歌給出的測試結果來看，Gemini 在理解復雜數據和執行高級任務方面將對 GPT-4 構成強有力的競爭。

谷歌稱 Gemini 在 MMLU 測評中首次超越人類專家

由於從一开始構建就基於多模態訓練，Gemini Ultra 理論上對文字、圖片、語音、視頻、代碼等各種形態的信息都能理解，這就給 AI 應用和使用場景帶來了更多可能性。

例如在教育領域，借助 Gemini Ultra 的多模態推理技能，凌亂的手寫筆記能被理解，學生解題時出錯的步驟能被發現，然後給出題目的正確解答和過程。這一套下來，不能說要淘汰教師吧，至少老師們也得到了一個高能 AI 助手。

Gemini 可以批改學生作業

在視頻的理解與推理上，Gemini Ultra 甚至展現出「足球教練」的素養，能分析運動員的動作與發力，還會給出具體的改進建議。

Gemini 可理解視頻內容並給運動員提供指導建議

對於復雜的圖像理解、代碼生成、指令跟蹤，Gemini Ultra 也不在話下。輸入圖像與提示次「我希望你採用左上角子圖中描繪的函數，將其乘以 1000，然後將其添加到左下子圖中描繪的函數中，生成 matplotlib 代碼單個結果圖」後，Gemini Ultra 能夠完美的執行逆圖形任務來推斷生成繪圖的代碼、執行額外的數學轉換並生成相關代碼。

從谷歌給出的這些案例看，Gemini Ultra 簡直是「地表最強」的大模型，觀衆朋友們最想知道的是，這個大模型界的「超級賽亞人」，咱啥時候能用上？

按照谷歌的披露，從 12 月 6 號开始，Bard 就會上載 Gemini Pro 的精細調整版本，用於更高級的推理、規劃、理解等，這是 Bard 自推出以來的最大升級。

需要注意的是，集成了 Gemini Pro 的 Bard 只提供英語支持，可在全球 170 多個國家和地區使用，計劃在不久的將來擴展到不同的模態，支持新的語言和地區。也就是說，中文用戶目前還無法完美體驗 Gemini Pro。

Gemini Nano 最先在谷歌的 Pixel 8 Pro 智能手機上應用，從 WhatsApp 开始，明年將支持更多的消息應用。

在未來幾個月中，Gemini 還將在更多的產品和服務中推出，包括 Search、Ads、Chrome 和 Duet AI。也就是說，谷歌的搜索引擎中也將輸入 Gemini 能力。

至於「最強」的 Gemini Ultra，普通用戶還得等等。谷歌說，它正在進行信任和安全性檢查，在推出前還得通過對人類反饋的微調和強化學習（RLHF）的進一步改進。

在這個過程中，Gemini Ultra 會有選擇地給客戶、开發人員、合作夥伴以及安全和責任專家拿來早期實驗，等待反饋，然後在明年初向开發人員和企業客戶开放。

Ultra 的 MMLU「試卷」疑爲谷歌版‍‍‍‍‍‍‍‍‍‍‍

展示的是最強的 Gemini Ultra，但推出和使用要緩一緩，谷歌這樣的操作很快就惹來了懷疑，真比 GPT-4 強嗎？

彭博社就出來「打臉」說，谷歌的模型和 OpenAI 相比還仍有差距，現在這能力也僅憑演示，而視頻演示還是錄制的，又不實時，很可能是「精心調整的文本提示與靜態圖像」。彭博社還指出，Gemini 的回答需要其他信息的輔助，在真正的交互中需要暗示性很強的提示。

圍觀演示視頻的網友們也覺得，視頻中有很明顯的剪輯痕跡，「強大的能力存在水分」。

而谷歌給 Gemini Ultra 考試的 MMLU 測評，被網友指出用的是自家出的「試卷」。在 57 個科目的多選題測試中，得了 90 分的 Ultra，底下分明標着「CoT@32*」，這是谷歌自己調試的測評方案。如果採用和 GPT-4 同樣的標准，它的得分只有 83.7，還不如得分 86.4 的 GPT-4。

Gemini Ultra 在谷歌調整的測試方案中得分 90

學術上的事情太專業，好在谷歌已經把 Gemini 植入了 Bard，盡管用的是 Utral 的低配版 Pro，但也號稱能多任務處理，這是普通大衆最能直接測試 Gemini 的方式了。

《元宇宙日爆》直接選用了數學題，因爲 ChatGPT 對數學就不太精通，而有唯一正確性的數學被 OpenAI 視作通往 AGI 的基礎，咱來看看被輸入 Gemini 能力的 Bard 是否擅長數學。

我們統一用英文進行提問，題 1 爲求算圓錐體積，題 2 爲稍難的幾何證明題。

測試結果表明，Gemini Pro 能夠准確識別圖像以及圖片內的文字，也能夠正確解決簡單數學問題，但在處理復雜數學題時，仍然存在明顯錯誤。題 2 中的錯誤就很明顯，Bard 在第 2 步將 EG 與 AB 兩條线錯誤地證明爲相互垂直。

有 Gemin Pro 能力的 Bard 做數學題還不完美

這難道是因爲 Bard 用的是 Gemini Pro 而顯得不夠強大？那咱只能等 Ultra 加入再測試了。

而會引入智能手機 Pixel 8 Pro 的 Gemini Nano，將應用在「記錄器摘要」和「Gboard 智能回復」兩項功能中。

按谷歌說法，即使手機不連網，記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要；而智能回復功能類似掛斷電話後的自動回復，Gemini Nano 可以識別來信的內容，生成對應的回復。不過，這兩項功能，目前也只支持英文文本的識別。

按照 DeepMind 曾提出的 AGI 評估框架，在 AGI-1 階段，人工智能將能夠跨領域和跨模態地進行學習和推理，在多個領域和任務上表現出智能，如問答、摘要、翻譯、對話等，實現與人類和其他 AI 進行基本的溝通和協作，感知和表達簡單的情感和價值。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

谷歌祭出多模態「殺器」，Gemini 真能碾壓 GPT-4 嗎？

谷歌展示 Gemini 「聽說讀寫」能力

Ultra 的 MMLU「試卷」疑爲谷歌版‍‍‍‍‍‍‍‍‍‍‍

相關推薦

最新資訊

回頂部