作者:Tristan Greene,CoinTelegraph;編譯:陶朱,金色財經
生成式人工智能基准測試領域又出現了一位新霸主,它的名字是 Gemini 1.5 Pro。
之前的冠軍 OpenAI 的 ChatGPT-4o 終於在 8 月 1 日被超越,當時谷歌悄然發布了其最新模型的實驗版本。
Gemini 的最新更新沒有大張旗鼓地發布,目前被標記爲實驗性的。但它很快引起了社交媒體上人工智能社區的關注,因爲有報道稱它在基准測試分數上超越了競爭對手。
人工智能基准
自 GPT-3 發布以來,OpenAI 的 ChatGPT 一直是生成式 AI 的標杆。過去一年左右,其最新模型 GPT-4o 和最接近的競爭對手 Anthropic 的 Claude-3 在大多數常見基准測試中都遙遙領先於大多數其他模型,幾乎沒有遇到任何競爭對手。
來源:大型模型系統組織。
最受歡迎的基准測試之一是 LMSYS Chatbot Arena。它測試各種任務的模型並分配總體能力分數。GPT-4o 的得分爲 1,286,而 Claude-3 獲得了可觀的 1,271 分。
Gemini 1.5 Pro 的先前版本得分爲 1,261。但 8 月 1 日發布的實驗版本 (Gemini 1.5 Pro 0801) 得分高達 1,300。
這表明它總體上比競爭對手更強大,但基准測試並不一定能准確反映 AI 模型能做什么和不能做什么。
社區興奮
在沒有更深入的比較的情況下,我們正進入一個 AI 聊天機器人市場已經足夠成熟,可以提供多種選擇的時代。最終由用戶來決定哪種 AI 模型最適合他們。
據傳,Gemini 的最新版本引起了一波興奮,社交媒體上的用戶稱它“非常好”。一位 Redditor 甚至寫道,它“完全勝過 4o”。
目前尚不清楚 Gemini 1.5 Pro 的實驗版本是否會成爲未來的默認版本。雖然截至本文發表時,它仍然普遍可用,但它處於早期發布或測試階段這一事實表明,出於安全或協調原因,該模型可能會被撤銷或更改。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。