過去的2023年裏,互聯網圈子最吸引眼球的話題莫過於大模型了。尤其是隨着文心一言、訊飛星火、百川、通義千問、混元等國產大模型紛紛上线,“調戲”大模型成了網友們日常熱衷的活動。然而,在運行了幾個月之後,不少中文語言大模型出現了在訓練時“相互借鑑”的現象。
12月初,谷歌推出了迄今爲止規模最大,能力最強的大模型Gemini,然而就在上线不久後,網友就發現其似乎使用了其他大模型的的語料庫:在使用Gemini Pro時,如果用簡體中文連續詢問“你好”和“你是誰”這兩個問題時,Gemini Pro會表示“我是文心大模型”,還會信誓旦旦的表示自己的創始人是百度總裁李彥宏。
這個問題實際上不止出現了一次。去年3月,谷歌Bard被爆出使用了ShareGPT中的內容作爲訓練數據,並且根據The Information報道,這件事情還造成了Jacob Devlin從谷歌離職;去年12月,字節跳動被OpenAI禁止使用API接口,原因是“字節在使用ChatGPT訓練自己的AI,違反了使用條例”。
根據中國科學技術信息研究院的統計,全國已有至少130家公司研究大模型產品,10億級參數規模以上大模型至少已經發布了79個,其中做通用大模型的有78家,做垂直大模型的有52家,應用場景橫跨客服、工業、醫療、汽車、遊戲等多個領域。而在全球範圍內,更多的LLM也在訓練中。不少的企業會有意無意的使用其他大模型使用的數據集進行訓練,或者直接利用其他大模型生成的數據進行訓練。
在訓練時“相互借鑑”的原因是,隨着大模型領域的競爭進入了白熱化階段,數據已經成爲了競爭的關鍵。一位大模型領域專家表示,大模型市場競爭的發令槍已經響起,“誰做的快”並不能主導競爭格局,“誰做的好”才是市場檢驗的標准。架構上難分高下,數據將成爲“做得好”的關鍵。
大模型架構高下難分
“誰更強”是大語言模型(LLM)領域的一個重要課題,從大語言模型誕生的那一天起,就有無數开發者和研究者對這個問題展开了研究。數據工程師陳鋒認爲:“評估一個大語言模型不能僅僅用訓練使用的數據量來進行對比,目前較爲成熟的評估模式有兩套。”
第一套是使用一套對話集對語言模型進行測試,這些對話包括不同的問題和指令,對語言模型的語義理解與抽取、闲聊、上下文對話、生成與創作、知識與百科、代碼、邏輯推理、計算、角色扮演、安全等指標進行測試,根據其回答的正確性給分。因爲測試維度較多,因此會形成數個包括綜合能力、分類能力在內的榜單。
中文測試基准基本上都採取了這套評估方案,比如CLiB(中文大模型能力評測榜單)、SuperCLUE(中文通用大模型綜合性基准)、C-Eval(中文基礎模型評估套件)等
第二套是“競技場”模式,如UC伯克利大學發布的LLM競技場榜單,用戶將同時與兩個不同的語言模型進行對話並標記出更好的一個,好評越多則評分越高。
綜合來看,幾乎在所有榜單中GPT-4都獲得了壓倒性的勝利,排名前列的還有Claude和GPT-3.5。在中文榜單中,文心一言v2.2、商湯senseChat、訊飛星火v1.5、Baichuan-53B等語言模型名列前茅,在信息抽取、閱讀理解、數據分析能力上各有勝負。
榜單中最值得注意的是开源模型Llama2,這款由Meta發布於今年7月19日的开源預訓練大模型在大模型領域掀起了一場軒然大波——在70 億、130 億和 700 億三種參數變體的測試結果中,Llama2擊敗了除GPT-4、GPT-3.5外幾乎全部商用模型。陳鋒說:“不少自研大模型的廠商开始考慮要不要放棄自研,用更便宜的开源模型,或在开源模型的基礎上進行开發。”正如去年5月谷歌工程師在內部發言中表示的:“當免費的开源模型與商業模型質量相當時,人們不會爲受限制的閉源模型付費。”
參數越多未必越好
陳鋒認爲,开源的Llama2從根本上拉平了商業模型之間的差距。在架構難以取得突破性進展之前,大語言模型領域的競爭就轉向了訓練數據的優劣。
2023年7月,一篇據信來自OpenAI員工的數據爆料中表示,OpenAI用13萬億個token訓出了GPT-4,120層網絡中總共有1.8萬億個參數。相較其他大模型,目前國內頭部公司公布的參數量通常在千億級別,其他企業或創業公司大模型參數量通常在百億、十億級別。
獨立开發者王南認爲,用更多的數據訓練AI,這個思路本身是沒有問題的。大語言模型的誕生本身就來自大量數據堆疊產生的“智能湧現”:當數據規模超過某個極限時,它們將展現出前所未有的新能力。王南表示,“通用大模型出現智能湧現的參數量一般認爲是600億,更多參數會不會再次出現智能湧現,誰也不知道。”
爲大模型增加更多參數是非常昂貴的,除了更多的數據成本和更長的訓練周期外,模型也要隨着參數的增加而進行優化。
大模型是不能一蹴而就的。要處理天量的數據,模型必須針對大量數據的處理進行優化,很多工程問題是數據量較小時不會出現的。“就好像建造一座體育場,能容納5000名觀衆和能容納10萬名觀衆的體育場面臨的問題肯定不一樣”,陳鋒表示,“大模型也是這樣,參數越多需要解決的問題就越多,开發的成本就越高。這個成本的增加不是线性的,而是指數增長。”
與指數提高的成本不同,參數量增加對於提高模型性能的幫助是有限的。“在十億、百億參數的級別上,提高參數量的效果是顯著的。但到千億萬億等級,增加參數量對模型能力的提升就比較小了。”
因此,將模型參數控制在百億到千億級別是綜合訓練成本和模型能力之後的必然結果。
垂直大模型成爲商業化答案
當大模型架構和參數量都被限制在一個狹窄的區域內後,大模型領域的競爭力從何而來?
去年《紐約時報》報道了一起離奇的案件。一位律師用ChatGPT生成了一份辯護狀並提交給了法院,法官隨即發現辯護狀中引用的十多個判例全部都是虛構的。這種人工智能“胡說八道”的現象被稱爲“人工智能幻覺”,目前幾乎所有的大語言模型都會出現這種問題。
毫無疑問,這些幻覺是阻礙大模型應用的關鍵因素之一,而業界目前對這個問題基本幾乎束手無策。
問題的源頭是數據。王南認爲,“一旦對大模型的高質量數據篩選和訓練得過少,大模型就會出現輸出質量問題,幻覺也會隨之而來。 但對於通用大模型來說,將人類所有領域知識轉化爲高質量數據進行訓練顯然只能是一個美好的愿望,唯一的方案是基於通用大模型針對不同的場景進行訓練,越垂直出錯的概率就越低。”
基於這種現狀,在通用大模型之外,面向特定應用場景的垂直領域大模型成爲了大模型領域的競爭焦點。
王南說,“利用垂直領域的、高質量的數據訓練出的垂直大模型,具有更強的領域專業性和任務針對性,能夠更好地解決特定領域的問題、提供更加精准的服務。”
垂直大模型已經成爲大模型商業化的核心,大模型頭部玩家紛紛推出了基於自身數據、硬件和模型的Maas(大模型即服務)。百度推出了百度智能雲千帆大模型平台,阿裏推出了魔搭社區,華爲則針對不同行業推出了盤古NLP、盤古CV、盤古多模態等多個模型。
數據質量決定垂直大模型質量
Maas的核心除了硬件外,最重要的就是大量基於垂直領域的數據。
用於語言大模型訓練的數據被稱爲“NLP數據集”,是將語料庫中的文字資料進行分類整理後的結構化數據,是語言大模型的“教科書”。通用大模型使用的數據集往往包羅萬象,來自書籍、網頁、新聞、社交媒體等多個來源的數據共同組成了大模型的“知識庫”。
王南表示,這些數據一部分是來自互聯網的公开數據,也就是所謂的“开源數據集”。最知名的开源數據集來自維基百科,“維基百科中的文本很有價值,因爲它被嚴格引用,以說明性文字形式寫成,並且跨越多種語言和領域。”截止2023年9月15日,英文維基百科共有超過600萬個條目和5900萬個頁面,包含超40億個詞,經過清洗、過濾後可以爲大模型提供30億個token。
但維基百科這樣高質量的網頁僅僅是個例,雖然其他網站的網頁內容也會被用於訓練大模型,這些數據總量極大,需要以PB計算,而且可以通過common crawl這類提供商免費獲取。問題在於,這些網頁往往內容雜亂,充斥着大量的色情、暴力、詐騙和機器人生成的垃圾信息。僅僅是將這一部分數據進行清洗、過濾、標注就需要花費大量人力物力。
而高質量的开源數據集則少之又少,針對特定領域的數據集更是鳳毛麟角,王南說:“少數开源的垂直領域數據集往往體量小,數據舊,很難用於構建能在特定應用場景中使用的大模型。”
因此,高質量數據的價值在大模型成爲新的熱點後逐漸突顯,數據已經成爲大模型廠商競爭的核心。
數據是大模型時代的護城河
訓練垂直於應用場景的大模型需要大量專有數據,即某一個領域、語言、行業的特有數據。比如對話、書籍、代碼、技術報告、論文考試等數據。
在大模型能力評價體系中名列前茅的GPT-3.5、GPT-4、PaLM等模型的訓練過程中,就大量用到了專有數據。根據公开的信息,GPT-3.5訓練數據中包含2TB的高質量書籍數據和大量來自推特、reddit的社交媒體對話數據。
專有數據往往是不對公衆开放的。去年 Reddit宣布开始向訪問其API的公司收費,外部企業可以通過付費下載和處理社交網絡中的海量對話;7月,社交網絡X(原推特)宣布限制用戶每日訪問數量,以遏制人工智能企業抓取數據訓練模型;9月,X又更改了隱私協議,並宣布开始出售基於用戶發布內容的語料庫。
能夠买到的數據僅僅是專有數據的一小部分。王南展示了GPT-3.5訓練數據的構成,其中使用的書籍數據高達2TB,而开源的The pile提供的Book3數據集才85GB左右,較OpenAI使用的數據集小了數十倍。
許多高質量數據實際上被互聯網企業牢牢把握在自己手中。用戶使用互聯網企業時產生的大量數據成爲了互聯網企業的“護城河”,企業本身可以隨意使用這些數據,但其他企業想要獲得這些數據則難之又難。
以Meta爲例,Meta自成立以來,通過旗下的社交媒體Facebook、Instagram幾乎壟斷了全球大多數國家的社交媒體市場。從社交媒體服務衍生出的廣告、即時通信、VR等服務也逐漸佔據了市場主導地位。用戶產生的數據在Meta不同的業務线條之間進行流動,產生更多的價值,最終造就了一個橫跨全球的互聯網巨頭。
在Meta建立的這個體系當中,Meta本身研發的技術和用戶使用其產品時產生的數據,共同組成了Meta的護城河,無法獲得用戶數據的其他互聯網企業很難提供與Meta相同的服務。而在語言大模型的領域中,Meta开源了其研發的高性能架構Llama2也並不會爲Meta在競爭中帶來劣勢——擁有大量高質量數據的Meta先天就擁有巨大的優勢,能在這方面與Meta扳手腕的巨頭在全球也寥寥無幾。
OpenAI也是如此,不過它的數據護城河還有另外一條:用戶與AI對話的數據。OpenAI向用戶免費开放ChatGPT的一個重要原因就是收集這些數據用於訓練新的GPT。這也是各大廠商迅速向用戶免費开放大語言模型的原因之一。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。