揭秘國內最領先的Llama2中文大模型

作者:FlagAlpha

來源:Llama中文社區

圖片來源:由無界AI生成

導語

7月31日,Llama中文社區率先完成了國內首個真正意義上的中文版Llama2-13B大模型,從模型底層實現了Llama2中文能力的大幅優化和提升。毋庸置疑,中文版Llama2一經發布將開啟國內大模型新時代!

| 全球最強,但中文短板

Llama2是當前全球範圍內最強的開源大模型,但其中文能力亟待提升

作为AI领域最强大的开源大模型,Llama2基于2万亿token数据预训练,并在100万人类标记数据上微调得到对话模型。在包括推理、编程、对话和知识测试等许多基准测试中效果显著优于MPT、Falcon以及第一代LLaMA等开源大语言模型,也第一次媲美商用GPT-3.5,在一众开源模型中独树一帜。

雖然Llama2的預訓練數據相對於第一代擴大了一倍,但是中文預訓練數據的比例依然非常少,僅佔0.13%,這也導致了原版Llama2的中文能力較弱。

我們對於一些中文問題進行提問,發現大多數情況下Llama2都不能以中文回答,或者以中英文混雜的形式回答問題。因此,需要基於大規模中文數據對Llama2進行優化,使Llama2具備更好的中文能力。

為此國內頂尖高校大模型博士團隊創辦了Llama中文社區,開啟了Llama2中文大模型訓練征程。

| 最領先的Llama中文社區

Llama中文社區是國內最領先的開源大模型中文社區,Github達到4.7k star,由清華、交大以及浙大博士團隊領銜,匯聚了60+AI領域高級工程師以及各行業2000+頂級人才。

社區鏈接:

社區歷程:

| 首個預訓練中文Llama2大模型!

不是微調!而是基於200B中文語料從頭訓練!

Llama中文社區是國內首個完成真正意義上的中文版13B Llama2模型:Llama2-Chinese-13B,從模型底層實現了Llama2中文能力的大幅優化和提升。

Llama2的中文化可以採用大致兩種路線:

  1. 基於已有的中文指令數據集,對預訓練模型進行指令微調,使得基座模型能夠對齊中文問答能力。這種路線的優勢在於成本較低,指令微調數據量小,需要的算力資源少,能夠快速實現一個中文Llama的雛形。

但缺點也顯而易見,微調只能激發基座模型已有的中文能力,但由於Llama2的中文訓練數據本身較少,所以能夠激發的能力也有限,治標不治本,從根本上增強Llama2模型的中文能力還是需要從預訓練做起。

  1. 基於大規模中文語料進行預訓練。這種路線的缺點在於成本高!不僅需要大規模高質量的中文數據,也需要大規模的算力資源。但是優點也顯而易見,就是能從模型底層優化中文能力,真正達到治本的效果,從內核為大模型注入強大的中文能力!

為了從內核實現一個徹底的中文大模型,我們選擇了第二條路線!我們匯集了一批高質量的中文語料數據集,從預訓練開始優化Llama2大模型。部分預訓練數據數據如下:

首期Llama2-Chinese-13B 模型的預訓練數據包含200B token,未來,我們將持續不斷地迭代更新Llama2-Chinese,逐步將預訓練數據提升到1T token。除此以外,我們也將逐步開放70B模型的中文預訓練版本,敬請期待!

我們從通用知識、語言理解、創作能力、邏輯推理、代碼編程、工作技能等不同方面提問大模型,得到了令人滿意的效果!

部分效果展示如下:

通用知識

語言理解

創作能力

邏輯推理

代碼編程

工作技能

🏅Llama中文社區領航計劃🏅

著眼於社區的長遠發展與快速迭代,一方面為每一個有熱情有志向投入到大模型浪潮中的AI愛好者提供專業的技術服務,另一方面,讓每一個社區的參與者都能在極速發展的AI時代搶先領跑,獲取各方面的資源對接,我們限時推出首期Llama中文社區領航計劃!領航計劃的每一位成員將獲得以下“7TOP” 權益:

1、模型TOP

加入可獲取國內首個預訓練中文版Llama2-Chinese-13B模型使用權(非微調版本),並且在未來,我們將持續基於更大規模的數據,不斷增強模型內核的中文能力,也將優先為領航計劃的每位成員提供最領先的模型版本。

2、技術TOP

國內頂尖高校博士團隊領銜,最專業的大模型技術團隊。無論是最前沿的技術問題還是深入的理論剖析,我們都將為您提供最前沿的解決方案。

3、服務TOP

在領航計劃中,您將獲得個性化的1V1指導,無論何時何地,只要您有疑問,我們將及時解答。我們致力於提供全方位的支持,幫助你快速實現Llama2大模型應用,確保您順利實現技術突破。您的企業遇到大模型相關問題我們也會幫您分析解決。

4、教學TOP

理論與實戰相結合的教學模式,將帶您領略大模型的奧秘。從大模型的技術剖析到關鍵算法和論文講解,從零開始搭建私有化大模型,再到行業大模型的訓練,我們將手把手教您一步步實現技術進階。課程大綱如下:

圖片

5、資源TOP

我們有國內最大的Llama中文社區,Github達到4.7k star,匯聚了2000+頂級人才。在這裡,您將與AI投資人、企業家CEO、各行業領軍人物相互交流,尋求合作、投資、推廣、招聘等一站式服務。找工作/合夥人/投資/銷售產品,都可以滿足你的需求。這裡是技術人才互通有無的黃金平台,您可以找到各行各業的頂尖專家,共同交流與探討。

6、活動TOP

我們不僅在線上舉辦定期活動,更有線下活動提供技術宣講和交流,旨在基於Llama2大模型為各行業賦能。為您提供與頂尖專家直接互動的機會,讓您與行業領先者並肩前行。無論您是技術新秀還是經驗豐富的大牛,我們都將為您提供絕佳機會,與世界頂尖技術人才共謀未來!

7、算力TOP

社區為學員提供算力資源渠道,讓您低於市場價使用。我們了解算力對於技術發展的重要性,為您提供高效、穩定的算力支持,助您在技術領域盡顯風采。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)