✈️ Gate 廣場【Gate Travel 旅行分享官召集令】
廣場家人們注意啦!Gate Travel 已經上線~ 機票+酒店一站式預訂,還能用加密貨幣直接付款 💸
所以說,你的錢包和你的旅行夢終於可以談戀愛了 😎 💕
現在廣場開啓 #GateTravel旅行分享官# 活動,邀你來秀旅行靈感 & 使用體驗!💡
🌴 參與方式:
1️⃣ 在【廣場】帶話題 #Gate Travel 旅行分享官# 發帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小島 or 網紅打卡點都行)
講講用 Gate Travel 訂票/訂酒店的奇妙體驗
放放省錢/使用攻略,讓大家省到笑出聲
或者直接寫一篇輕鬆的 Gate Travel 旅行小故事
📦 獎勵安排,走起:
🏆 優秀分享官(1 名):Gate 旅行露營套裝
🎖️ 熱門分享官(3 名):Gate 旅行速乾套裝
🎉 幸運參與獎(5 名):Gate 國際米蘭旅行小夜燈
*海外用戶 旅行露營套裝 以 $100 合約體驗券,旅行速乾套裝 以 $50 合約體驗券折算,國際米蘭旅行小夜燈以 $30合約體驗券折算。
📌 優質內容將有機會得到官方帳號轉發翻牌提升社區曝光!
📌 帖文將綜合互動量、內容豐富度和創意評分。禁止小號刷貼,原創分享更容易脫穎而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
中美「圍剿」英偉達,萬億AI 晶片市場難獨霸
作者:林志佳
來源:鈦媒體
隨著英偉達率先佔領AI 大模型算力晶片市場,並超過兆市值。而同時,英特爾、AMD和中國GPU晶片公司也在暗暗較勁,希望在AI算力晶片市場中分一杯羹。
**9月19日,在美國聖荷西舉行的Intel On技術創新大會上,**62歲英特爾CEO 基辛格(Pat Gelsinger)“火力全開”,以俯臥撐開場演講。
在此次會議上,基辛格一口氣發布一系列新技術產品:基於Intel 4(5nm)工藝的英特爾酷睿Ultra處理器,代號「Meteor Lake」;預覽第五代至強伺服器晶片和後續至強產品路線圖;披露5nm AI 晶片Gaudi 3等。
相較於往屆,此次基辛格“變身皮衣老黃”,全場近2小時大談AI 算力對經濟的作用。根據鈦媒體App統計,在此次演講中,基辛格約有200次提到「人工智慧」、「深度學習」相關術語。
幾乎在同一時間,英特爾、英偉達的競爭對手AMD公司,發布了最新EPYC 8004 CPU(中央處理器)晶片,並預計年底前出貨MI300系列AI晶片,以對抗英偉達。此外在國內,包括華為、天數智芯等AI 晶片廠商也在積極佈局大模型訓練推理和AI 算力產品。
「我們與AI 算力晶片市場領導者英偉達競爭非常激烈。但無論是Gaudi2 還是Gaudi3,都比他們往前邁出了一大步。我們正在獲得動力,市場開始意識到,AI 晶片行業領導者中還有另一個機會。」基辛格9月20日對CNBC表示。
市場競爭加劇,「老黃」難以獨食萬億AI 算力
2023年至今,以ChatGPT為代表AI 大模型「熱潮」席捲全球,大模型正推動AI 朝向更通用方向發展。
同時,算力的稀少和昂貴已成為限制AI 發展的核心因素。而算力也成為了全社會數位化、智慧轉型的重要基石,因而帶動智慧算力需求激增。
根據AMD執行長蘇姿豐(Lisa Su)提供的數據顯示,2023年,全球資料中心AI加速器的潛在市場總額將達到300億美元左右,預計到2027年,這一數字將超過1,500億美元(約合人民幣1.095兆元),年複合成長率超過50%。
英偉達企業運算副總裁曼努維爾·達斯(Manuvir Das)給出了另一組數據顯示,預計AI 所在的潛在市場(TAM)規模將增長至6000億美元。其中,晶片和系統可分得3000億美元,生成式AI軟體可分得1500億美元,另外1500億美元則由英偉達企業軟體貢獻。
**很明顯,AI 算力晶片市場是一塊大「蛋糕」。 **
但目前,英偉達卻佔據全球資料中心AI 加速市場82%的份額,而且以95%的市場佔有率壟斷了全球Al 訓練領域的市場,成為這輪AI 混戰中最大贏家。而黃仁勳和他的英偉達公司賺的盆滿缽滿,市值超越1兆美元。
同時,算力需求的激增,直接導致英偉達GPU(圖形處理器)「一卡難求」。而有多少英偉達A100顯示卡,已經成為衡量一個公司算力的標準。
**事實上,一家企業若想研發通用大模型,在算力層面需先關注兩點:顯示卡數量和價格。 **
**其中,顯示卡數量方面,**OpenAI使用了1萬-3萬顆英偉達GPU來訓練GPT-3.5模型。根據集邦諮詢最新報告顯示,如果以英偉達A100 顯示卡的處理能力計算,運行ChatGPT將可能需要使用到3萬塊英偉達GPU顯示卡。另外在開源模型方面,Llama模型則是在2048塊80GB A100上訓練,整個訓練算力接近2000 PTOPS算力。
**價格方面,**目前國內可以買到的H800價格已經高達20萬/張,而A100/A800價格已漲至15萬、10萬/張左右。以2000P算力需求為例,H800 GPU單卡算力2P,需要1000張,預測整個卡價格為2億元;A800單卡算力約為0.625P,需要數量為3200張,預計整個顯示卡價格就高達3.2億元。
除了買GPU顯示卡,伺服器還要考慮整機配置運算,包括CPU、儲存、NV-Link通訊連接等,以及電力消耗、場地租金和維運成本等因素。
當下,A800和H800伺服器主要以8卡機型為主,為了滿足2000 P的算力,就需要配置125台8卡H800伺服器,或400台8卡A800伺服器,價格分別為3億元、5.6億元。而且,由於H800也支援PCIe 5.0、新一代的CPU和記憶體等,因此需要提升價格,才能發揮其最優的算力效能。
所以,從大模型訓練角度來看,購買H800的總成本要低於A800,性價比更高,而且也比搭建CPU的成本要低——這也就是英偉達CEO黃仁勳最近常說的:「買的越多,省的越多」。
當然,如果你實在買不起也沒關係。英偉達也貼心地推出線上租賃服務DGX超級AI計算系統,透過租賃的方式開放給企業,搭配8個H100或是A100的GPU,每個節點640GB內存,每月租金為37000美元,從而不用自建數據中心購買大量GPU顯示卡。這類租賃方式毛利率很高,根據一份關於微軟「雲端算力租賃」服務報告顯示,該業務毛利率高達42%,已成為微軟新的「現金乳牛」。
那麼國內市場,英博數科、商湯AIDC和其他超過11個智算中心/雲廠商也有類似的服務,對於大模型來說,整體價格要比自建價格減少20%以上。
**此外還有大模型訓練時間。 **英偉達最新發布的NVIDIA L40S GPU,比A800/H800模型訓練效率更高。一個70億參數的模型,HGX A800跑完需要17個小時,而L40S速度要快1.3倍,短短半天時間就跑完了,更不用說一個1750億參數的模型,用L40S一個週末時間就能訓練完。
早前有消息稱,百度、字節跳動、騰訊和阿里巴巴已經向英偉達下單訂購價值50億美元的晶片,加上此前的囤積的顯卡數量,國內擁有英偉達GPU顯卡總額超過千億元。市場研究機構Counterpoint發布報告稱,儘管半導體產業週期性下行未止,但騰訊、百度等中國企業仍在大舉採購英偉達A800晶片。
**那麼,這麼一個萬億級規模的重要市場,無論是晶片企業,還是下游客戶,都不想看到「英偉達」一家獨佔鰲頭。因此,AMD、英特爾和中國GPU晶片企業紛紛試圖挑戰英偉達在AI 晶片市場的霸主地位。 **
AI 晶片方面,今年1月2023年消費電子展(CES)上,AMD董事長、CEO蘇姿豐(Lisa Su)正式發表下一代面向資料中心的APU(加速處理器)產品Instinct MI300,採用台積電5nm +6nm結合的Chiplet架構設計,整合CPU和GPU,擁有13顆小晶片,電晶體數量高達1460億個,AI性能和每瓦性能是前代MI250的8倍和5倍(使用稀疏性FP8基準測試) ,將在2023年下半年量產供貨。
隨後6月,AMD也公佈全新專為生成式AI 打造、擁有1530億個電晶體的AI 加速晶片Instinct MI300X、Instinct MI300A等產品,在儲存容量、連網頻寬方面均有提升,MI300X的電晶體數量比H100多兩倍,HBM3高頻寬記憶體是H100的2.4倍。單顆晶片上可以運行800億參數的大模型,預計今年底之前出貨。
這不僅全面展現收購賽靈思之後的資料中心AI 技術能力,而且也在挑戰英偉達AI 算力晶片霸主地位。
當然不只GPU和AI 晶片,AMD最擅長的就是做CPU(中央處理器)晶片,畢竟資料中心需要CPU的通用運算能力。去年11月,AMD發布了採用Zen 4架構的第四代資料中心EPYC 9004系列,代號為「熱那亞」(Genoa),不僅架構升級,蘇姿豐還在這顆晶片上堆料堆到了極致:台積電5nm流程,96個核心,192個線程,384M三級緩存,支援PCle5.0。
與英特爾的八核心處理器相比,AMD的資料中心、邊緣運算CPU系列在能耗、效能方面都有大幅提升,包括熱那亞晶片面積減少40%,同時能源效率提高48%。
今年9月,AMD則推出最新第四代EPYC 8004系列,將「Zen 4c」核心引進專用CPU,提供從智慧邊緣(如零售、製造和電信)到資料中心、雲端運算等領域。
事實上,亞馬遜雲AWS發布了基於熱那亞M7A通用計算實例,最終結果顯示,性能相比前一代提升50%,而相比英特爾第四代至強白金版8490H版,熱那亞在多個應用場景的性能提升達1.7-1.9倍,整體的能源效率提升達1.8倍,全面用於金融建模、天氣模擬、藥物研發等高效能運算領域。另外在IoT Edge閘道工作負載中,最新八核心EPYC 8024P供電的伺服器也為每8kW機架提供約1.8倍的總吞吐量效能。
整體來看,無論是CPU、GPU,或是FPGA、DPU資料中心處理器,或是軟體堆疊工具AMD ROCm系統,AMD都已經做好了準備,正「磨刀霍霍」以挑戰英偉達的產品。
**作為成立60多年的晶片巨頭,英特爾也不想將市場「拱手讓人」。 **
今年7月11日,晶片巨頭英特爾公司(Intel)在北京發布面向中國市場、採用7nm製程的AI 晶片Habana Gaudi2,可運行大語言模型,加速AI訓練及推理,運行ResNet-50的每瓦性能約是英偉達A100的2倍,性價比相較於AWS雲中基於英偉達的解決方案高出40%,並預計今年9月性價比超越英偉達最新H100。
英特爾執行副總裁Sandra Rivera 今年7月對鈦媒體App表示,不可能有唯一一家企業獨霸AI 晶片市場。因為市場需要多樣性,客戶也希望看到更多的晶片企業在AI 領域發揮領導作用。
9月,在美國聖荷西舉辦的英特爾On技術創新大會上,基辛格宣布採用5nm製程的AI 晶片Gaudi 3將於明年推出,屆時,其算力將會是Gaudi 2的兩倍,網絡頻寬、HBM容量則會是1.5倍。
同時,基辛格也預覽第五代英特爾至強可擴充伺服器處理器,並表示下一代至強將擁有288核心,預計將機架密度提升2.5倍,每瓦效能提高2.4倍。另外,英特爾也發表Sierra Forest、Granite Rapids,與第四代至強相比AI效能預將提升2到3倍。
阿里雲首席技術官週靖人表示,阿里巴巴將第四代英特爾至強處理器用於其生成式AI 和大語言模型,即“阿里雲通義千問大模型”,而英特爾技術大幅縮短了模型響應時間,平均加速可達3倍。
**此外,**對於AI 大模型訓練來說,比較重要的是軟體生態。英特爾宣布與Arm 公司合作,使其至強產品部署到Arm CPU 上,同時推出AI推理和部署運行工具套件OpenVINO,不僅支持預訓練模型,而且只需編寫一次即可部署任何可用的關鍵跨平台支持,已支援Meta的Llama 2模型。
同時,Linux基金會在本週也宣布成立統一加速(UXL)基金會,提供開放標準的加速器程式設計模型,簡化高性能、跨平台應用程式的開發,核心是加速演進英特爾oneAPI計劃,創始成員包括Arm 、Google雲端、英特爾、高通、三星等公司——英偉達都不在其中。
英特爾公司資深副總裁、英特爾中國區董事長王銳對鈦媒體App等表示,英特爾後續將發表擁有288核心的處理器。資料中心在未來也會越來越多,英特爾將推出Gaudi3、Falcon Shores等產品,產品矩陣將構成未來加速器與AI運算發展的路線圖。
「我們把AI的能力內建到晶片中。根據不同需求,內建AI能力將使用不同算力、不同架構來提供支援。」王銳表示,在資料中心方面,從客戶端到邊緣端,再到雲端,AI已經滲透到各種應用場景;從進行大語言模型訓練到進行小規模、普惠語言模型訓練,AI的影響力無所不在。
今年8月底基辛格表示,他認為英特爾正邁向達成其宏大的整頓目標,朝著恢復在產業的領先地位前進。而談到英偉達時,基辛格坦承英偉達佈局良好,能抓住支援AI 軟體擴張所需系統的需求,但他說,英特爾很快就會開始贏得這些加速器晶片市場的訂單。
「他們做得很好,我們都讚揚他們。但我們即將展現實力。」基辛格表示。
英偉達市值蒸發千億美元,國產晶片能否把握機會?
英偉達在2023年的輝煌表現,似乎在近兩個月有所減弱。
根據Refinitiv的數據顯示,儘管英偉達今年股價上漲約190%,表現十分亮眼,但其在9月的股價表現不佳:自8月31日以來,英偉達股價已下跌超過10%,總市值蒸發了超過1760億美元。
**事實上,英偉達股價下跌因素有很多。 **
**首先,**市場對聯準會為了抑制通膨而將利率維持在較高水準更長時間的擔憂加劇,整個股市承壓,標準普爾500指數9月平均下跌0.7%、迄今下跌近4%。
**其次,**以LIama 2為代表的開源模型陸續發布,更多企業開始直接使用這些模型,僅需要AI推理晶片即可應用,這導致了對算力訓練晶片的需求有所減少。
**最後,**根據The Information報道,英偉達一直非常關註一些美國中小型雲端運算公司的顯示卡供應情況,在當前「一卡難求」的情況下,英偉達對Google、Meta等大公司以及中國企業的後續服務和顯示卡供應,似乎不再是首要優先,而這直接導致市場對於英偉達產品供應能力的質疑。
當然,瑕不掩瑜,英偉達在AI 算力市場有很大的先發優勢。除了GPU晶片效能領先外,其龐大的AI 軟體生態CUDA讓許多人望塵莫及。另外,英偉達的NVLink 高速GPU 互連技術也成為大模型技術提升的“關鍵法寶”,它的作用遠高於GPU單卡本身。
百川智能創辦人、CEO王小川曾提到,在該產業中,GPU的算力成本大概佔40%-70%,而其中網路連線成本和GPU顯示卡成本的比例大概為3:1。
「未來如果往更高模型去發展,算力儲備非常關鍵。從訓練、推理兩部分看,推理需要有國產AI 晶片,而不止有英偉達,但訓練目前只有英偉達做的最好。這場'算力仗',中國的國產AI 晶片必須要能頂上。」王小川表示。
**實際上,除了兩大晶片巨頭之外,隨著國內“百模大戰”,AI 算力需求激增,但英偉達AI00/H100等多款AI 晶片限制向中國出口,國內企業越來越難拿到美國的高階晶片。 **
2022年10月,美國商務部下屬工業與安全局(BIS)發佈出口管制新規,量化各項晶片算力、頻寬、製程等指標,限制美國企業對中國出口,其中關於高算力晶片的限制,直接衝擊中國AI、超算、資料中心等相關產業發展。主要滿足AI等需求的GPU(圖形處理器)廠商英偉達,8月就接到了美國政府限制有關先進晶片出口的通知。
英偉達反應迅速,2022年第三季就投產了A800晶片,以取代無法繼續向中國出貨的A100。這也是美國公司為此推出的首個「特供」產品。英偉達並未對外公佈關於A800的詳細參數,不過,其經銷商提供的產品手冊顯示,A800峰值算力與被限制出口的A100一致,但傳輸速率被限制在A100的三分之二,以符合美國政府的相關要求。而最新的「中國特供版」H800的訓練算力則比H100差約40%,如果沒有英偉達提供的互連模組,算力差距可達60%以上。
英特爾則於2023年7月為其Gaudi 2產品推出中國版本。 Gaudi 2是ASIC(專用積體電路)晶片,主要針對高效能深度學習AI訓練。與2022年5月公佈的國際版相比,中國版Gaudi 2中整合的乙太網路連接埠由24個減少為21個。英特爾當時稱,這是一個相對較小的變動,對實際性能表現影響有限。基辛格日前表示,目前公司正在中國銷售Gaudi 2中國版,他希望之後一直這樣做。
**所以在國外晶片限制影響下,華為、天數智芯、寒武紀、登臨科技等國內AI 算力公司積極佈局,以填補國產AI 算力空缺。 **
目前,国产 AI 算力市场主要分为三大派别:一是华为鲲鹏和昇腾 AI 生态的算力方案,其中没有英伟达GPU的参与;二是混合型算力支持,大量采用英伟达A100芯片,并在部分环境中加入AMD、英特尔以及天数智芯、寒武纪、海光等芯片,以支持大模型的训练;三是租用性价比更高的服务器云算力,以补充算力不足情况。
今年8月舉行的2023 年亞布力中國企業家論壇第十九屆夏季高峰會上,科大訊飛創始人、董事長劉慶峰表示,華為的GPU技術能力現在已經與英偉達A100相當,現在已經做到對標英偉達A100。
9月20日,华为副董事长、轮值董事长、CFO孟晚舟表示,华为推出全新架构的昇腾AI计算集群,可支持超万亿参数的大模型训练。华为将持续打造坚实的算力底座。
天數智芯董事長兼CEO蓋魯江透露,目前,多家國內大模型公司已開始使用國產GPU顯示卡,且該公司已支持完成70億參數大模型訓練工作。另外,其他國產GPU企業多數正處於AI推理訓練階段。
蓋魯江認為,在國內,英偉達在訓練領域的市場份額高達95%以上,部分達到99%,基本上實現了壟斷,這主要得益於其硬體架構和廣泛應用的CUDA生態——已有超過300萬全球用戶。目前,國內GPU企業面臨生態遷移難題,由於眾多以CUDA為基礎的程式碼,轉向新生態將需大量時間與成本。
在最近一場圓桌活動上,登臨科技聯合創始人兼首席架構師王平提到,對於AIGC的客戶來說,不僅需要文字生成圖片等解決方案,更重要的是實用的產品。因此,需要具有大算力和通用性強的算力產品落地應用,為顧客創造價值。據悉,登臨科技的新一代AI晶片產品能耗比國際主流通用GPU產品有3倍以上的優勢。
蓋魯江表示,對於天數智芯來說,下一步計畫優化產品迭代,需依賴數據、客戶回饋與技術創新,並針對國內特殊需求進行調整。同時,公司會積極完善生態體系和軟體堆疊,確保使用者在效率、成本、效能和性價比上獲得最優體驗,以推動產品進一步商業化。
王平認為,由於取得美國高階晶片的難度增加,雖然國內尚無企業能生產能真正取代的晶片,但他相信國產算力會不斷成長。晶片需不斷迭代,使用者越多,問題回饋越多,國產AI 晶片企業才能在後續迭代中改進,提升使用體驗。
「對國內通用GPU企業來講,這是一個重大的機會。」蓋魯江告訴鈦媒體App。