台山饰良建材有限公司

谷歌新一代AI芯片發(fā)布,Jeff Dean:AI硬件性能提升更難了

昨夜晚間,谷歌突然對外披露公司新一代 AI 加速器Cloud TPU v5e。


【資料圖】

谷歌在博客中指出,我們正處于計算領(lǐng)域千載難逢的拐點(diǎn)。設計和構建計算基礎設施的傳統方法不再足以滿(mǎn)足生成式人工智能和LLM等工作負載呈指數級增長(cháng)的需求。事實(shí)上,過(guò)去五年里L(fēng)LM的參數數量每年增加 10 倍。因此,客戶(hù)需要具有成本效益且可擴展的人工智能優(yōu)化基礎設施。

Google Cloud 則通過(guò)提供領(lǐng)先的人工智能基礎設施技術(shù)、TPU 和 GPU,以滿(mǎn)足開(kāi)發(fā)者的需求,今天,谷歌宣布,公司在這兩個(gè)產(chǎn)品組合均得到重大增強。首先,我們正在通過(guò) Cloud TPU v5e 擴展我們的 AI 優(yōu)化基礎設施產(chǎn)品組合,這是迄今為止最具成本效益、多功能且可擴展的 Cloud TPU,現已提供預覽版。TPU v5e 提供與 Google Kubernetes Engine (GKE)、Vertex AI 以及 Pytorch、JAX 和 TensorFlow 等領(lǐng)先框架的集成,因此您可以通過(guò)易于使用、熟悉的界面開(kāi)始使用。

同時(shí),谷歌還宣布,公司基于 NVIDIA H100 GPU的GPU 超級計算機 A3 VM將于下個(gè)月全面上市,為您的大規模 AI 模型提供支持。、

TPU v5e,為大模型而生

谷歌表示,Cloud TPU v5e是Google Cloud 最新一代 AI 加速器,專(zhuān)為提供中大規模訓練和推理所需的成本效益和性能而構建。雖然谷歌并沒(méi)披露更多關(guān)于這個(gè)芯片的工藝,但據猜測,這可能是基于5nm打造的。

了解谷歌TPU 芯片的讀者都知道,在之前的產(chǎn)品中,他們都有一個(gè)或兩個(gè) TensorCore 來(lái)運行矩陣乘法。與 v2 和 v3 Pod 類(lèi)似,v5e 每個(gè)芯片都有一個(gè) TensorCore。每個(gè) TensorCore 有 4 個(gè)矩陣乘法單元 (MXU)、一個(gè)向量單元和一個(gè)標量單元。下表顯示了 v5e 的關(guān)鍵規格及其值。相比之下,v4 Pod 每個(gè)芯片有 2 個(gè) TensorCore。

與 Cloud TPU v4 相比,TPU v5e 可為L(cháng)LM和新一代 AI 模型提供高達 2 倍的訓練性能和高達 2.5 倍的推理性能。TPU v5e 的成本不到 TPU v4 的一半,使更多組織能夠訓練和部署更大、更復雜的 AI 模型。

谷歌指出,v5e 每個(gè) Pod 的芯片占用空間較小,為 256 個(gè),經(jīng)過(guò)優(yōu)化,成為transformer、文本到圖像和卷積神經(jīng)網(wǎng)絡(luò ) (CNN) 訓練、微調和服務(wù)的最高價(jià)值產(chǎn)品。

換而言之,通過(guò) TPU v5e Pod 平衡性能、靈活性和效率,允許最多 256 個(gè)芯片互連,總帶寬超過(guò) 400 Tb/s 和 100 petaOps INT8 性能。TPU v5e 的用途也非常廣泛,支持八種不同的虛擬機 (VM) 配置,范圍從一個(gè)芯片到單個(gè)片內的 250 多個(gè)芯片。這使得客戶(hù)能夠選擇正確的配置來(lái)服務(wù)于各種 LLM 和 gen AI 模型大小。

與此同時(shí),Cloud TPU v5e 還為領(lǐng)先的 AI 框架(如 JAX、PyTorch 和 TensorFlow)以及流行的開(kāi)源工具(如 Hugging Face 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray)提供內置支持。谷歌透露,公司將通過(guò)即將發(fā)布的 PyTorch/XLA 2.1 版本進(jìn)一步加強對 Pytorch 的支持,其中包括 Cloud TPU v5e 支持,以及用于大規模模型訓練的模型和數據并行性等新功能。

據介紹,在公共預覽版,推理客戶(hù)可以使用 1 芯片 (v5litepod-1)、4 芯片 (v5litepod-4) 和 8 芯片 (v5litepod-8)?!盀榱藶榫哂懈嘈酒奶摂M機騰出空間,調度程序可能會(huì )搶占具有較少芯片的虛擬機。因此,8 芯片虛擬機很可能會(huì )搶占 1 芯片和 4 芯片虛擬機?!惫雀璞硎?。

他們進(jìn)一步指出,為了更輕松地擴展訓練作業(yè),谷歌還在預覽版中引入了 Multislice 技術(shù),該技術(shù)允許用戶(hù)輕松擴展 AI 模型,使其超出物理 TPU pod 的范圍,最多可容納數萬(wàn)個(gè) Cloud TPU v5e 或 TPU v4 芯片。

谷歌在博客中寫(xiě)道,到目前為止,使用 TPU 的訓練作業(yè)僅限于單個(gè) TPU 芯片slice,TPU v4 的最大slice大小為 3,072 個(gè)芯片。借助 Multislice,開(kāi)發(fā)人員可以在單個(gè) Pod 內通過(guò)芯片間互連 (ICI):inter-chip interconnect 或通過(guò)數據中心網(wǎng)絡(luò ) (DCN:Data center network) 跨多個(gè) Pod 將工作負載擴展到數萬(wàn)個(gè)芯片。Multislice 技術(shù)同時(shí)還為谷歌最先進(jìn)的 PaLM 模型的創(chuàng )建提供了動(dòng)力。

“我們真正致力于使其成為一個(gè)可擴展的解決方案,”谷歌的Lohmeyer說(shuō)?!拔覀兛畿浖陀布M(jìn)行設計。在這種情況下,該軟件[和]硬件與Multislice等新軟件技術(shù)協(xié)同工作的魔力,使我們的客戶(hù)能夠輕松擴展其 AI 模型,超越單個(gè) TPU pod 或單個(gè) GPU 集群的物理邊界,”他解釋道?!皳Q句話(huà)說(shuō),單個(gè)大型人工智能工作負載現在可以跨越多個(gè)物理 TPU 集群,擴展到數萬(wàn)個(gè)芯片,而且這樣做非常經(jīng)濟高效?!盠ohmeye強調。

Jeff Dean:AI 硬件性能的下一個(gè)100倍將會(huì )更加困難

十年前,Jeff Dean 在一張紙上做了一些數學(xué)計算,并發(fā)現:如果谷歌將人工智能功能添加到其同名搜索引擎中,它就必須將其數據中心占地面積擴大一倍,這就趨勢谷歌走上創(chuàng )建定制張量處理單元(TPU)矩陣數學(xué)引擎的道路。

十年過(guò)去了,人工智能變得更加復雜、計算密集,備受討論的 TPUv4 鐵雖然現在和未來(lái)很多年都很有用,但看起來(lái)有點(diǎn)過(guò)時(shí)了。全新推出的 TPUv5e將替代TPUv4 系統。

在日前開(kāi)幕的Hotchips演講中,Jeff Dean表示,谷歌專(zhuān)注于驅動(dòng)人工智能模型的三種不同方法——稀疏性、自適應計算和動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò )——并且還試圖讓人工智能蛇吃掉它的尾巴而不是蠶食它。

在Jeff Dean看來(lái),真正讓人工智能專(zhuān)家系統開(kāi)始設計人工智能處理器可加快整個(gè)芯片開(kāi)發(fā)周期,從而幫助不斷改進(jìn)的硬件進(jìn)入該領(lǐng)域,以滿(mǎn)足更快增長(cháng)的模型。

Dean 解釋說(shuō),到目前為止創(chuàng )建的人工智能模型,整個(gè)模型的層數不斷增加,參數數量呈爆炸式增長(cháng),由數十億、數百億、數千億的token snippets 數據驅動(dòng),每次人工智能都會(huì )被激活。在新token上訓練的模型或針對已完成的模型提出token以進(jìn)行人工智能推理。

但是,有了像 Pathways 這樣的框架(它是 Google PaLM 系列模型的基礎),世界正在從專(zhuān)門(mén)針對不同任務(wù)的單獨 AI 模型轉向擁有單一基礎模型。

對于稀疏模型,AI 模型的各個(gè)部分會(huì )在需要時(shí)激活(activate ),并且僅激活這些部分。模型如何知道要激活哪些部分尚不清楚,這就是 Pathways 框架中的秘密武器,該框架已通過(guò) Gemini 模型得到完善,毫無(wú)疑問(wèn)使用了 Dean 所說(shuō)的技術(shù)。

值得注意的是,Pathways 框架不像 Google 創(chuàng )建的早期且可能更為初級的 TensorFlow 框架(該框架于 2015 年 11 月開(kāi)源)那樣是開(kāi)源的。因此,我們只能知道 Google 告訴我們的有關(guān) Pathways 和 Gemini 的信息。

“與這個(gè)巨大的模型相比,稀疏模型的效率要高得多,”Dean解釋道?!八麄冎皇钦{用整個(gè)模型的正確部分——正確的部分也是在訓練過(guò)程中學(xué)到的東西。然后模型的不同部分可以專(zhuān)門(mén)用于不同類(lèi)型的輸入。最終的結果是,您最終會(huì )得到一些非常大的模型的正確 1% 或正確 10% 的結果,這會(huì )提高您的響應能力和更高的準確性,因為您現在擁有比您大得多的模型容量可以進(jìn)行其他訓練,然后可以調用正確的部分?!?/p>

根據 Dean 的說(shuō)法,稀疏性的另一個(gè)方面對于系統架構師來(lái)說(shuō)很重要,它與加速器中通常談?wù)摰募毩6认∈栊圆煌?,在加速器中,單個(gè)向量或張量?jì)鹊南∈栊裕ㄍǔC克膫€(gè)中的兩個(gè))矩陣中的值設置為零,將其從密集型轉換為稀疏型),這也不同于粗粒度稀疏性,其中模型中的大型模塊要么被激活,要么不被激活。這種稀疏性看起來(lái)像這樣,我們將幾個(gè) Dean 的圖表合并到一頁(yè)上,這樣您就可以將其全部理解:

“當今大多數稀疏工作對每個(gè)專(zhuān)家都使用相同的大小和結構,”Dean說(shuō)?!八赃@里有一些綠色專(zhuān)家為他們服務(wù)。這里有一些學(xué)習路由功能,可以了解哪個(gè)專(zhuān)家擅長(cháng)哪種事情,然后將一些示例發(fā)送給適當的專(zhuān)家。計算平衡通常是通過(guò)每個(gè)專(zhuān)家的計算量相等以及每個(gè)專(zhuān)家的示例數量相等的流量來(lái)實(shí)現的。對于計算機架構師來(lái)說(shuō),這意味著(zhù)跨加速器的全面混洗性能非常重要。對于所有稀疏模型來(lái)說(shuō)都是如此——您希望能夠以正確的方式將事物從模型的一個(gè)部分快速路由到另一部分?!?/p>

“不過(guò),您可能想做的一件事是,不是具有固定的計算成本,而是改變模型不同部分的計算成本。在每個(gè)示例上花費相同的計算量是沒(méi)有意義的,因為有些示例的難度是原來(lái)的 100 倍。我們在真正困難的事情上花費的計算量應該是非常簡(jiǎn)單的事情上的 100 倍?!盌ean強調。

事實(shí)證明,一些小型專(zhuān)家可能只需要少量計算,并且可以用于生產(chǎn)中使用的模型中大約 90% 的提示。專(zhuān)家們?yōu)榱颂幚砀鼜碗s的事情而變得更大,具有不同的計算結構和可能更多的層,并且它們的計算量更大,因此運行成本更高。如果您正在運行人工智能服務(wù),您將希望能夠將成本歸因于所提供的專(zhuān)家答案的價(jià)值,以便您可以適當收費。

提高效率和計算能力的途徑

當然,這不是谷歌的獨家理論——該公司之所以談?wù)撍且驗?Pathways 框架這樣做:

這就是稀疏性和自適應計算。

Dean 說(shuō),上圖中提到的最后一件事是動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò ),這意味著(zhù)可以在正在運行的系統中添加或刪除容量——這是我們幾十年來(lái)通用服務(wù)器所擁有的(雖然不是在 X86 平臺上,但奇怪的是,這就是 Arm 和 RISC-V 可能能夠趕上大型機和 RISC/Unix 系統的地方)。CPU 及其工作負載的情況(虛擬機管理程序級別肯定存在動(dòng)態(tài)分配)對于 GPU、TPU 和其他 AI 計算引擎來(lái)說(shuō)也是如此。您希望能夠在運行推理或訓練時(shí)動(dòng)態(tài)地為任何給定模型添加或減少核心池的容量。

來(lái)自 Google 的具有 5000 億個(gè)參數的 PaLM 模型在 Pathways 上進(jìn)行了訓練,并通過(guò)在具有 6,144 個(gè) TPUv4 引擎的一對 pod 之間動(dòng)態(tài)分配資源來(lái)實(shí)現這一目標,但 TPUv4 引擎實(shí)際上分布在總共 24,576 個(gè)引擎的 6 個(gè) pod 中,所有這些都鏈接在一起通過(guò)高速數據中心網(wǎng)絡(luò )。像這樣:

以下是 Dean 希望給系統架構師留下深刻印象的關(guān)鍵要點(diǎn):

加速器的連接性(帶寬和延遲)很重要

規模對于訓練和推理都很重要

稀疏模型給內存容量和高效路由帶來(lái)壓力

機器學(xué)習軟件必須能夠輕松表達有趣的模型 - 就像上圖中所示的函數稀疏性

功率、可持續性和可靠性確實(shí)很重要

Google Fellow以及工程副總裁Amin Vahdat在隨后的演講中展示了人工智能行業(yè)面臨的模型大小增長(cháng)的指數曲線(xiàn):

據觀(guān)察,我們絕對沒(méi)有理由相信模型的復雜性會(huì )因此而降低,計算能力的需求將會(huì )降低。但根據我們的估計,模型每年增長(cháng) 10 倍,GPU 和 TPU 的性能最多每年增長(cháng) 2 到 3 倍。公司必須通過(guò)擴展來(lái)彌補這一點(diǎn),這很困難,并改進(jìn)他們的模型,這也很困難。

這就是為什么谷歌已經(jīng)在其機群中部署了 TPUv5e 引擎。在我們看來(lái),谷歌的 TPUv6 可能正在開(kāi)發(fā)中并準備就緒很快就會(huì )部署,以幫助支持Gemini模型的商業(yè)化。

為了使每 TCO 的性能提高 100 倍,Vahdat進(jìn)行了一個(gè)深入的講座,介紹了如何衡量人工智能或通用計算平臺的相對價(jià)值,在人工智能出現之前,我們一直同意這一點(diǎn)系統——谷歌必須做很多事情,當中包括:

創(chuàng )建專(zhuān)門(mén)的硬件 - TPU - 用于密集矩陣乘法。

使用 HBM 內存將這些矩陣數學(xué)引擎的內存帶寬提高 10 倍。

創(chuàng )建專(zhuān)門(mén)的硬件加速器,用于稀疏矩陣中的分散/聚集操作 - 我們現在稱(chēng)之為 Sparsecore,它嵌入在 TPUv4i、TPUv4 和可能的 TPUv5e 引擎中。

采用液體冷卻可最大限度地提高系統電源效率,從而提高經(jīng)濟效益。

使用混合精度和專(zhuān)門(mén)的數字表示來(lái)提高設備的實(shí)際吞吐量(Vahdat 稱(chēng)之為“有效吞吐量”)。

并具有用于參數分配的同步、高帶寬互連,事實(shí)證明,這是一種光路開(kāi)關(guān),可以在系統上的作業(yè)發(fā)生變化時(shí)幾乎即時(shí)重新配置網(wǎng)絡(luò ),并且還提高了機器的容錯能力。對于一個(gè)擁有數萬(wàn)個(gè)計算引擎且工作負載需要數月才能運行的系統來(lái)說(shuō),這是一件大事,世界各地的 HPC 中心都非常清楚這一點(diǎn)。

“我們?yōu)閼獙@一挑戰而必須構建的計算基礎設施類(lèi)型必須改變,”Vahdat在主題演講中說(shuō)道?!拔艺J為,值得注意的是,如果我們試圖在通用計算上做到這一點(diǎn),我們就不會(huì )達到今天的水平。換句話(huà)說(shuō),我們在過(guò)去 50 到 60 年間所形成的傳統智慧實(shí)際上已經(jīng)被拋到了九霄云外。我認為可以公平地說(shuō),在谷歌,但更重要的是,在整個(gè)社區,機器學(xué)習周期將占據我們想做的事情中越來(lái)越多的部分?!?/p>

谷歌專(zhuān)注于優(yōu)化硬件和軟件以跨系統集群動(dòng)態(tài)管理工作負載和功耗的一件事:

對于受內存限制的部分,電壓和電流強度可能會(huì )有很大差異,正如 Vahdat 所說(shuō),試圖管理數千到數萬(wàn)個(gè)計算引擎集群的功耗是“介于困難和不可能之間的事情”。通過(guò)不在集群中創(chuàng )建大量熱點(diǎn)(這可能發(fā)生在 Google 訓練 PaLM 模型時(shí)),可以延長(cháng)設備的使用壽命并減少中斷,這對于 AI 訓練等同步工作非常具有破壞性,就像 HPC 模擬一樣和建模。與其回滾到檢查點(diǎn)并從那里開(kāi)始,不如從一開(kāi)始就避免中斷。

以下是如何利用核心頻率和電壓來(lái)平衡一些事情。

當然,快速更新TPU芯片是谷歌工作最重要的一部分。

Dean表示,目前芯片的問(wèn)世大約需要三年時(shí)間。這需要六到十二個(gè)月的時(shí)間進(jìn)行設計和探索,一年的時(shí)間來(lái)實(shí)施設計,六個(gè)月的時(shí)間與晶圓進(jìn)行流片,十二個(gè)月的時(shí)間用于將其投入生產(chǎn)、測試和提升。

目前尚不清楚人工智能可以在多大程度上縮短芯片開(kāi)發(fā)周期或可以減少多少人力,Dean也沒(méi)有提供任何估計。但顯然,硬件設計越接近新興人工智能模型就越好。

本文來(lái)源:半導體行業(yè)觀(guān)察,原文標題:《谷歌新一代AI芯片發(fā)布,Jeff Dean:AI硬件性能提升更難了》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: