6 月 27 日至 28 日,2023 亞馬遜云科技中國峰會(下文稱“峰會”)于上海順利召開。在本次峰會上,我們似乎找尋到了云計算領(lǐng)域競爭對手均日漸成熟,而亞馬遜云科技卻能一直保持領(lǐng)先地位的原因——過去的十幾年里,亞馬遜云科技“基于客戶需求,快速進行產(chǎn)品更新與技術(shù)迭代”的 Day one 理念,一直不斷地追求基礎(chǔ)架構(gòu)層面的創(chuàng)新。
6 月 28 日上午,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建進行了以《專注創(chuàng)新,擺脫基礎(chǔ)架構(gòu)束縛》為主題的演講,在演講中他分享了亞馬遜云科技眾多應(yīng)用案例實踐,闡明了亞馬遜云科技在云基礎(chǔ)架構(gòu)方面的能力與創(chuàng)新及在全球布局方面做出的努力。
一、企業(yè)亟需提高“用云”性價比
隨著企業(yè)數(shù)字化轉(zhuǎn)型的需求增加、市場競爭的加劇,企業(yè)需要將業(yè)務(wù)和數(shù)據(jù)遷移到云上,以實現(xiàn)更高效的生產(chǎn)和服務(wù),以適應(yīng)市場的變化。所以我們也觀察到越來越多的企業(yè)開始上云,然而上云的門檻并不低,需要考慮的東西非常多,比如技術(shù)能力、安全合規(guī)風(fēng)險、成本費用、用戶體驗等,很多企業(yè) CTO 表示,“想上云,但是有心而力不足”,大多企業(yè)目前提出了亟需降低云服務(wù)使用門檻、提高“用云”性價比的需求。
為了提高企業(yè)云服務(wù)使用的性價比,亞馬遜云科技為用戶提供全面和深入的算力支持,提供包括 Intel、AMD、 英偉達和自研的 CPU 及加速芯片產(chǎn)品,這其中最值得一提的就是亞馬遜云科技的四個自研芯片:Nitro、Graviton、Inferentia、Trainium。
Nitro 是亞馬遜云科技的第一款自研芯片產(chǎn)品,Nitro 主要有三個亮點:第一,做了高度輕量化的虛擬化;第二,實現(xiàn)網(wǎng)絡(luò)層面的數(shù)據(jù)通信和存儲的隔離;第三,實現(xiàn)了硬件級別的加密。有了 Nitro 之后,亞馬遜云科技能夠大大增強 EC2 整個實例應(yīng)用的安全性,每個單元可以獨立發(fā)展,也確保 EC2 所有實例運行的穩(wěn)定。 因為 Nitro 的出現(xiàn),亞馬遜云科技大大降低了推出一個新 EC2 實例工作的復(fù)雜性,使得其保持一個非??斓脑鲩L的速度,進一步降低客戶成本,從而幫助企業(yè)達到降本增效的目標。最新一代 Nitro V5 芯片相比之前的芯片性能有大幅的提升,包括更快的轉(zhuǎn)發(fā)率,包括更低的延遲,每瓦特性能提升 40%。
基于 ARM 架構(gòu)的通用處理器芯片 Graviton 自 2018 年起,亞馬遜云科技陸續(xù)推出三代 Graviton 服務(wù)器芯片,在去年的 re:lnvent 全球大會上,亞馬遜云科技推出了自研的、基于 ARM 架構(gòu)的高性能計算服務(wù)器 CPU 芯片 Graviton3E 芯片。縱觀 Graviton 系列芯片的升級歷程,Graviton3 計算性能提高 25%,浮點性能提高 2 倍,加密工作負載性能加快 2 倍;Graviton3E 特別關(guān)注向量計算的性能,跟前一代相比高 35%,這個性能提升對于像 HPC 高性能計算這樣的應(yīng)用來說是非常重要的。
從具體案例來看,在 HPL(線性代數(shù)的測量工具)上 Graviton3E 性能提升 35%,在 GROMACS(分子運動)上性能提升 12%,在金融期權(quán)定價的工作負載上性能提升 30%;同時,Graviton3E 和類似的 X86 的 EC2 實例相比,Graviton3E 還能節(jié)省 60% 的能耗。
如今 Graviton 系列芯片的優(yōu)秀性能表現(xiàn)已經(jīng)得到了充分驗證,本屆峰會上,陳曉建講到的世界一級方程式錦標賽(下文簡稱“F1”)案例便充分體現(xiàn)了亞馬遜云科技在算力資源、數(shù)據(jù)存儲方面的能力。F1 利用 Graviton3 運行空氣動力學(xué)模擬,可以用比以往快 70% 的速度開發(fā)新一代賽車,賽車壓力損失可以從 50% 降低到 15% ,這使超車更容易,為車迷可以帶來更多賽場的纏斗。此外,F(xiàn)1 通過 5000 多次單車和多車模擬,收集了超過 5.5 億個數(shù)據(jù)點,幫助他們進行下一代賽車的優(yōu)化。用 F1 團隊表示,“Graviton3 讓系統(tǒng)性能快了 40%,可以晚間運行模擬,第二天早上就能得出結(jié)果?!?/p>
在機器學(xué)習(xí)技術(shù)探索賽道中,目前亞馬遜云科技已經(jīng)發(fā)展出三代不同的機器學(xué)習(xí)芯片。在訓(xùn)練方面,亞馬遜云科技先后推出的加速芯片 Inferentia 和 Trainium 覆蓋了訓(xùn)練和推理的場景,能為企業(yè)提供最佳的性價比。因此,許多領(lǐng)先的 生成式 AI 初創(chuàng)公司,例如 AI21 Labs、Hugging Face、Runway 和 Stability AI 都選擇 Inferentia 和 Trainium 作為他們整個研發(fā)和應(yīng)用的平臺。
在機器學(xué)習(xí)訓(xùn)練中,最重要的指標是訓(xùn)練效率和性價比。以 HuggingFace BERT 模型為例,基于加速芯片 Trainium 的 Trn1 實例的性能表現(xiàn)非常不錯,從訓(xùn)練吞吐量角度看,其與同類型 GPU 實例相比,在單節(jié)點情況下,可實現(xiàn) 1.2 倍吞吐量的提升;在多節(jié)點情況下,實現(xiàn) 1.5 倍吞吐量的提升;從成本角度,單節(jié)點實現(xiàn)了 1.8 倍成本降低,集群的成本降低了 2.3 倍。
隨著模型越來越復(fù)雜,很多時候靠一個單點的計算訓(xùn)練是無法滿足用戶的需求,在很多時候都需要一個分布式的訓(xùn)練,比如需要非常大規(guī)模的集群,通過 Trainium 便可以構(gòu)建一個超大的集群,它可以有 3 萬張的 Trainium 芯片,使企業(yè)可以獲得云上 6 ExaFlops 的超算級性能。這背后涉及很多創(chuàng)新,比如更快的 EFA 網(wǎng)絡(luò)以及 PB 級別的無阻塞網(wǎng)絡(luò)互聯(lián)等。
在機器學(xué)習(xí)推理中,推理往往要考慮延遲和吞吐,企業(yè)需要更高的吞吐力來帶來更優(yōu)的性價比,但是往往更高的吞吐率會帶來更高延遲,所以開發(fā)者往往要在延遲和吞吐中權(quán)衡。Inferentia2 的設(shè)計就考慮到了兼顧吞吐和延遲的優(yōu)化,如果拿一個基于 Inferentia2 的實例做測試,以自然語言處理領(lǐng)域常見的 BERT 模型為例,在 Inferentia2 上可實現(xiàn)高達 3 倍的吞吐提升,8.1 倍的延遲降低,4 倍的成本節(jié)約,使得企業(yè)開發(fā)者二者兼而有之。
另外值得一提的是,Inferentia2 在大語言模型中的表現(xiàn)也非常的突出。拿一個 OPT 模型來做測試,中等規(guī)模的 OPT 模型 OPT-30B 為例,相較于通用的 EC2 GPU 實例,Inferentia2 可實現(xiàn) 65% 的吞吐量提升,推理成本可降低 52%;660 億參數(shù)級別的 OPT-66B,通用 GPU 實例已經(jīng)顯示內(nèi)存不足的情況下, 而在 Inferentia2 上還可以實現(xiàn)每秒 351 個 token 數(shù)的吞吐量。
二、“AI 創(chuàng)新”使算力需求井噴、運維復(fù)雜性增加
隨著 AI 大模型的發(fā)展,大模型應(yīng)用規(guī)模呈爆發(fā)式增長,加速了未來計算時代的來臨,引發(fā)了新的生產(chǎn)力革命,但同時也導(dǎo)致算力供不應(yīng)求,在這個過程中,算力直接反映了數(shù)據(jù)處理能力的強弱,用戶不僅需要更高性價比硬件的解決方案,他們還需要云廠商提供高度彈性化的伸縮。與此同時,巨大算力的增加,使企業(yè)云運維成本大大增加,如何降低云運維的復(fù)雜性也是企業(yè)目前面臨的難題。
為了應(yīng)對彈性算力的需求,亞馬遜云科技提供超過 600 種不同的計算實例,處理器、存儲、網(wǎng)絡(luò)及各種周邊服務(wù)均可與計算很好地結(jié)合,以積木的方式形成豐富的、靈活的計算實例資源,滿足多種不同算力要求。
要知道,從存儲層面,當(dāng)數(shù)據(jù)規(guī)模達到 PB、EB 級別時,數(shù)據(jù)的存儲方式非常重要。用戶的數(shù)據(jù)存儲可分為熱、溫、冷、凍四種類型,每種類型的存儲成本和性能不同,都需要平衡。所以,亞馬遜云科技提供多達八種的存儲級別,包括高性能計算、機器學(xué)習(xí)和通用計算等,企業(yè)根據(jù)需要選擇最合理的存儲級別。
這其中最具有代表性的案例就是《阿凡達》的制作公司 Weta Digital,其在開發(fā)《阿凡達 1》時,他們自建了一個占地 10000 平方英尺的機房,構(gòu)建 4000 臺物理服務(wù)器和 35000 個處理器核心。然而,在開發(fā)《阿凡達 2 – 水之道》時,他們原有的集群已經(jīng)無法滿足需求。于是,亞馬遜云科技為 Weta Digital 提供了從基礎(chǔ)架構(gòu)算力資源到云上制作堆棧、機器學(xué)習(xí)堆棧的一系列服務(wù),Weta Digital 使用了包括 GPU 實例和 Spot 實例在內(nèi)的多種計算實例以提供強大的伸縮性和優(yōu)秀的性價比。
然而對于亞馬遜云科技來說,僅僅對企業(yè)進行多種多樣的芯片和高伸縮性的資源供給是遠遠不夠的,亞馬遜云科技還為企業(yè)提供了 Serverless 來降低云運維的復(fù)雜性。亞馬遜云科技在 2014 年發(fā)布 Lambda 以來,已經(jīng)相繼發(fā)布了 105 多種 Serverless 新技術(shù),包括解決 Java 應(yīng)用冷啟動問題的 Lambda SnapStart、可視化編輯器 Application Composer 等。用戶可以根據(jù)應(yīng)用的類型來選擇不同的彈性和計算顆粒度。
全托管的 Serverless 使得開發(fā)者可以專注于業(yè)務(wù)開發(fā),而不是基礎(chǔ)設(shè)施的運維,也讓系統(tǒng)能很容易的實現(xiàn)快速伸縮。為此,陳曉建在峰會上特別舉了一個 Second Dinner 打造年度最佳移動游戲《Marvel Snap》的案例?!禡arvel Snap》被 Second Dinner 工程副總裁稱為“這是我們有史以來運營過的最順利、最成功的游戲,正是因為我們選擇了亞馬遜云科技”。
Second Dinner 采用亞馬遜云科技的 Serverless 架構(gòu)來開發(fā)、構(gòu)建和運行 Marvel Snap 游戲。整個游戲沒有使用任何 EC2 計算實例或容器,而是由事件驅(qū)動架構(gòu)實現(xiàn)。這種方法不僅幫助用戶節(jié)省成本、加快應(yīng)用開發(fā)速度,還減少了安全方面的隱患。亞馬遜云科技的 Serverless 后臺架構(gòu)為其提供了完整的功能、安全和資源管理。最終,Marvel Snap 在啟動時沒有出現(xiàn)任何后端錯誤事件,這在游戲行業(yè)是前所未有的。此外,Marvel Snap 的開發(fā)人員在系統(tǒng)非常早期的測試階段,就已經(jīng)通過 Serverless 實現(xiàn)了每分鐘 14 萬請求的壓力測試,要知道,這在云主機的時代是無法實現(xiàn)的,而這在亞馬遜云科技的幫助下實現(xiàn)了“不可能”。
三、企業(yè)正在把握全球性機遇,追求多元化市場
放眼全球企業(yè)上云現(xiàn)狀,當(dāng)下大多數(shù)企業(yè)只是簡單地將原來的系統(tǒng)搬到云上,盡管降低了成本,但并沒有完全開發(fā)出云上的潛力。搬到云上并不算是真正的“上云”,最終還要讓企業(yè)系統(tǒng)和業(yè)務(wù)在云上跑起來才是硬道理。很多企業(yè)漸漸的也意識到了這個問題,所以來自全球各地的企業(yè)上云需求和企業(yè)業(yè)務(wù)出海熱對云廠商提出了更高要求,這就不僅需要云廠商的業(yè)務(wù)服務(wù)范圍覆蓋全球,同時還需要能夠快速進行部署、高可用的服務(wù)及相關(guān)業(yè)務(wù)對于各個國家和地區(qū)的業(yè)務(wù)合規(guī)需求。
陳曉建在本屆峰會上表示,全球布局已經(jīng)成為很多企業(yè)的戰(zhàn)略,然而云廠商想要完成全球布局一定需要滿足企業(yè)對云服務(wù)的三個要求,即“無處不在的云服務(wù)”、“快速部署穩(wěn)定系統(tǒng)”、“提供安全可靠的全球基礎(chǔ)設(shè)施”,他通過亞馬遜云科技已經(jīng)在過去驗證過的成功案例舉證來驗證自己的觀點。
關(guān)于第一個要求“無處不在的云服務(wù)”,讓創(chuàng)新快速抵達每一個角落是亞馬遜云科技的使命。陳曉建拿 OPPO 舉例,OPPO 的手機業(yè)務(wù)遍布全球,擁有數(shù)百個云上 VPC 和本地資源需要連接,由于不同國家有不同的安全合規(guī)要求,這增加了全球組網(wǎng)的難度,OPPO 希望全球業(yè)務(wù)獨立運作,實現(xiàn)區(qū)域合規(guī)自治,同時擁有統(tǒng)一的管理。于是 OPPO 選擇通過使用亞馬遜云科技的 CloudWAN 廣域網(wǎng)服務(wù),通過本地網(wǎng)絡(luò)提供商連接到亞馬遜云科技,并通過中央控制面板和網(wǎng)絡(luò)策略在幾分鐘內(nèi)建立覆蓋全球的專用網(wǎng)絡(luò)。同時 OPPO 借助完整的網(wǎng)絡(luò)視圖,可以直觀地了解整個網(wǎng)絡(luò)的運行狀況、安全和性能。另外值得一提的一個案例是,AXIOM 使用 Amazon SnowCone 來支持太空實驗,成功環(huán)繞地球 240 次。目前亞馬遜云科技的技術(shù)已經(jīng)可以在太空這種極端環(huán)境中收集、處理數(shù)據(jù),并做出實時決策。
關(guān)于第二個要求“快速部署穩(wěn)定系統(tǒng)”,亞馬遜云科技每個區(qū)域都由多個可用區(qū)組成,單一可用區(qū)的故障會影響其他可用區(qū)的業(yè)務(wù),但通過解耦控制面與數(shù)據(jù)面,可以提高整體穩(wěn)定性。蜂窩架構(gòu)將系統(tǒng)分割成微小、獨立、隔離的單元,有效控制故障影響。隨機分片進一步優(yōu)化蜂窩架構(gòu),通過隨機分配客戶訪問,使單個單元故障不影響整個系統(tǒng)。我們還通過運營模型和部署機制保證云的彈性,并使用 COE 糾錯流程防止問題再次發(fā)生。
拿中集集團來舉例,中集集團使用亞馬遜云科技的服務(wù)實現(xiàn)了 82 個企業(yè)級應(yīng)用的上線,包括 SAP、倉儲系統(tǒng)、CRM、SRM 和費控系統(tǒng)等,并實現(xiàn)了 20% 的成本節(jié)約。原 SAP 系統(tǒng)存在延遲問題,需容災(zāi),造成資源占用。亞馬遜云科技為其設(shè)計了新一代 SAP 架構(gòu),應(yīng)用和數(shù)據(jù)庫在同一可用區(qū),延遲極低至 0.1 毫秒以內(nèi);容災(zāi)方面,RPO 為 0,RTO 不超 15 分鐘,資源成本下降 18.7%。這套全新的 SAP 架構(gòu)讓中集集團獲得了更強大的風(fēng)險控制能力,業(yè)務(wù)連續(xù)性得到保證。
關(guān)于第三個要求“提供安全可靠的全球基礎(chǔ)設(shè)施”,亞馬遜云科技幾乎滿足全球所有國家和地區(qū)的合法合規(guī)的要求。比如生物醫(yī)療、聯(lián)邦認證以及金融等行業(yè),又比如 HIPAA、FedRAMP 和 PCI 這樣高標準的合規(guī)要求。拿全球電子支付終端領(lǐng)先供應(yīng)商 PAX 百富來舉例,其在遷移多個重要 SaaS 應(yīng)用至云上時,發(fā)現(xiàn)多供應(yīng)商的安全服務(wù)標準不統(tǒng)一,無法滿足支付安全要求,且難以集成和管理。亞馬遜云科技便為其提供了安全合規(guī)服務(wù)(如 Amazon CloudHSM、Security Hub)以幫其保障用戶支付信息安全和業(yè)務(wù)安全,滿足 PCI 合規(guī)要求,并支持國際業(yè)務(wù)拓展。使用亞馬遜云科技的產(chǎn)品使百富的產(chǎn)品交付周期縮短 40%,降低架構(gòu)搭建及運維壓力,節(jié)省 20% 成本。
陳曉建提到的以上三個方面,對企業(yè)用云需求進行了完整概括,而這也是云廠商幫助企業(yè)降低用云門檻、實現(xiàn)云基礎(chǔ)架構(gòu)創(chuàng)新的重要發(fā)展方向。云廠商需要從區(qū)域覆蓋、安全和技術(shù)成本等方面進行全維度的升級,提供更好的云計算產(chǎn)品和服務(wù),來滿足企業(yè)的“既要、又要”。
四、云廠商需要專注“創(chuàng)新”,擺脫基礎(chǔ)架構(gòu)束縛
目前企業(yè)愈加難以滿足日益增長的客戶對快速、可靠和安全服務(wù)的期望,在提高自身系統(tǒng)的處理能力和存儲能力的過程中,面對著巨大的算力需求和成本過高的可伸縮且安全的 IT 基礎(chǔ)架構(gòu)。
云計算基礎(chǔ)設(shè)施的穩(wěn)定和可靠,是云廠商的核心競爭力。然而,云計算作為數(shù)字產(chǎn)業(yè)的新基建,面臨著行業(yè)高速增長的機遇,同時也在諸多領(lǐng)域存在著挑戰(zhàn),比如 AI 就是一次巨大的浪潮,在全球范圍內(nèi)都帶來了巨大的市場機遇和發(fā)展?jié)摿?,但目前云基礎(chǔ)架構(gòu)還面臨著把數(shù)據(jù)留在本地、延遲和帶寬問題和連接穩(wěn)健性等問題。
如果上升到云計算整個領(lǐng)域的發(fā)展的探討,站在終端用戶角度去看,在使用產(chǎn)品的過程中,用戶實際更關(guān)注的是使用體驗,當(dāng)前基礎(chǔ)設(shè)施要滿足用戶順暢的體驗需求,即算力噴發(fā)下產(chǎn)生的需求,需要在數(shù)據(jù)存儲、數(shù)據(jù)節(jié)點通信及指令調(diào)度等層面進行一定的創(chuàng)新;站在企業(yè)開發(fā)者的角度去看,高效開發(fā)、低成本運維是開發(fā)者最關(guān)注的問題,在云基礎(chǔ)架構(gòu)體系中,工具鏈的使用、性能調(diào)優(yōu)方式、性能工具的創(chuàng)新是未來主要發(fā)展點。此外服務(wù)的部署、管理、跟蹤、調(diào)試等各個環(huán)節(jié)管理和運維工具的創(chuàng)新,以及企業(yè)如何降低運營成本也云計算廠商持續(xù)研究并創(chuàng)新的課題。
所以,未來只有軟硬一體的生態(tài)化發(fā)展,才能幫助行業(yè)更好地完善基礎(chǔ)設(shè)施,從而為企業(yè)數(shù)字化轉(zhuǎn)型、降本增效的大目標實現(xiàn)保駕護航,而這一點亞馬遜云科技做到了。亞馬遜云科技的網(wǎng)絡(luò)安全芯片 Nitro 系列、服務(wù)器芯片 Graviton 系列、人工智能(AI)推理芯片 Inferentia、AI 訓(xùn)練芯片 Trainium 系列的四大自研芯片業(yè)務(wù)線,從高性能計算、至廣至深的云計算實例選擇、存儲、網(wǎng)絡(luò)安全、可靠等方面都顯示出了絕對的性價比及絕對優(yōu)秀的能力。
同時,我們從亞馬遜云科技的每一個實例與案例中也可以看到,亞馬遜云科技這些年來從技術(shù)上做的創(chuàng)新與幫助全球范圍內(nèi)的客戶完成技術(shù)創(chuàng)新,為的就是突破當(dāng)下云基礎(chǔ)架構(gòu)的“束縛”,不斷探索新的云計算技術(shù)和應(yīng)用模式,實現(xiàn)業(yè)務(wù)創(chuàng)新和發(fā)展,這為行業(yè)內(nèi)的其他廠商起到了“帶頭羊”作用。希望亞馬遜云科技在未來可以與全球更多企業(yè)共同推動云計算的發(fā)展,為行業(yè)發(fā)展不斷注入新動力。