点击关闭

智能芯片-设计针对最小或较小计算场景进行优化的架构-魔域资讯

  • 时间:

上海大学副教授失联

選擇一:採用堆疊擴展(Scaleout)的方法實現巨大的計算可擴展性。首先,設計針對最小或較小計算場景進行優化的架構,然後通過堆疊來匹配最大的計算場景,但這將不可避免地增大芯片面積和功耗,直至難以接受;

伴隨着5G技術商用,AIoT亦會加速落地和實現。可以預見的是,未來巨量的多維數據(如語音、圖像、視頻等)集中處理與邊緣式分佈計算的需求,勢必將進一步挑戰AI底層支持硬件——芯片的計算能力。同時,AIoT場景下AI應用對於端邊雲互動有着強需求。強大的雲會讓邊、端能力更強,而強大的端、邊則可提升數據處理的實時性和有效性,進而增強雲的能力。二者需要緊密結合,這要求對芯片設計和雲端架構進行統一考量。

為實現高可擴展內存,每個達芬奇Core都配備專用SRAM,其功能固定,容量可變,適應不同的計算能力場景,大大提升了計算過程中數據的交換速度。

芯片內超高帶寬Mesh網絡將多個達芬奇內核連接在一起,保證內核之間以及內核與其他處理單元之間的極低延遲通信,使得高密度計算內核的性能得到充分利用。

智能邊緣產品Atlas500智能小站,機頂盒大小,可實現16路高清視頻處理能力;同時也是業界應用半導體製冷散熱技術的智能邊緣產品,不用風扇散熱,可滿足-40℃至70℃室外工作環境。

Atlas800深度學習系統是一站式深度學習平台服務,內置大量優化的網絡模型算法,以便捷、高效的方式幫助用戶輕鬆使用深度學習技術提供數據標註、模型生成、模型訓練、模型推理服務部署的端到端能力,降低使用AI的技術門檻,讓客戶更聚焦業務本身,使AI業務能快速開發與上線。

面對如上諸多因素,華為創造性的提出了達芬奇架構,通過可擴展計算、可擴展內存和可擴展互連等三大獨特關鍵技術,使統一架構成為可能。

Atlas200尺寸僅有信用卡一半大小,是一款高效能的嵌入式AI加速模塊,可以實現圖像、視頻等多種數據分析與推理計算,可廣泛被集成到智能攝像頭、機械人、無人機中。

選擇二:採用向下縮小(Scalein)的方法,即首先設計針對最大或較大計算場景進行優化的架構,然後通過精細分割來匹配最小的計算場景,但這必將導致任務調度和軟件設計異常複雜,並且可能由於電流泄漏而使低功耗目標無法達成;

業界全棧全場景AI解決方案2018年10月,華為副董事長、輪值董事長徐直軍在2018華為全聯接大會,發佈了華為AI戰略及全棧全場景的解決方案。

其中,是否要採用統一架構,是一個十分關鍵的選擇。誠然,統一架構的好處很明顯:只需一次算子開發,然後可在任何場景下使用;跨場景一致開發和調試體驗;更重要的是,一旦完成某個芯片的算法開發,就可順利將其遷移到面向其他場景的其他芯片上。

Atlas300智能加速卡是半高半長的PCIeAI加速卡,可幫助傳統服務器實現AI算力騰飛,不僅可以提供多種數據精度及性能,還可以兼顧能效限制,可廣泛應用於數據中心和智能邊緣。

除此以外,在多場景下,內存帶寬和延遲與適當的計算能力保持匹配,避免算力利用率低,還有芯片內及芯片間互連也必須面對功率和面積限制等多種問題需一併解決。

AI正「潤物細無聲」的進入我們的生活,IoT的規模化商用也正步入快車道,AI與IoT技術的融合將形成AIoT,也就是萬物智慧互聯。屆時我們現有的生活方式將被重新定義——人與環境的交互從物理按鍵進化到視覺、語音識別或虛擬現實;原本單一的硬件產品開始互聯互通、端側具備智能;無人駕駛、機器助手等新物種的出現等。AIoT即將成為工業機械人、智能手機、無人駕駛、智能家居及智慧城市等新興產業的重要基礎。

其中受人關注的是華為一直保持神秘的芯片產品——昇騰系列芯片。從華為公布的信息來看,昇騰(Ascend)芯片層,包含了從AscendNano、Lite、Tiny一直到雲側使用的AscendMax。可以看出昇騰系列芯片是完整AI堆棧解決方案的基礎層,目標是在任何場景下以低成本提供優良的性能,使得個人、家庭和組織的不同應用可以選擇的AI算力解決方案。

(本文所有數據均由華為公司提供)

從傳統設計思路來看,無非兩種選擇:

為實現高可擴展和靈活的計算能力,華為首先設計了一個可擴展的3DCube作為超高速矩陣計算單元,在其最大配置(16×16×16)下,一個Cube可在一個時鐘周期內完成4096個FP16MACs運算;鑒於需要支持的巨大動態範圍,我們認為16×16×16Cube是性能和功耗的最佳平衡點。以16×16×16為中心,具有CubeScalein功能和高效的多核堆疊功能,這樣就可以使用一種架構來支持所有場景。而對於那些計算能力較低的應用場景,Cube可以逐步縮小到16×16×1,這意味着在一個周期內完成256個MACs運算。這種靈活性與一套指令集結合,成功提供了計算能力和功耗的平衡。通過支持多種精度,可以有效地執行每項任務。

今年4月,基於昇騰310(Ascendmini)的Atlas人工智能計算平台正式開售,覆蓋了從終端、邊到雲數據中心推理場景。

■廣告端邊雲的AI算力突破,關鍵難點是什麼?

另一方面,在應用場景中,跨平台兼容問題、訓練成本、大規模部署問題層出不窮。想出一個模型不算難,開發出來或許也還好,但是當想要把框架里的算法部署到數量眾多的物聯網設備上,那問題將是無窮無盡的。本地算力、網絡連接能力、平台間的不兼容,都讓開發者望而卻步。

今日关键词:老挝车祸幸存者