首頁(yè) / 原創(chuàng) / 電腦數(shù)碼/ 電腦配件/ 正文

國(guó)貨之光—— GPU 沐曦 MXC500點(diǎn)亮成功！競(jìng)品是訓(xùn)練出GPT的英偉達(dá)A100

電腦配件 06-16 17:39:03 67 0

沐曦 metax是2020年9月于上海成立，北京、南京、成都、杭州、深圳和武漢等地有多個(gè)研發(fā)中心。主導(dǎo)過(guò)十多款世界主流高性能GPU產(chǎn)品研發(fā)，包括GPU架構(gòu)定義、GPU IP設(shè)計(jì)、GPU SoC設(shè)計(jì)及GPU系統(tǒng)解決方案的量產(chǎn)交付全流程。

沐曦打造全棧GPU芯片產(chǎn)品，推出MXN系列GPU（曦思）用于AI推理，MXC系列GPU（曦云）用于AI訓(xùn)練及通用計(jì)算，以及MXG系列GPU（曦彩）用于圖形渲染，滿(mǎn)足數(shù)據(jù)中心對(duì)“高能效”和“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP，擁有完全自主知識(shí)產(chǎn)權(quán)的指令集和架構(gòu)，配以兼容主流GPU生態(tài)的完整軟件棧（MXMACA）

可以說(shuō)沐曦 metax算得上中國(guó)版的英偉達(dá)公司！自研的曦云 MXC500 系列 GPU 成功點(diǎn)亮，只用 5 個(gè)小時(shí)就完成了芯片功能測(cè)試，英偉達(dá) A100 / A800 的算力芯片，目標(biāo) FP32 算力 15 TFLOPS（英偉達(dá) A100 的 FP32 性能為 19.5 TFLOPS），采用通用 GPU 架構(gòu)，兼容 CUDA

英偉達(dá)A100是一款HPC（高性能計(jì)算）AI領(lǐng)域的GPU，A100基于NVIDIA的Ampere架構(gòu)，這是一種專(zhuān)為高性能計(jì)算和AI工作負(fù)載而設(shè)計(jì)的架構(gòu)。Ampere架構(gòu)采用了多個(gè)創(chuàng)新技術(shù)，如第二代Tensor核心、第三代NVIDIA NVLink高速互聯(lián)技術(shù)和第三代NVIDIA NVSwitch互連交換技術(shù)。

每個(gè)A100 GPU擁有6912個(gè)CUDA核心（計(jì)算單元），54GB的高速HBM2內(nèi)存，約1有9.5 TFLOPS的單精度浮點(diǎn)性能和9.7 TFLOPS的雙精度浮點(diǎn)性能。

A100支持NVIDIA NVLink和NVSwitch技術(shù)，可以將多個(gè)A100 GPU通過(guò)高速互連進(jìn)行直接連接。這樣的互連架構(gòu)提供了更低的延遲和更高的帶寬，有助于處理大規(guī)模的并行計(jì)算和數(shù)據(jù)密集型任務(wù)。

不過(guò)目前英偉達(dá)有了性能更好的H100！無(wú)論是A100還是H100，都和咱們用的RTX系列顯卡不同；英偉達(dá)把卡分為Geforce、 Quadro、 Tesla三個(gè)大類(lèi)，咱們用的都是Geforce，而A100、H100都屬于 Tesla的。首先最明顯的就是后兩者都是計(jì)算卡，計(jì)算卡沒(méi)顯示接口、沒(méi)風(fēng)扇。

A100用的是Ampere架構(gòu)，比如RTX4090卡用則是Ada Lovelace架構(gòu)，A100用的HBM顯存，沒(méi)有光追單元大量的FP64雙精度計(jì)算單元~更重要的則是價(jià)格，這個(gè)咱們不是采購(gòu)企業(yè)所以，我了解到的A100 40GB：大約售價(jià)在5000美元至8000美元之間；A100 80GB：大約售價(jià)在8000美元至10000美元之間。

咱們的曦云 MXC500：是 MXN100 異構(gòu)GP2U處理器，以及 HBM2E 顯存，單卡算力達(dá) 160TOPS（INT8）和 80TFLOPS（FP16）（1TOPS代表處理器每秒鐘可進(jìn)行一萬(wàn)億次（10^12）操作）最高 128 路編碼和 96 路解碼的視頻處理能力，兼容 HEVC、H.264、AV1、AVS2 等多種視頻格式，最高支持 8K 分辨率。

其中最值得注意的就是80TFLOPS，也就是浮點(diǎn)運(yùn)算數(shù)值，這個(gè)數(shù)值受到I/O的性能、存儲(chǔ)器的架構(gòu)、緩沖存儲(chǔ)器一致性等影響，理論數(shù)值也實(shí)際數(shù)值其實(shí)是有差距的，如果完全不管功耗和散熱，RTX4090超頻到3150Mhz，TFLOPS數(shù)值達(dá)到了100。

最后貌似曦云很多的工程師是從AMD來(lái)的，兼容的CUDA大概是源于AMD的ROCM的，AMD的 Radeon HD 4850是第一個(gè)桌面端達(dá)到1TFLOPS的芯片組顯卡，512MB、GDDR3還有55nm制程工藝，不怕慢只怕站，希望國(guó)產(chǎn)軟硬件廠(chǎng)家都奮力直追，然后趕超！

國(guó)貨之光—— GPU 沐曦 MXC500點(diǎn)亮成功！競(jìng)品是訓(xùn)練出GPT的英偉達(dá)A100

廣告聲明：文中若存在對(duì)外跳轉(zhuǎn)的鏈接（涵蓋商品鏈接、超鏈接、二維碼等各類(lèi)形式），其目的在于為您呈上更多與內(nèi)容相關(guān)的產(chǎn)品信息，助您迅速甄別。但我們不對(duì)其做任何明示或暗示的保證，煩請(qǐng)您謹(jǐn)慎參考，依據(jù)自身的需求與判斷來(lái)做出決策。

作
者