沐曦 metax是2020年9月于上海成立,北京、南京、成都、杭州、深圳和武漢等地有多個(gè)研發(fā)中心。主導(dǎo)過(guò)十多款世界主流高性能GPU產(chǎn)品研發(fā),包括GPU架構(gòu)定義、GPU IP設(shè)計(jì)、GPU SoC設(shè)計(jì)及GPU系統(tǒng)解決方案的量產(chǎn)交付全流程。
沐曦打造全棧GPU芯片產(chǎn)品,推出MXN系列GPU(曦思)用于AI推理,MXC系列GPU(曦云)用于AI訓(xùn)練及通用計(jì)算,以及MXG系列GPU(曦彩)用于圖形渲染,滿(mǎn)足數(shù)據(jù)中心對(duì)“高能效”和“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP,擁有完全自主知識(shí)產(chǎn)權(quán)的指令集和架構(gòu),配以兼容主流GPU生態(tài)的完整軟件棧(MXMACA)
可以說(shuō)沐曦 metax算得上中國(guó)版的英偉達(dá)公司!自研的曦云 MXC500 系列 GPU 成功點(diǎn)亮,只用 5 個(gè)小時(shí)就完成了芯片功能測(cè)試,英偉達(dá) A100 / A800 的算力芯片,目標(biāo) FP32 算力 15 TFLOPS(英偉達(dá) A100 的 FP32 性能為 19.5 TFLOPS),采用通用 GPU 架構(gòu),兼容 CUDA
英偉達(dá)A100是一款HPC(高性能計(jì)算)AI領(lǐng)域的GPU,A100基于NVIDIA的Ampere架構(gòu),這是一種專(zhuān)為高性能計(jì)算和AI工作負(fù)載而設(shè)計(jì)的架構(gòu)。Ampere架構(gòu)采用了多個(gè)創(chuàng)新技術(shù),如第二代Tensor核心、第三代NVIDIA NVLink高速互聯(lián)技術(shù)和第三代NVIDIA NVSwitch互連交換技術(shù)。
每個(gè)A100 GPU擁有6912個(gè)CUDA核心(計(jì)算單元),54GB的高速HBM2內(nèi)存,約1有9.5 TFLOPS的單精度浮點(diǎn)性能和9.7 TFLOPS的雙精度浮點(diǎn)性能。
A100支持NVIDIA NVLink和NVSwitch技術(shù),可以將多個(gè)A100 GPU通過(guò)高速互連進(jìn)行直接連接。這樣的互連架構(gòu)提供了更低的延遲和更高的帶寬,有助于處理大規(guī)模的并行計(jì)算和數(shù)據(jù)密集型任務(wù)。
不過(guò)目前英偉達(dá)有了性能更好的H100!無(wú)論是A100還是H100,都和咱們用的RTX系列顯卡不同;英偉達(dá)把卡分為Geforce、 Quadro、 Tesla三個(gè)大類(lèi),咱們用的都是Geforce,而A100、H100都屬于 Tesla的。首先最明顯的就是后兩者都是計(jì)算卡,計(jì)算卡沒(méi)顯示接口、沒(méi)風(fēng)扇 。
A100用的是Ampere架構(gòu),比如RTX4090卡用則是Ada Lovelace架構(gòu),A100用的HBM顯存, 沒(méi)有光追單元 大量的FP64雙精度計(jì)算單元~更重要的則是價(jià)格,這個(gè)咱們不是采購(gòu)企業(yè)所以,我了解到的A100 40GB:大約售價(jià)在5000美元至8000美元之間;A100 80GB:大約售價(jià)在8000美元至10000美元之間。
咱們的曦云 MXC500:是 MXN100 異構(gòu)GP2U處理器,以及 HBM2E 顯存,單卡算力達(dá) 160TOPS(INT8)和 80TFLOPS(FP16)(1TOPS代表處理器每秒鐘可進(jìn)行一萬(wàn)億次(10^12)操作)最高 128 路編碼和 96 路解碼的視頻處理能力,兼容 HEVC、H.264、AV1、AVS2 等多種視頻格式,最高支持 8K 分辨率。
其中最值得注意的就是80TFLOPS,也就是浮點(diǎn)運(yùn)算數(shù)值,這個(gè)數(shù)值受到I/O的性能、存儲(chǔ)器的架構(gòu)、緩沖存儲(chǔ)器一致性等影響,理論數(shù)值也實(shí)際數(shù)值其實(shí)是有差距的,如果完全不管功耗和散熱,RTX4090超頻到3150Mhz,TFLOPS數(shù)值達(dá)到了100。
最后貌似曦云很多的工程師是從AMD來(lái)的,兼容的CUDA大概是源于AMD的ROCM的,AMD的 Radeon HD 4850是第一個(gè)桌面端達(dá)到1TFLOPS的 芯片組顯卡,512MB、GDDR3還有55nm制程工藝,不怕慢只怕站,希望國(guó)產(chǎn)軟硬件廠(chǎng)家都奮力直追,然后趕超!