大家好,我是波導(dǎo)終結(jié)者。
最近DeepSeek非?;?,身邊幾位小伙伴也都心動了。目前方案無非兩種,一種是使用線上服務(wù)商的在線接口,途徑挺多的,但是都得聯(lián)網(wǎng)也就會有隱私泄露問題,而且免費也不知道持續(xù)到什么時候。另一種就是本地部署,但是民用電腦想跑滿671B還是不太現(xiàn)實。之前我試了一下,32B勉強能跑,14B是比較理想的。但最近冒出了不少內(nèi)容(諷刺的是,看起來很像AI生成的……),號稱只要把內(nèi)存堆上去,比如搞套洋垃圾再插滿192GB內(nèi)存,就能本地跑671B啥的。我有位朋友不死心,問我說真的假的,我一看那些內(nèi)容甚至連具體的實測都沒有。于是這次我現(xiàn)場跑給這位朋友看。
這次的平臺是之前配的12700K,Z690,因為現(xiàn)在還冒出不少用核顯跑DeekSeek的內(nèi)容,所以這次我把獨立顯卡拔掉,一起測試一下。沒有在之前配的265K+Z890跑,因為想完全摒棄NPU的影響。
內(nèi)存我之前已經(jīng)升級到了光威神策DDR5 6400Mhz 48Gx2,若真的如營銷號所說,堆內(nèi)存就能把模型跑上去,再考慮更大的內(nèi)存方案。
默認參數(shù)如上圖,因為沒有獨顯,默認的設(shè)置為純CPU線程池跑。不過這里線程池的設(shè)置也沒有拉滿,先試試默認方案下的效果。
默認設(shè)置下,1分35秒出結(jié)果,3.55 tok/sec,1369 tokens,3.94s to first token,內(nèi)存占用29.3G,CPU占用率在50%左右。題目統(tǒng)一為“我是一名程序員,每天上班24個小時,每周上班7天。請幫我寫一篇1000字的年終工作總結(jié)”。
將設(shè)置里的GPU卸載拉滿,我當(dāng)然知道12700K搭載的核顯現(xiàn)在很弱,我只是覺得營銷號鼓吹的“只要內(nèi)存堆上去核顯也能隨便跑”根本就不靠譜。實測11分鐘35秒才出結(jié)果,而且一個字一個字蹦又要花好久。這種情況下,我認為已經(jīng)失去可用性。
那么,所謂的用內(nèi)存堆又如何操作呢?我把各個選項和可能性都試了一下,這里明確寫明會“增加內(nèi)存使用”的評估批處理也拉到過最大了。
GPU卸載拉到16,CPU線程池10(均拉滿),評估批處理512,內(nèi)存占用稍微增長到30G,CPU占用25%左右,GPU占用60%左右。5分48秒出結(jié)果,1.34 tok/sec,1537 tokens,11.64s to first token。
默認設(shè)置,單純把評估批處理拉到1024,3.63 tok/sec,1132 tokens,3.77s to first token,速度和資源占用均無太大變化。把CPU線程池拉滿到10,評估批處理拉滿到1024,3.65 tok/sec,1225 tokens,3.10s to first token,稍微快了一點。
其他方案我也都試了一下,就不再贅述。我自己以前就是程序員,所以在跑之前,我就知道死堆內(nèi)存不可能,但小伙伴各種短視頻刷多了,不親眼見識一下不死心。顯存或者內(nèi)存只是最基礎(chǔ)的硬件條件之一,而不是堆上去就能隨便跑。本地模型仍然需要依靠算力出結(jié)果,所謂的什么洋垃圾插滿內(nèi)存,核顯插滿內(nèi)存,破獨顯共享插滿了的物理內(nèi)存等,都只是一場流量狂歡罷了。
感謝大家的觀看,點贊和關(guān)注,我們下期再見。