熟女少妇一区二区三区四区_精品日产a一卡2卡3卡_美女强视频在线观看_国产精品久久久久69孕妇9_免费高清一级大毛片视频播放播放_久久国产av不卡_99久高清在线视频观看_y88午夜久久国产精品麻豆

一行命令部署 Deepseek 并測(cè)速 0基礎(chǔ)教程有手就行    

家用電腦 02-20 09:37:04 67 0

關(guān)于 Deepseek R1 以及其他大模型常見(jiàn)的一些問(wèn)題

Deepseek R1 是什么?

深度求索人工智能基礎(chǔ)模型(簡(jiǎn)稱(chēng)“深度求索”或“DeepSeek”)是由深度求索(北京)科技有限公司開(kāi)發(fā)的國(guó)產(chǎn)大語(yǔ)言模型。該模型基于深度學(xué)習(xí)技術(shù),具備理解和生成人類(lèi)語(yǔ)言的能力,可廣泛應(yīng)用于文本生成、對(duì)話交互、問(wèn)答系統(tǒng)等領(lǐng)域。

DeepSeek-R1 是深度求索公司推出的具體模型版本,具備高性能的自然語(yǔ)言處理能力,能夠處理復(fù)雜的文本生成任務(wù),理解和生成自然流暢的文本,適用于多種應(yīng)用場(chǎng)景,幫助用戶高效完成各種任務(wù)。

為什么要本地部署?

雖然云端部署成本更低,很多服務(wù)商甚至提供了一鍵部署選項(xiàng),Deepseek 官方也提供了網(wǎng)頁(yè)/APP 訪問(wèn),但我們?nèi)杂袔讉€(gè)理由來(lái)進(jìn)行本地部署:

  • 簡(jiǎn)單的學(xué)習(xí)部署方法與應(yīng)用,輸入代碼/選擇模型的時(shí)候,看到一些參數(shù)/名詞然后搜索一下或者直接問(wèn)大模型這些名詞/參數(shù)是什么意思,也是理解 AIGC 的一種方式(請(qǐng)自行搜索什么是 AIGC)
  • 本地 AI 不依賴(lài)網(wǎng)絡(luò),部署完成后可以斷網(wǎng)使用(不會(huì)出現(xiàn)某些軟件/APP 結(jié)果自動(dòng)加馬賽克的問(wèn)題)
  • 數(shù)據(jù)私密/安全性

當(dāng)然從成本和性能來(lái)說(shuō),云端部署成本更低,也支持部署更大參數(shù)量的模型。受限于大部分用戶的 RAM 和顯卡顯存大小,本地是不太可能部署諸如671B 參量的完整模型的。

參數(shù)量是什么?

在大型語(yǔ)言模型(如深度求索的 DeepSeek-R1)中,參數(shù)是指模型內(nèi)部用于表示和處理信息的變量。這些參數(shù)是模型通過(guò)訓(xùn)練學(xué)習(xí)到的數(shù)值,用于描述模型如何將輸入轉(zhuǎn)換為輸出。

簡(jiǎn)單來(lái)說(shuō),參數(shù)的數(shù)量決定了模型的復(fù)雜性和能力。一般來(lái)說(shuō),參數(shù)越多,模型的表達(dá)能力越強(qiáng),但同時(shí)也會(huì)消耗更多的計(jì)算資源和內(nèi)存。

例如
DeepSeek-R1-Distill-Qwen-7B-Q8,這里的 7B 就是參數(shù)量為 7Billon(70億),而 DeepSeek-R1-Distill-Qwen-14B-Q8 的參數(shù)量為 14Billon(14億)。(這里的 Qwen 指本模型基于 Qwen 大模型進(jìn)行蒸餾得來(lái))

Q2/Q4/Q8 是什么?

量化的詳細(xì)概念超出本文范疇,但下載/部署模型的時(shí)候,會(huì)有很多不同量化參數(shù)模型可供選擇,我個(gè)人一般選擇 Q8 來(lái)獲得相對(duì)更高的精度。

Q 值越大模型文件大小和所需的 RAM/顯存就越大,在零刻官方基于 SER9 Pro 系列機(jī)器測(cè)試 AI 性能的數(shù)據(jù)中,可以看到相同模型不同 Q 值所占用的 RAM 值。

我這里使用的是零刻 SER9 Pro,配置為 AMD AI 9 H365 + 32GB LPDDR5x + 1TB SSD,一般主流 16GB/32GB 的機(jī)器都可以正常安裝和使用7B/14B 模型。

token 是什么?

這里我直接把問(wèn)題丟給了 DeepSeek R1,它的回答其實(shí)是比較準(zhǔn)確和清晰的,我們需要簡(jiǎn)單的記住 token 生成速度(token/s)越快,生成答案的速度也就越快。

蒸餾/Distill 是什么?

可以簡(jiǎn)單的人位蒸餾是一種壓縮算法,它不是通過(guò)訓(xùn)練一個(gè)參數(shù)量較小的模型,而是將一個(gè)訓(xùn)練參數(shù)量更大的模型蒸餾為一個(gè)較小的模型。較小的模型可以使用更少的 RAM 和存儲(chǔ),獲得更快的速度,降低部署的成本。

但蒸餾畢竟是一種類(lèi)似壓縮的方式,蒸餾后的相對(duì)小體積的模型能力必然是落后于更大體積的模型,以 DeepSeek-R1 官方在 AIME2024、MATH-500、GPQA、LiveCodeBench、CodeForces 等測(cè)試下的結(jié)果,可以看出隨著整理模型由 32B → 14B → 7B → 1.5B,得分是依次降低的。

但好消息是
DeepSeek-R1-Distill-Qwen-32B 已經(jīng)超越了 OpenAI o1-mini,而體積更小的 DeepSeek-R1-Distill-Qwen-14B 和 32B 差距并不大,DeepSeek-R1-Distill-Qwen-14B 模型所需的 16GB 內(nèi)存或是顯存獲得的成本也并不是非常高。

目前我使用的機(jī)器是零刻的 SER9 Pro,CPU 是 AMD AI9 365,GPU 部分是集成的 880M 核顯,32GB 總內(nèi)存。從速度上來(lái)說(shuō)純 GPU 模式會(huì)比 CPU 更快,但如果分配的顯存不足,一旦從專(zhuān)屬顯存溢出到通用內(nèi)存,生成速度(token/s)會(huì)受到比較明顯的影響。

考慮到我這臺(tái)機(jī)器并不只是運(yùn)行 AI,日常也有辦公、游戲、娛樂(lè)等需求,我目前使用的方案是將32GB 內(nèi)存劃分 16GB 給核顯。模型部分則使用
DeepSeek-R1-Distill-Qwen-14B(-Q8),這樣既能兼顧日常使用,同時(shí)也可以有比較大的顯存供 LM Studio 和 Amuse 使用。

另外零刻官方基于 LM Studio,測(cè)試了 SER9 Pro 系列兩款機(jī)器,純 CPU、純 GPU 模式下生成 token 的速度,大家可以參考一下。

需要說(shuō)明的是 token/s 計(jì)算是存在一定誤差的,這里對(duì)比了同樣 GPU 模式下零刻 SER9 Pro HX370 和 H365 的成績(jī),相對(duì)規(guī)格稍低的 SER9 Pro AI 9 H365 生成速度比 HX370 更高,這部分差距應(yīng)該就是測(cè)試誤差造成的。不過(guò)反過(guò)來(lái)也說(shuō)明 SER9 Pro AI 9 H365 的性能和規(guī)格稍高的 SER9 Pro HX370 基本是屬于同一水準(zhǔn)。

另外由于 AI 9 系列 CPU 性能很強(qiáng),在
DeepSeek-R1-Distill-Qwen-14B-Q2 測(cè)試?yán)?,無(wú)論是 AI 9 HX370 還是 H365,CPU 生成速度都是略快于 GPU 的。如果你使用 Q2 之類(lèi)的模型,或者是 7B-Q8,那么純 CPU 模式效果會(huì)更好。

Ollama 部署 DeepSeek-R1

Ollama 和 LM Studio 都是比較方便的部署工具,不過(guò)對(duì)于初學(xué)者個(gè)人更推薦 Ollama,雖然使用 Ollama 要輸入命令行。但是以實(shí)際體驗(yàn)來(lái)說(shuō),Ollama 的網(wǎng)絡(luò)訪問(wèn)更通暢,無(wú)需換源或是對(duì)網(wǎng)絡(luò)有額外的要求(這部分不是能說(shuō)的)。軟件安裝也非常簡(jiǎn)單,直接官網(wǎng)下載后,一路下一步確認(rèn)即可完成安裝。

模型部分可以直接在頂部搜索欄搜索,也可以在下方主頁(yè)點(diǎn)擊模型名稱(chēng)進(jìn)行跳轉(zhuǎn)。

Windows 系統(tǒng)下有兩個(gè)工具自帶工具可以使用 Ollama,分別是傳統(tǒng)的 CMD 和更新一些的 PowerShell,方法如下:

  • Win 鍵,輸入 CMD,打開(kāi) CMD/命令提示符
  • Win 鍵,輸入 PowerShell,打開(kāi) Windows PowerShell

以 CMD 為例,打開(kāi) Ollama 后輸入 "ollama" 后回車(chē),應(yīng)該可以看到如下圖這樣多行的提示。

安裝/運(yùn)行模型的命令可以直接在 Ollama 的官網(wǎng)復(fù)制,在網(wǎng)頁(yè)上先選擇模型參數(shù)量,再點(diǎn)擊右側(cè)的復(fù)制按鈕?;氐?CMD 內(nèi),CTRL+V 快捷鍵粘貼命令,回車(chē)后即可開(kāi)始下載/運(yùn)行對(duì)應(yīng)模型。

例如,我這里安裝 DeepSeek-R1:14b,直接輸入如下命令運(yùn)行即可:

  • ollama run deepseek-r1:14b (注意單詞間的空格)

第一次運(yùn)行后下方會(huì)顯示下載(pulling xxxx),下載完成后會(huì)自動(dòng)運(yùn)行該模型,已經(jīng)下載過(guò)的模型則會(huì)直接運(yùn)行了。(也就是對(duì)于 ollama 而言 run 即可用于下載也可以用于運(yùn)行)

如果想要查看本機(jī)已經(jīng)安裝的模型,直接輸入 ollama list 然后回車(chē)即可。

如何計(jì)算 token 生成速度?方法是加一個(gè)命令 --verbose,比如運(yùn)行命令是:

  • ollama run deepseek-r1:14b

如果要計(jì)算生成速度,那么就修改為:

  • ollama run deepseek-r1:14b --verbose (注意是兩個(gè)-)
  • 在生成答案結(jié)束后,會(huì)紫銅統(tǒng)計(jì)總用時(shí)、生成速度(eval rate)等信息

One More Thing:Chatbox 調(diào)用 Ollama

當(dāng)然使用命令行只是為了安裝大模型,實(shí)際調(diào)用時(shí)更建議使用單獨(dú)的 UI 類(lèi)工具,比如常用的 Chatbox。作為一款免費(fèi)的工具,Chatbox 可以支持 Ollama 在內(nèi)很多 API 的調(diào)用,無(wú)論是本地部署還是云端部署,Chatbox 都是一款值得考慮的助手類(lèi)工具。

Chatbox 的安裝方式也沒(méi)有太多可說(shuō)的,官網(wǎng)下載然后一路下一步即可,再配置 Chatbox 之前,建議先打開(kāi)瀏覽器,輸入:

  • 127.0.0.1:11434 (主要這里:是英文符號(hào))并回車(chē)訪問(wèn)

如果看到 Ollama is running 的字樣,說(shuō)明 Ollama 已經(jīng)在后臺(tái)成功運(yùn)行。

這時(shí)打開(kāi) Chatbox,選擇——使用自己的 API Key 或本地模型

因?yàn)槲覀兪潜镜赝ㄟ^(guò) Ollama 部署,所以這里選擇——Ollama API

Chatbox 默認(rèn)就會(huì)填入 Ollama 的 API 域名,如果你是使用局域網(wǎng)設(shè)備部署,則需要替換 127.0.0.1 為對(duì)應(yīng)主機(jī)的 IP 地址。頁(yè)面內(nèi)還需要選擇模型,這里點(diǎn)擊下方模型選擇對(duì)應(yīng) Ollama 內(nèi)的模型文件名(例如這里我是調(diào)用上面安裝的 deepseek-r1:14b)即可。

然后在界面內(nèi),輸入問(wèn)題等待生成回答即可,一般沒(méi)有意外這里就可以正常使用了。

Chatbox 本身也支持其他很多 API,包括但不限于本地 LM Studio,云端各種主流云服務(wù),這部分內(nèi)容大家可以自行挖掘,本文就不再贅述了。

一行命令部署 Deepseek 并測(cè)速 0基礎(chǔ)教程有手就行   
廣告聲明:文中若存在對(duì)外跳轉(zhuǎn)的鏈接(涵蓋商品鏈接、超鏈接、二維碼等各類(lèi)形式),其目的在于為您呈上更多與內(nèi)容相關(guān)的產(chǎn)品信息,助您迅速甄別。但我們不對(duì)其做任何明示或暗示的保證,煩請(qǐng)您謹(jǐn)慎參考,依據(jù)自身的需求與判斷來(lái)做出決策。

23
LV23自成一派
0 爆料
165 原創(chuàng)
153 評(píng)論
網(wǎng)友評(píng)論
定边县| 永登县| 西平县| 张北县| 祁门县| 五寨县| 改则县| 丰城市| 通海县| 大同县| 阳江市| 闻喜县| 江永县| 科尔| 金乡县| 邯郸县| 东阿县| 于田县| 长丰县| 阜宁县| 讷河市| 黄浦区| 平远县| 桂平市| 旺苍县| 凌云县| 台江县| 安化县| 丰原市| 丰顺县| 五常市| 宁陕县| 平遥县| 祁阳县| 中超| 钟祥市| 安阳县| 清水县| 安徽省| 鱼台县| 万载县|