deepseek火遍全球,但是受到大规模攻击多数时候都响应非常慢或者直接无响应,试试本地部署deepseek。
1.下载Ollama
Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。
到其官方主页下载https://ollama.com/
支持三平台,windows需win10及以上。下载好直接安装即可。
2.下载deepseek-r1
在Ollama 官方主页左上角点Models即可看到各个大模型,现在最火的就是deepseek-r1
deepseek-r1模型按照参数规模从1.5b到671b一共有7个版本,671b是满血版本,但个人电脑不现实。我的GPU是8GB显存,这里选择7b,估计8b也是可以的,16GB显存的GPU可以运行14b的模型,24GB显存的GPU可以运行32b的模型。deepseek官网是满血版本,个人部署用用7b也勉强,只是本地部署没有联网功能,检索最新数据方面是没办法了。如果显卡比较弱或者只用CPU也可以下载1.5b体验一下。另外,要使用NVIDIA显卡加速,需要先下载安装CUDA Toolkit。
在windows的cmd命令行窗口运行以下代码
ollama run deepseek-r1:7b
ollama会自动下载deepseek-r1:7b版本模型,文件有4.7G大小,估计要下载一阵子了。如果要下载1.5b版本,把命令最后的7b改成1.5b即可。1.5b的模型文件只有1.1G,下载会快不少。
下载好之后ollama会直接把deepseek跑起来,接下去就可以在命令行里面直接跟deepseek对话了
如果使用了GPU加速,可以在任务管理器中查看一下显存使用情况,确认运行正常,7b模型在我的电脑上使用5.4GB显存,0.7GB内存,78tok/s。
我又试了14b的模型,可以跑起来,但是响应稍微慢一点,风扇也起飞了,占用内存5.7GB,占用显存5GB,8.5tok/s,不过回答质量明显强于7b版本。
不过在命令行互动很蠢,展示没有格式化,要粘贴复制很不方便,记录也难保存。那我们就可以借助其他工具来对接ollama,让我们更方便的使用大模型。我使用的是AnythingLLM。AnythingLLM 是 Mintplex Labs 开发的一款可以与任何内容聊天的私人ChatGPT,是高效、可定制、开源的企业级文档聊天机器人解决方案。它能够将任何文档、资源或内容片段转化为大语言模型(LLM)在聊天中可以利用的相关上下文。
3.下载AnythingLLM
到官网下载AnythingLLM桌面版本https://anythingllm.com/desktop,一般下载Windows (x64)版本。
4.配置AnythingLLM
点击Get Started后需要对AnythingLLM进行配置,LLM provider选择Ollama,ChatModelSelection选择刚才安装好的deepseek。后面的Embedding Preference和Vector Database选择默认即可。工作区名字可自定义。
从下图对话可以看到,7b模型在大的信息上没啥问题,但是容易在细节上有错误,它写的西游记作者是施耐庵,但实际上是吴承恩。官网的满血版本显然不会有这样的问题。
如果没成功,可能是配置有问题,需要检查一下工作区的配置是否正确。点击工作区右边的设置按钮,在聊天设置中保证LLM 提供商是Ollama,模型是刚才下载的deepseek。设置好之后需要点击最下面的Update workspace按钮,这个按钮比较隐蔽。经过这些操作,本地大模型就配置好了,可以比较方便的使用。
下一步再试试使用deepseek大模型辅助代码编写。
目前能够比较方便使用的大模型插件主要支持的编程IDE是VS Code。下载VS Code,安装配置好python,再在应用商店下载Continue。
然后点击左侧Continue图标再点击Continue界面小齿轮即可打开配置文件,在models里面添加deepseek就可以使用,如果要用代码补全需要在tabAutocompleteModel中也添加好deepseek。
{ "model": "deepseek-r1:7b", "title": "deepseek-r1:7b", "provider": "ollama" }
使用deepseek可以打开Continue界面,在对话窗口直接对话。
代码补全功能可以在文件编辑界面点击Ctrl+I,接着输入需求再回车,即可自动生成代码,生成后会有accept和reject按钮。
如果有异常,点击VS Code右下角Continue按钮,确认使用的模型是此前部署在本地的那个。
文章评论