前几天 DeepSeek 服务器被攻击,大家都懂的,网页端转圈转到心累。与其受制于人,不如自己动手!
最近把 DeepSeek-R1 部署到了本地,发现真没那么难。无论你是只有一台普通笔记本,还是手握 8 张 A800 显卡的大佬,这篇教程都能帮到你。
🟢 第一部分:普通玩家篇(Windows/Mac 个人电脑)
不想折腾代码,只想在自己电脑上流畅对话?看这里。
1. 你的电脑能跑吗?(配置检查)
- 系统:Windows 10/11 或 macOS
- 内存 (RAM):建议 16GB 以上(8GB也能跑,但只能跑小模型)
- 显卡 (GPU):
- NVIDIA 显卡:显存 6GB 起步体验最佳。
- 没有独显? 集成显卡也能跑,就是速度慢点,主要靠 CPU 硬扛。
- 硬盘:腾出 30GB 以上空间。
2. 神器登场:Ollama
Ollama 是目前最傻瓜式的大模型运行工具,没有之一。
- 下载:去 Ollama 官网 下载对应系统的安装包。
- 安装:一路“下一步”安装完成。
- 验证:
- 按
Win + R,输入cmd打开终端(或者右键开始菜单打开“终端管理员”)。 - 输入
ollama --version,出现版本号就是成功了。
- 按
3. 一键把 DeepSeek 娶回家
在终端里输入下面这行神技:
Bash
ollama run deepseek-r1
- 注意:这条命令默认下载的是 7b 版本(70亿参数)。
- 为什么要选它? 这是官方“蒸馏”出来的版本,性价比最高,大多数家用电脑都能流畅运行,聪明程度也足够日常使用。
- 显存不够? 如果你只有 8GB 内存且无独显,可以试试
ollama run deepseek-r1:1.5b(虽然它可能有点呆,但它快啊)。
输入命令后,你会看到进度条开始走。等下载完,直接在黑框框里打字,它就能回复你了!
🟡 第二部分:进阶体验(给它穿上好看的衣服)
黑乎乎的终端看着头晕?我们给它加个图形界面,顺便让它能联网。
推荐工具:AnythingLLM
- 下载:去 AnythingLLM 官网或 GitHub 下载桌面版。
- 对接 Ollama:
- 打开软件,进入 设置 (Settings) -> 聊天设置 (Chat Settings)。
- 在 LLM 提供者 里选择 Ollama。
- 它会自动识别你刚才下载的
deepseek-r1,选中它,点击 Update Workspace。
- 开启联网模式(必杀技):
- 在设置里找到 Agent Skills(代理技能)。
- 找到 Web Search,点击开启,选择一个搜索引擎(比如 Google 或 Bing)。
- 现在你的本地 DeepSeek 也能查当天的天气和新闻了!
p.s. 程序员朋友可以在 VSCode 里装个 Cline 插件,也能直接调用本地的 DeepSeek 写代码,爽得飞起。
🔴 第三部分:硬核玩家篇(Linux服务器/671B 满血版)
⚠️ 警告:本部分适合拥有钞能力(如 A100/A800 显卡集群)的企业或发烧友。非战斗人员请撤离。
DeepSeek-R1 的本体是 671B(6710亿参数),满血版不仅推理强,还能展现完整的“深度思考”过程。但想跑通它,不仅要钱,还要点技术。
1. 硬件门槛(劝退环节)
- 显卡:你需要 8 张 A800 (80G) 显卡。
- 成本参考:单张卡租金约 5元/小时,买的话...每张准备个10万吧。
- 显存:至少 640GB(模型本身约 404GB,还得给上下文留空间)。
- 系统:Ubuntu 20.04+,CUDA 12.2+。
2. 关键配置(不配这几个参数容易崩)
在 Linux 安装好 Ollama 后,在启动服务前,必须配置环境变量。建议写进 ~/.bashrc:
Bash
# 1. 把模型存到大容量数据盘(别把系统盘撑爆了)
export OLLAMA_MODELS=/datadisk/ollama_models
# 2. 开启多卡并行(重要!否则只用一张卡会报错)
export OLLAMA_SCHED_SPREAD=1
# 3. 防止加载超时(671B加载很慢,默认5分钟不够用)
export OLLAMA_LOAD_TIMEOUT=120m
# 4. 让模型常驻显存(-1表示不自动卸载,避免每次对话都重载半小时)
export OLLAMA_KEEP_ALIVE=-1
# 5. 并发控制(根据显存余量设置,设太大直接OOM)
export OLLAMA_NUM_PARALLEL=8
3. 启动与运行
为了防止断连后服务挂掉,建议用 nohup 后台运行:
Bash
# 启动服务
nohup ollama serve > ollama.log 2>&1 &
# 下载满血版(400多G,网速慢的请耐心等待)
ollama pull deepseek-r1:671b
# 运行模型(同样后台挂起)
nohup ollama run deepseek-r1:671b > run.log 2>&1 < /dev/null &
查看日志 tail -f run.log,当你看到 model load progress 1.00 时,恭喜你,你已经驾驭了这头巨兽。
4. 性能与压测
我们在 8卡 A800 环境下测试:
- 并发:在 128 并发下,平均响应时间会拉长到 180秒+,体验明显下降。
- 显存:Ollama 框架下 GPU 利用率不算特别高(约15%),如果是生产环境,建议后续考虑 vLLM 等更高性能的推理框架。
📝 总结一下
- 只是想尝鲜/日常工作:个人电脑 + Ollama + 7b模型 = 真香。
- 对数据隐私极其敏感:必须本地部署,拔了网线也能用。
- 企业级科研/私有化:准备好预算,上 671B 满血版,效果绝对震撼。
国产大模型能做到这个程度真的很不容易,DeepSeek 这波开源确实是把价格打下来了,也把技术门槛降下来了。
下一步行动: 别光收藏不练!现在就去官网下载 Ollama,先把 7b 模型跑起来,体验一下你的私人 AI 助手吧!
参考资料:本文基于开源社区教程及 zyj 的 671B 部署实录整理。
Comments NOTHING