还没玩上 DeepSeek?本地部署保姆级教程(从入门到入土…啊不,到满血)

硅基物语道荣 预计阅读时间: 6 分钟 1395 字


前几天 DeepSeek 服务器被攻击,大家都懂的,网页端转圈转到心累。与其受制于人,不如自己动手!

最近把 DeepSeek-R1 部署到了本地,发现真没那么难。无论你是只有一台普通笔记本,还是手握 8 张 A800 显卡的大佬,这篇教程都能帮到你。


🟢 第一部分:普通玩家篇(Windows/Mac 个人电脑)

不想折腾代码,只想在自己电脑上流畅对话?看这里。

1. 你的电脑能跑吗?(配置检查)

  • 系统:Windows 10/11 或 macOS
  • 内存 (RAM):建议 16GB 以上(8GB也能跑,但只能跑小模型)
  • 显卡 (GPU)
    • NVIDIA 显卡:显存 6GB 起步体验最佳。
    • 没有独显? 集成显卡也能跑,就是速度慢点,主要靠 CPU 硬扛。
  • 硬盘:腾出 30GB 以上空间。

2. 神器登场:Ollama

Ollama 是目前最傻瓜式的大模型运行工具,没有之一。

  1. 下载:去 Ollama 官网 下载对应系统的安装包。
  2. 安装:一路“下一步”安装完成。
  3. 验证
    • Win + R,输入 cmd 打开终端(或者右键开始菜单打开“终端管理员”)。
    • 输入 ollama --version,出现版本号就是成功了。

3. 一键把 DeepSeek 娶回家

在终端里输入下面这行神技:

Bash

ollama run deepseek-r1
  • 注意:这条命令默认下载的是 7b 版本(70亿参数)。
    • 为什么要选它? 这是官方“蒸馏”出来的版本,性价比最高,大多数家用电脑都能流畅运行,聪明程度也足够日常使用。
    • 显存不够? 如果你只有 8GB 内存且无独显,可以试试 ollama run deepseek-r1:1.5b(虽然它可能有点呆,但它快啊)。

输入命令后,你会看到进度条开始走。等下载完,直接在黑框框里打字,它就能回复你了!


🟡 第二部分:进阶体验(给它穿上好看的衣服)

黑乎乎的终端看着头晕?我们给它加个图形界面,顺便让它能联网

推荐工具:AnythingLLM

  1. 下载:去 AnythingLLM 官网或 GitHub 下载桌面版。
  2. 对接 Ollama
    • 打开软件,进入 设置 (Settings) -> 聊天设置 (Chat Settings)
    • LLM 提供者 里选择 Ollama
    • 它会自动识别你刚才下载的 deepseek-r1,选中它,点击 Update Workspace
  3. 开启联网模式(必杀技):
    • 在设置里找到 Agent Skills(代理技能)
    • 找到 Web Search,点击开启,选择一个搜索引擎(比如 Google 或 Bing)。
    • 现在你的本地 DeepSeek 也能查当天的天气和新闻了!

p.s. 程序员朋友可以在 VSCode 里装个 Cline 插件,也能直接调用本地的 DeepSeek 写代码,爽得飞起。


🔴 第三部分:硬核玩家篇(Linux服务器/671B 满血版)

⚠️ 警告:本部分适合拥有钞能力(如 A100/A800 显卡集群)的企业或发烧友。非战斗人员请撤离。

DeepSeek-R1 的本体是 671B(6710亿参数),满血版不仅推理强,还能展现完整的“深度思考”过程。但想跑通它,不仅要钱,还要点技术。

1. 硬件门槛(劝退环节)

  • 显卡:你需要 8 张 A800 (80G) 显卡。
    • 成本参考:单张卡租金约 5元/小时,买的话...每张准备个10万吧。
  • 显存:至少 640GB(模型本身约 404GB,还得给上下文留空间)。
  • 系统:Ubuntu 20.04+,CUDA 12.2+。

2. 关键配置(不配这几个参数容易崩)

在 Linux 安装好 Ollama 后,在启动服务前,必须配置环境变量。建议写进 ~/.bashrc

Bash

# 1. 把模型存到大容量数据盘(别把系统盘撑爆了)
export OLLAMA_MODELS=/datadisk/ollama_models

# 2. 开启多卡并行(重要!否则只用一张卡会报错)
export OLLAMA_SCHED_SPREAD=1

# 3. 防止加载超时(671B加载很慢,默认5分钟不够用)
export OLLAMA_LOAD_TIMEOUT=120m

# 4. 让模型常驻显存(-1表示不自动卸载,避免每次对话都重载半小时)
export OLLAMA_KEEP_ALIVE=-1

# 5. 并发控制(根据显存余量设置,设太大直接OOM)
export OLLAMA_NUM_PARALLEL=8 

3. 启动与运行

为了防止断连后服务挂掉,建议用 nohup 后台运行:

Bash

# 启动服务
nohup ollama serve > ollama.log 2>&1 &

# 下载满血版(400多G,网速慢的请耐心等待)
ollama pull deepseek-r1:671b

# 运行模型(同样后台挂起)
nohup ollama run deepseek-r1:671b > run.log 2>&1 < /dev/null &

查看日志 tail -f run.log,当你看到 model load progress 1.00 时,恭喜你,你已经驾驭了这头巨兽。

4. 性能与压测

我们在 8卡 A800 环境下测试:

  • 并发:在 128 并发下,平均响应时间会拉长到 180秒+,体验明显下降。
  • 显存:Ollama 框架下 GPU 利用率不算特别高(约15%),如果是生产环境,建议后续考虑 vLLM 等更高性能的推理框架。

📝 总结一下

  • 只是想尝鲜/日常工作:个人电脑 + Ollama + 7b模型 = 真香
  • 对数据隐私极其敏感:必须本地部署,拔了网线也能用。
  • 企业级科研/私有化:准备好预算,上 671B 满血版,效果绝对震撼。

国产大模型能做到这个程度真的很不容易,DeepSeek 这波开源确实是把价格打下来了,也把技术门槛降下来了。

下一步行动: 别光收藏不练!现在就去官网下载 Ollama,先把 7b 模型跑起来,体验一下你的私人 AI 助手吧!

参考资料:本文基于开源社区教程及 zyj 的 671B 部署实录整理。

此作者没有提供个人介绍。
最后更新于 2025-12-02