大模型 API 申请和 Ollama 部署本地模型

在 LLM 应用开发中,Prompt 写得再好,如果没有一个稳定靠谱的模型基座,输出结果依然像“开盲盒”。
很多小伙伴在项目起步时会纠结:到底是花钱买现成的 API 省心,还是自己折腾本地部署省钱?这篇文章就带大家做一次“穿透式”对比,拆解阿里云百炼 API 与 Ollama 本地部署这两大主流方案,帮你选出最适合你项目的方式。

云端 API vs 本地部署

在开始之前,先了解两种方案的特点,选择适合你的方式:

对比项阿里云百炼 API (云端)Ollama 本地部署 (本地)点评
对比项阿里云百炼 API (云端)Ollama 本地部署 (本地)点评
部署难度零部署,开箱即用需要安装、配置环境想快速上线选云端,想折腾底层选本地。
硬件要求无要求极高(内存/显存是刚需)本地跑 7B 模型至少得 16G 内存。
推理性能极快(专业 GPU 集群)取决于你的显卡生产环境的吞吐量云端完胜。
费用成本按 Token 计费(有免费额度)完全免费适合“白嫖”党做本地实验。
数据隐私数据上传云端数据 本地化金融、内网环境建议选本地。
适用场景生产环境、高质量业务开发测试、隐私敏感场景没有银弹,看你的业务痛点在哪。

如果是为了更好的分析效果,且不想因为硬件性能导致系统“假死”,个人强烈建议首选阿里云百炼 API。本地模型虽然香,但对普通开发机来说,处理长文本分析简直是“折磨”。 下面,我会详细介绍这两种接入大模型的方式

方案一:阿里云百炼 API

平台简介

阿里云百炼是一站式大模型开发与应用平台,集成了通义千问及主流第三方模型。它为开发者提供了兼容 OpenAI 的 API 及全链路模型服务,这意味着你可以使用标准的 OpenAI SDK 来调用阿里云的模型。 核心优势: ●开箱即用,无需自行部署或运维 ●直接调用通义千问(Qwen)全系列模型 ●支持 DeepSeek、GLM 等第三方大模型 ●提供可视化应用构建能力

模型选择

通义千问(Qwen)系列旗舰模型

模型特点适用场景价格
模型特点适用场景价格
qwen-max效果最好,能力最强复杂推理、多步骤任务较高
qwen-plus效果、速度、成本均衡通用场景(推荐)中等
qwen-turbo高性价比、低延迟简单任务、快速响应较低
qwen-coder-plus代码专用,工具调用强代码生成与理解中等

其他能力

● 多模态:视觉理解、图像生成、视频生成、语音识别与合成

● 向量嵌入:text-embedding-v3(推荐)、text-embedding-v2

● 细分领域:长文本处理、翻译、法律、角色扮演等

模型进阶服务

模型调优:支持 SFT、CPT、DPO 等训练方法

模型部署:资源专享的推理服务

模型评测:人工评测、自动评测、基线评测

开通步骤

1. 注册阿里云账号

如果没有阿里云账号,先注册阿里云账号

2. 开通阿里云百炼

使用阿里云主账号前往阿里云百炼大模型服务平台:

北京区域(推荐国内用户)

新加坡区域(海外用户) 阅读并同意协议后,将自动开通服务。

如果未弹出服务协议,则表示已经开通。 如果提示”您尚未进行实名认证”,请先完成实名认证

3. 获取 API Key

前往密钥管理页面:

北京区域密钥管理

新加坡区域密钥管理

点击创建 API-KEY,保存生成的密钥。

图片[1]-大模型 API 申请和 Ollama 部署本地模型-MacFun is an interesting website.

安全提示:API Key 等同于账号密码,请妥善保管,不要泄露或提交到代码仓库。

4. 领取免费额度

新用户通常有免费试用额度,可在模型用量界面查看。

方案二:Ollama 本地部署

Ollama 简介

Ollama 是一个开源的本地大模型运行框架,让你可以在本地电脑上运行各种开源大模型。它提供了: ●简单的命令行界面:一行命令即可运行模型 ●OpenAI 兼容 API:与云端 API 无缝切换 ●丰富的模型库:支持 Llama、Qwen、Mistral、Gemma 等主流模型 ●跨平台支持:macOS、Linux、Windows

安装 Ollama

macOS

使用命令下载:

# 使用 Homebrew 安装
brew install ollama

也可以直接访问 Ollama 下载页面 下载 macOS 安装包。

Linux

使用命令下载:

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

也可以直接访问 Ollama 下载页面 下载 Linux 安装包。

Windows

访问 Ollama 下载页面 下载 Windows 安装包。

启动 Ollama 服务

命令行启动

如果你想直接看到运行日志,或者在排查问题,可以使用这个命令:

ollama serve

这个命令会启动 Ollama 的 API 服务(默认端口 11434)。执行该命令后,该终端窗口会被占用,不要关闭它。你需要打开另一个新的终端窗口来输入 ollama run 或 ollama list 等命令。 在 Linux 上,Ollama 通常作为系统服务安装。

# 启动服务
sudo systemctl start ollama
# 停止服务
sudo systemctl stop ollama
# 设置开机自启
sudo systemctl enable ollama
# 查看服务状态(检查是否运行成功)
sudo systemctl status ollama

图形化界面

对于 Windows 和 macOS 用户来说,也可以直接点击 Ollama 应用程序启动。 启动后,在任务栏右下角的系统托盘(Windows)/屏幕顶部的菜单栏(macOS)中会看到一个羊驼图标,这表示服务已在后台运行。 界面效果如下图所示:

图片[2]-大模型 API 申请和 Ollama 部署本地模型-MacFun is an interesting website.

通过可视化界面,你不需要在终端输入 ollama run model,直接点选即可聊天。并且,可以直观地看到哪些模型已下载。 所有的对话和模型运行都在你自己的电脑上完成,不会上传到云端。

验证安装

无论使用哪种方式启动,你都可以在浏览器中访问这个地址来验证:http://localhost:11434

如果看到 “Ollama is running” 这行字,说明服务已经成功启动。 你也可以使用下面的命令验证:

ollama --version
# ollama version is 0.13.5

部署 Qwen 模型

拉取 Qwen 模型

Ollama 提供了多个版本的 Qwen 模型,我们这里以 Qwen2.5 为例进行介绍,根据你的硬件配置选择

模型参数量内存需求适用场景
模型参数量内存需求适用场景
qwen2.5:0.5b0.5B~1GB轻量级测试
qwen2.5:1.5b1.5B~2GB开发测试
qwen2.5:3b3B~4GB日常使用
qwen2.5:7b7B~8GB推荐配置
qwen2.5:14b14B~16GB高质量输出
qwen2.5:32b32B~32GB最佳效果
qwen2.5-coder:7b7B~8GB代码专用

除了可视化界面下载模型之外,也可以使用命令行拉取:

# 拉取模型(以 7B 为例)
ollama pull qwen2.5:7b

# 拉取代码专用模型
ollama pull qwen2.5-coder:7b

# 查看已下载的模型
ollama list

测试模型

除了可视化界面直接对话之外,也可以在命令行界面测试:

# 命令行对话测试
ollama run qwen2.5:7b

# 输入问题后按回车,输入 /bye 退出
>>> 你好,请介绍一下你自己
你好!我叫Qwen,是由阿里巴巴云开发的预训练语言模型。...

Ollama 常用命令

# 模型管理
ollama list              # 查看已安装模型
ollama pull <model>      # 下载模型
ollama rm <model>        # 删除模型
ollama show <model>      # 查看模型信息

# 运行模型
ollama run <model>       # 交互式对话
ollama run <model> "问题" # 单次问答

# 服务管理
ollama serve             # 启动服务
ollama ps                # 查看运行中的模型

# 创建自定义模型
ollama create <name> -f Modelfile  # 从 Modelfile 创建

自定义模型配置

可以通过 Modelfile 创建自定义配置的模型:

# Modelfile
FROM qwen2.5:7b

# 设置系统提示词
SYSTEM """
你是一个专业的 Java 面试官,擅长考察候选人的技术能力。
请用简洁专业的语言进行面试。
"""

# 调整参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
# 创建自定义模型
ollama create interview-assistant -f Modelfile

# 使用自定义模型
ollama run interview-assistant

项目中使用本地模型

如果想要在项目中使用本地模型,可以这样修改 application.yml:

spring:
  ai:
    openai:
      base-url: http://localhost:11434   # 不要加 /v1
      api-key: ollama
      chat:
        options:
          model: qwen2.5:7b
          temperature: 0.7

不过,不太建议这样做。我在自己的 20 款 Mac Pro 机器上实测简历分析耗时 10分多钟。

总结

本文主要介绍了接入大模型的两种主流方案:阿里云百炼 API(云端方案)与 Ollama(本地方案),并提供了详细的对比与操作指南。

方案对比与选择:

●阿里云百炼 API:适合生产环境。优势在于零部署、高性能 GPU 集群、模型质量最强(Qwen 全系列及第三方模型),按 Token 计费。

●Ollama 本地部署:适合开发测试及隐私敏感场景。优势在于完全免费、数据不出本地、无网络延迟,但受限于个人电脑硬件性能。 阿里云百炼接入流程:

●模型丰富:涵盖通义千问(qwen-max/plus/turbo)旗舰模型及多模态、向量嵌入等进阶服务。 ●开通便捷:通过阿里云账号实名认证后,在百炼控制台创建 API-KEY 即可使用。其 API 兼容 OpenAI 标准,方便开发者快速集成。 Ollama 本地部署指南:

● 跨平台支持:支持 macOS、Linux 和 Windows,安装简单。

● 模型管理:通过命令行(如 ollama pull qwen2.5:7b)或图形化界面快速部署 Qwen 系列开源模型。

● 灵活定制:支持通过 Modelfile 自定义系统提示词(System Prompt)和推理参数(如 Temperature)。

实践建议:

●对于高质量需求和复杂推理任务,首推阿里云百炼 API。

●本地模型(如 Qwen2.5-7B)在普通硬件上处理长文本或复杂分析(如简历分析)时耗时较长(实测可能达 10 分钟以上),需根据硬件配置合理选择模型参数量。

●在 Spring Boot 等项目中,两者均可通过修改 base-url 和 api-key 实现无缝切换。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容