boxmoe_header_banner_img

Hello! 欢迎来到QwQのblog！

加载中

文章导读

Qwen9b+openclaw本地化部署

qwq 2026年3月28日 173

最近在折腾本地大模型，最终锁定了 Qwen3.5-9B.Claude_Q4_K_S.gguf。选它的理由很简单：风格对标 Claude 4.6 Opus，能有效规避那些让人头秃的冗余自我反思，加上千问本身的底子有目共睹，性能表现相当能打。

部署环境选用了 llama.cpp，以下是具体的启动脚本和参数解析。

启动脚本

@echo off
llama-server.exe -m ./Qwen3.5-9B.Claude_Q4_K_S.gguf --mmproj ./mmproj-F16-9b.gguf --reasoning on --flash-attn on --n-gpu-layers 16 -t 7 -b 512 --repeat-penalty 1.20 --repeat-last-n 256 --temp 0.7 --port 8080 --host 127.0.0.1 --fit on --ctx-size 32000 --cache-type-k q4_0 --cache-type-v q4_0 --cont-batching --defrag-thold 0.2 --mlock --mmap
pause

参数解读：

参数类别	关键参数	配置意图与说明
基础配置	`--port 8080`	服务监听端口
	`--host 127.0.0.1`	本地访问（外网需改为 `0.0.0.0`）
	`--ctx-size 32000`	支持超长上下文窗口，处理长文本利器
推理生成	`--temp 0.7`	采样温度，平衡了创造性和稳定性
	`--repeat-penalty 1.20`	>1.0 抑制重复 token，让输出更丰富
	`--reasoning on`	启用推理增强（支持 CoT 链式逻辑）
硬件加速	`--n-gpu-layers 16`	卸载 16 层至 GPU（12G 显存可全卸载）
	`--flash-attn on`	启用 Flash Attention 2，大幅提升速度
	`-t 7`	CPU 线程数（建议 ≤ 物理核心数）
内存管理	`--cache-type-k/v q4_0`	KV 缓存 4-bit 量化，显著降低显存占用
	`--mlock`	锁定内存页，防止被系统交换，提升稳性

(注：部分参数如 -b 512 批处理大小（我的建议是开8192）、--cont-batching 连续批处理等可根据实际负载微调)

OpenClaw 接入指南

配置好模型后，接下来是接入 OpenClaw 的流程：

初始化配置：打开 PowerShell，输入命令 openclaw onboard

确认时直接输入 yes，选择“快速”模式（即第一个选项）

选项说明：第一个为使用当前值（选这个），第二个为更新值，第三个为重置。

Provider 配置：选择 Custom Provider

按照配置填写，我使用的是 8080 端口（下图中手滑填错了，请以实际为准）

第一个选项（api key）可直接随意填写，llama 不做限制，

继续选择第一个选项，模型 ID 需去 llama 处查看，即下图中第一个

此处按默认设置即可

设置别名，名称随意，好听就行。

这里是配置搜索功能我的建议是使用Tavily Search

配置技能直接跳过

这里是设置钩子，我的建议是全部打开

完成部署：直接重启服务，最后打开 WebUI，部署即告完成。

直接重启服务

然后还有一个问题就是他默认配置是16k上下文，并且不支持图片上传要在C:\Users\用户名\.openclaw 文件夹修改

修改openclaw.json

主要是修改这两个地方第一个上下文大小，根据参数设置，第二个地方就是图像识别`，input`添加`image`

最后附上链接

Qwen3.5-9B-Claude：

https://huggingface.co/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

llama.cpp：https://github.com/ggml-org/llama.cpp

未经许可，禁止转载

评论（0）

查看评论列表

暂无评论

发表评论取消回复

访客未填写邮箱

[填写昵称邮箱后可以评论]