boxmoe_header_banner_img

Hello! 欢迎来到QwQのblog!

加载中

文章导读

Qwen9b+openclaw本地化部署


avatar
qwq 2026年3月28日 174

最近在折腾本地大模型,最终锁定了 Qwen3.5-9B.Claude_Q4_K_S.gguf。选它的理由很简单:风格对标 Claude 4.6 Opus,能有效规避那些让人头秃的冗余自我反思,加上千问本身的底子有目共睹,性能表现相当能打。

部署环境选用了 llama.cpp,以下是具体的启动脚本和参数解析。

启动脚本

@echo off
llama-server.exe -m ./Qwen3.5-9B.Claude_Q4_K_S.gguf --mmproj ./mmproj-F16-9b.gguf --reasoning on --flash-attn on --n-gpu-layers 16 -t 7 -b 512 --repeat-penalty 1.20 --repeat-last-n 256 --temp 0.7 --port 8080 --host 127.0.0.1 --fit on --ctx-size 32000 --cache-type-k q4_0 --cache-type-v q4_0 --cont-batching --defrag-thold 0.2 --mlock --mmap
pause

参数解读:

参数类别关键参数配置意图与说明
基础配置--port 8080服务监听端口
--host 127.0.0.1本地访问(外网需改为 0.0.0.0
--ctx-size 32000支持超长上下文窗口,处理长文本利器
推理生成--temp 0.7采样温度,平衡了创造性和稳定性
--repeat-penalty 1.20>1.0 抑制重复 token,让输出更丰富
--reasoning on启用推理增强(支持 CoT 链式逻辑)
硬件加速--n-gpu-layers 16卸载 16 层至 GPU(12G 显存可全卸载)
--flash-attn on启用 Flash Attention 2,大幅提升速度
-t 7CPU 线程数(建议 ≤ 物理核心数)
内存管理--cache-type-k/v q4_0KV 缓存 4-bit 量化,显著降低显存占用
--mlock锁定内存页,防止被系统交换,提升稳性

(注:部分参数如 -b 512 批处理大小(我的建议是开8192)、--cont-batching 连续批处理等可根据实际负载微调)


OpenClaw 接入指南

配置好模型后,接下来是接入 OpenClaw 的流程:

初始化配置:打开 PowerShell,输入命令 openclaw onboard

确认时直接输入 yes,选择“快速”模式(即第一个选项)

选项说明:第一个为使用当前值(选这个),第二个为更新值,第三个为重置。

Provider 配置:选择 Custom Provider

按照配置填写,我使用的是 8080 端口(下图中手滑填错了,请以实际为准)

第一个选项(api key)可直接随意填写,llama 不做限制,

继续选择第一个选项,模型 ID 需去 llama 处查看,即下图中第一个

此处按默认设置即可

设置别名,名称随意,好听就行。

这里是配置搜索功能我的建议是使用Tavily Search

配置技能直接跳过

这里是设置钩子,我的建议是全部打开

完成部署:直接重启服务,最后打开 WebUI,部署即告完成。

直接重启服务

然后还有一个问题就是他默认配置是16k上下文,并且不支持图片上传要在C:\Users\用户名\.openclaw 文件夹修改

修改openclaw.json

主要是修改这两个地方第一个上下文大小,根据参数设置,第二个地方就是图像识别,input添加image

最后附上链接


Qwen3.5-9B-Claude:

https://huggingface.co/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

llama.cpp:https://github.com/ggml-org/llama.cpp

未经许可,禁止转载



评论(0)

查看评论列表

暂无评论


发表评论

表情 颜文字