由于更具性价比的模型 QWQ-32B 出来了,本地部署变得非常有必要。除了本地部署外还可以考虑来点各种算力API搭配,实现混合部署节约算力成本。目前三大运营商已经下场投入算力资源,医疗行业全面接入 AI 不是梦。租不起算力服务器,前期可以先接入 API,用多少买多少。再不济每个月花一千两千大多数单位还是可以承受的。目前AI需求非常旺盛,几乎所有部门都能从中受益。有那么一种错觉,人人都拥有了一个没有使用次数限制的阿拉丁神灯,并且有求必应。知识不再重要,提问能力变得更为重要。回到主题,因为三大运营商的直接入场。算力资源变得充沛,硅基流动等公共资源在高峰时期会限流不太稳定,并且还分了并发等级包,不同等级会对并发有限制。而运营商的算力资源几乎对并发不做限制,我使用前几天写的并发脚本对其进行并发压力测试,在并发量为20时,前端响应几乎没有延迟,可以做到秒问秒答。由于担心 IP 被封,压力测试只维持了不到3分钟。查看 token 消费,峰值时调用了近400次,消耗了 0.95M 即 95万 token。根据市场价每百万 token 大概16元计算,一次压力测试大概会消耗10块钱。这个用量统计大概1天够访问5000次,每天花费约¥100,每月花费约¥3000。回到主题,内网如何接入外网API ?终端用户实际上是没有互联网接入能力的,他们在纯内网如何使用外部API。可以通过一台通互联网的DMZ前置机,将API请求代理到内网。内网用户通过前置机发送 API 请求。在前置机上安装 nginx,通过 nginx 实现反代理。nginx 配置文件如下:pid /run/nginx_deepseek_w1api.pid;
events {
worker_connections 768;
}
http {
server {
listen 11143;
server_name api.example.com;
location / {
proxy_pass https://zhenze-huhehaote.cmecloud.cn;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header X-Forwarded-Proto $scheme;
}
}
}
配置完 nginx 反代理,使用命令 nginx -s reload 使配置生效。然后在 postman 中对代理后的 API 进行测试:DMZ区域的 nginx 前置机充当了 API 网关,可以对外网API进行代理。这里只做了功能性演示,实际可做的比较多。比如限制并发、超时处理、IP 白名单、日志监控等。用于生产的配置还需要对代理性能进行调优,并处理 SSL 会话加密,并对 nginx 做安全加固。以上配置主要用于演示功能,在配置上做了简化,如果用于生产环节需要经过验证。
还没有评论,来说两句吧...