纯内网接入各种算力API方案

由于更具性价比的模型 QWQ-32B 出来了，本地部署变得非常有必要。除了本地部署外还可以考虑来点各种算力API搭配，实现混合部署节约算力成本。

目前三大运营商已经下场投入算力资源，医疗行业全面接入 AI 不是梦。

租不起算力服务器，前期可以先接入 API，用多少买多少。再不济每个月花一千两千大多数单位还是可以承受的。目前AI需求非常旺盛，几乎所有部门都能从中受益。有那么一种错觉，人人都拥有了一个没有使用次数限制的阿拉丁神灯，并且有求必应。知识不再重要，提问能力变得更为重要。

回到主题，因为三大运营商的直接入场。算力资源变得充沛，硅基流动等公共资源在高峰时期会限流不太稳定，并且还分了并发等级包，不同等级会对并发有限制。

而运营商的算力资源几乎对并发不做限制，我使用前几天写的并发脚本对其进行并发压力测试，在并发量为20时，前端响应几乎没有延迟，可以做到秒问秒答。

由于担心 IP 被封，压力测试只维持了不到3分钟。查看 token 消费，峰值时调用了近400次，消耗了 0.95M 即 95万 token。

根据市场价每百万 token 大概16元计算，一次压力测试大概会消耗10块钱。这个用量统计大概1天够访问5000次，每天花费约￥100，每月花费约￥3000。

回到主题，内网如何接入外网API ？终端用户实际上是没有互联网接入能力的，他们在纯内网如何使用外部API。

方案如下

可以通过一台通互联网的DMZ前置机，将API请求代理到内网。内网用户通过前置机发送 API 请求。

在前置机上安装 nginx，通过 nginx 实现反代理。nginx 配置文件如下：

pid /run/nginx_deepseek_w1api.pid;events {    worker_connections 768;}http {    server {        listen 11143;        server_name api.example.com;        location / {            proxy_pass https://zhenze-huhehaote.cmecloud.cn;            # 设置代理头            proxy_set_header Host $host;            proxy_set_header X-Real-IP $remote_addr;            proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;            proxy_set_header X-Forwarded-Proto $scheme;  # 告知后端原始协议是 HTTP        }    }}