每一篇文章都有一个抓眼球的题目,作为标题党是必须的。作为一个会写两行代码的小程序员,那是装逼必备神器。当然,这一篇文章的核心也是在网上白嫖的。
写爬虫N个了,爬取的数据最多也就是10万级别,每次爬数据的时候都是我的二手笔记本每天晚上开一个cmd窗口在熬夜干活。一般的一晚上爬取了8万多条数据,然后白天就要关掉,去干自己的工作,毕竟现在的SEO还是自己的私活,也不敢向外人张扬。
五一的时候看到腾讯云在做活动,56元一年2核2G的服务器,NANI,直接下单,羊毛必须薅,便宜必须占,阿里云的mysql一年19元,MongoDB 3月9.9,也来一把。
现在随着项目的扩展,那些小型网站已经看不上了,虽然某些网站在小众领域非常NB,但是专业壁垒比较强,比如 配件领域,利润率非常高,就是麻烦,比如需 要发货,找货源,而且配件种类比较多,发货的期间压钱非常厉害。一个配件几千块,你敢发几个,几万进去了。现在的货运市场,费用高不说,集装箱掉海里也经常看到。国内的网站SEO做个尚可的就一两家,我看到西安、苏州一些大型公司的网站,产品上传一堆,谷歌收录率低的可怜,外链基本上没有,全靠阿里巴巴、速卖通。
我也问过我媳妇:做配件吗?做的话,咱们有流量/客户优势
答曰:太麻烦,不做。我只能换领域。
而看到一些流量非常高的网站,数据量基本上300万起步,高的数据量达到一个亿,怎么高的数据量难道让我的二手笔记本一晚上一晚上熬夜跑?That is impossible。用服务器跑,腾讯云上传scrapy。那如何部署呢?研究了一天scrapyd ,说实话也不难,就是有点麻烦。
在学习scrapyd的过程中用到了linux脚本,使程序在后台执行,那我的scrapy 是不是可以用脚本在后台执行呢?度娘一下,真的可以:
https://blog.csdn.net/weixin_33207144/article/details/112682771
总结一句话:
nohup python -u test.py > test.log 2>&1 &
ps -A 查看进程
再写一个python文件,如run.py,内容如下:
import os
if __name__ == '__main__':
os.system("scrapy crawl myspider")
然后执行:nohup python -u run.py > run.log 2>&1 &
以后再 也不用担心我的二手笔记本熬夜干活了,使用vutrl按照小时计费,可以多开几台虚拟机,也不用担心被对方网站封IP。如果8小时8万多条数据,一天25万条数据,一个月750万条数据,一个月的VPS费用是6美元合计不到40元。40元750万条数据,真划算。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...