独立站SEO之抓取百万数据

每一篇文章都有一个抓眼球的题目，作为标题党是必须的。作为一个会写两行代码的小程序员，那是装逼必备神器。当然，这一篇文章的核心也是在网上白嫖的。

写爬虫N个了，爬取的数据最多也就是10万级别，每次爬数据的时候都是我的二手笔记本每天晚上开一个cmd窗口在熬夜干活。一般的一晚上爬取了8万多条数据，然后白天就要关掉，去干自己的工作，毕竟现在的SEO还是自己的私活，也不敢向外人张扬。

五一的时候看到腾讯云在做活动，56元一年2核2G的服务器，NANI，直接下单，羊毛必须薅，便宜必须占，阿里云的mysql一年19元，MongoDB 3月9.9，也来一把。

现在随着项目的扩展，那些小型网站已经看不上了，虽然某些网站在小众领域非常NB，但是专业壁垒比较强，比如配件领域，利润率非常高，就是麻烦，比如需要发货，找货源，而且配件种类比较多，发货的期间压钱非常厉害。一个配件几千块，你敢发几个，几万进去了。现在的货运市场，费用高不说，集装箱掉海里也经常看到。国内的网站SEO做个尚可的就一两家，我看到西安、苏州一些大型公司的网站，产品上传一堆，谷歌收录率低的可怜，外链基本上没有，全靠阿里巴巴、速卖通。

我也问过我媳妇：做配件吗？做的话，咱们有流量/客户优势

答曰：太麻烦，不做。我只能换领域。

而看到一些流量非常高的网站，数据量基本上300万起步，高的数据量达到一个亿，怎么高的数据量难道让我的二手笔记本一晚上一晚上熬夜跑？That is impossible。用服务器跑，腾讯云上传scrapy。那如何部署呢？研究了一天scrapyd ,说实话也不难，就是有点麻烦。

在学习scrapyd的过程中用到了linux脚本，使程序在后台执行，那我的scrapy 是不是可以用脚本在后台执行呢？度娘一下，真的可以：

https://blog.csdn.net/weixin_33207144/article/details/112682771

总结一句话：

nohup python -u test.py > test.log 2>&1 &ps -A   查看进程再写一个python文件，如run.py，内容如下：import osif __name__ == '__main__':os.system("scrapy crawl myspider")然后执行：nohup python -u run.py > run.log 2>&1 &