对于需要长期运行的python爬虫程序选择什么样的服务器来运行比较好
【小Y提醒】本文内容收集整理于互联网,仅作参考!如需咨询“对于需要长期运行的python爬虫程序选择什么样的服务器来运行比较好”等有关服务器、云主机租用、托管、配置、价格问题,请在线咨询YINGSOO客服,为您答疑解惑!
【主机推荐】柬埔寨物理服务器特价 | 台湾云服务器特价 | 澳大利亚云服务器特价
【推荐文章】云主机免费试用的正确方式!
现在我们可以通过python语言写出爬虫程序来实现页面抓取、定时启动更新、定时发邮件提醒功能。虽然python的爬虫程序可以在本地运行,但是如果是要爬取数十万页面的内容,电脑不能一直开机,本地网络质量不稳定的情况下,使用服务器来运行爬虫程序是最佳的选择。不过现在的服务器类型那么多,性能及价格不一,那么选择什么样的服务器更适合作为爬虫服务器来使用呢?
首先我们需要对爬虫程序所需要的资源以及服务器配置来确定配置参数:
假如页面爬取总数是海外左右,接下来需要确定的是:页面每天都需要爬一遍还是说每天只爬其中某一部分即可。
这里我们以最大上限来假设,每天爬海外页面,而且已经考虑了目标的反爬机制、代理池等等所需的条件都已经准备完成,那么需要测算的就是单位时间单核多线程的正常工作效率是多少,也就是爬虫程序能爬多少页面。
在网速不限的情况下,单位内存及cpU最高使用率下能够爬多少个页面,设为n。如果是在额定网速下,内存及cpU有闲置资源时能够爬多少个页面,设为m。
若基于m/n的爬取速度,都能满足每天爬30w的需求,就可以用固定网速下的网速,不限网速的硬件配置。
这里可以先选择弹性云,用最小配置测试,若不满足需求,逐渐增加配置。不过在逐渐升级配置的过程中我们也要考虑相应云服务器配置的成本,因为当云服务器的性能达到一定程度之后,云服务器租用的价格就会大大超过独立服务器,这时候我们就需要使用独立服务器了,而且独立服务器还可以选择多ip的站群服务器,防止爬虫ip过于单一而被屏蔽。
热门节点:香港服务器去首页注册有礼!YINGSOO推出PHA挖矿服务器、PHA挖矿教程、Chia奇亚服务器、Swarm物理节点服务器、Swarm母鸡服务器、Swarm云节点服务器、《Phala PHA挖矿资料大全》、《swarm bzz挖矿资料大全》,Swarm Bee节点租用请咨询YINGSOO客服!
版权声明:本站文章来源标注为YINGSOO的内容版权均为本站所有,欢迎引用、转载,请保持原文完整并注明来源及原文链接。禁止复制或仿造本网站,禁止在非www.yingsoo.com所属的服务器上建立镜像,否则将依法追究法律责任。本站部分内容来源于网友推荐、互联网收集整理而来,仅供学习参考,不代表本站立场,如有内容涉嫌侵权,请联系alex-e#qq.com处理。