软件名称: | 网络爬虫域名采集器 |
软件说明: | 请到最下方更新日志处下载 |
附赠服务: | 赠送1年售后服务与软件更新 |
简单介绍: | 本软件工作原理是从一个初始网址中,查找外部网站, 比如初始页面中有30个外部网站 ,那就继续爬取这30个外本网站, 可以正常访问的就收录进数据库, 并且在这30个网站中再次查找 |
最后更新: | 2023-05-16 |
联系客服 免费下载 |
本软件工作原理是从一个初始网址中,查找外部网站,比如初始页面中有30个外部网站,那就继续爬取这30个外本网站,
可以正常访问的就收录进数据库,并且在这30个网站中再次查找外部网站如果每个站有30个外部网站,那就是30*30=900个
然后再访问这900个网站剔除无法访问的,找到正常访问的剔除重复加入数据库,然后再查找他们页面中的外部网站,如需往复
形成裂变式蜘蛛网!
当然这里边需要处理很多事情,比如爬行记录的去重、多线程之间的干扰、等等问题
历时一个月终于开发调试出抢答稳定的2.0版本。更好的利用了现代多核CPU的性能
历史版本性能:
第一版跑出10分钟1W+的网址数,已经非常强悍了
2.5版10分钟跑出2.8万个,注意这都是去重复后的网址哦,而且都是顶级域名
3.0版10分钟采集13万+个网站
3.2版 采集21万用时9分钟
每一次升级都是质的飞越,购买过的朋友快来下载最新版吧!
二级域名不算我们不采集没有用
具体的性能看你自己的电脑配置了,各位可以根据自己电脑配置适当调整线程数
这个5年前就买的最低配的货,也该淘汰了工欲善其事必先利其器 这个道理是对的
3.6版本界面:
3.4版本界面:
下面放上3.2版的界面给大家预览
随便输入一个你想要的关键词就可以开始采集了
这一版基本是最终形态, 估计不会有什么大的变动, 大家可以关注一下更新日志,如果有改动会在下方日志里列出!
具体的软件使用操作,大家可以看一下演示视频!
建议不要过于追求太大的线程数量,这个要根据你的网络带宽来调整,线程数过大同时访问的站也就越多,那就可能其中有部分网站打不开,因为你的宽带不够了
2023-05-16 更新版本: 3.7
2020-04-09 更新版本: 3.6 立即下载
2020-03-17 更新版本: 3.5 立即下载
2020-02-27 更新版本: 3.4 立即下载
2020-02-24 更新版本: 3.3 立即下载
2020-02-13 更新版本: 3.2 立即下载
2020-01-13 更新版本: 3.1 立即下载
2019-12-08 更新版本: 3.0 立即下载
2019-09-30 更新版本: 2.5 立即下载
2019-08-16 更新版本: 2.0 立即下载
2019-08-2 更新版本: 1.0
冀ICP备14002589号-3 Copyright ©2019JJdede.comAll Rights Reserved.
平台客服 979702097 10:00 - 18:00