你要的大数据,可能是这样​爬出来的!

  大数据,就是要大,机器多,CPU多,内存大,硬盘多,能获得的数据量就大!

  典型爬虫集群配置:

  数量:2500台

  CPU:8-16核(平均15核)

  内存:64GB-128GB(平均100GB)

  机械硬盘:10TB x N

  SSD固态硬盘:1TB x N

  爬虫集群性能:

  24小时可抓取页面数量:7000万

  爬虫集群数据量:

  域名总数:1.7亿

  数据索引总数:8亿

  抓取页面总数:1900亿

  内链:142000亿

  外链:21000亿

  数据特征:

  平均页面大小:66KB

  平均拥有页面:4.8万

  总存储量:17PB (17000TB)

  典型爬虫集群配置 2023:

项目数量/容量单位
服务器3400
CPU核心612K
内存4PB
HDD33PB
SSD407PB
每分钟处理的页数5M页/分钟
键值数据库中的行数170T
每天新发现的页数10M页/天
每天更新指标的页数300M页/天
内容页面索引页数14.4B约 885TB
关键词索引大小20.4B
所有外部链接索引大小35.0T
所有索引中的页数340.8B约 20,948TB
所有域名数量206.3M
所有内部链接数量23.5T

欢迎转载,请注明来源:https://www.liyaochao.com/post/22.html

加我QQ 点击这里给我发消息

微信扫一扫 关注公众号
拿福利,看SEO秘籍

评论列表: (共0条评论)

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。