大数据,就是要大,机器多,CPU多,内存大,硬盘多,能获得的数据量就大!
典型爬虫集群配置:
数量:2500台
CPU:8-16核(平均15核)
内存:64GB-128GB(平均100GB)
机械硬盘:10TB x N
SSD固态硬盘:1TB x N
爬虫集群性能:
24小时可抓取页面数量:7000万
爬虫集群数据量:
域名总数:1.7亿
数据索引总数:8亿
抓取页面总数:1900亿
内链:142000亿
外链:21000亿
数据特征:
平均页面大小:66KB
平均拥有页面:4.8万
总存储量:17PB (17000TB)
典型爬虫集群配置 2023:
项目 | 数量/容量 | 单位 |
---|---|---|
服务器 | 3400 | 台 |
CPU核心 | 612K | 个 |
内存 | 4PB | |
HDD | 33PB | |
SSD | 407PB | |
每分钟处理的页数 | 5M | 页/分钟 |
键值数据库中的行数 | 170T | 行 |
每天新发现的页数 | 10M | 页/天 |
每天更新指标的页数 | 300M | 页/天 |
内容页面索引页数 | 14.4B | 约 885TB |
关键词索引大小 | 20.4B | |
所有外部链接索引大小 | 35.0T | |
所有索引中的页数 | 340.8B | 约 20,948TB |
所有域名数量 | 206.3M | |
所有内部链接数量 | 23.5T |
欢迎转载,请注明来源:https://www.liyaochao.com/post/22.html
微信扫一扫 关注公众号
拿福利,看SEO秘籍
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。