你要的大数据,可能是这样​爬出来的!

  大数据,就是要大,机器多,CPU多,内存大,硬盘多,能获得的数据量就大!

  典型爬虫集群配置:

  数量:2500台

  CPU:8-16核(平均15核)

  内存:64GB-128GB(平均100GB)

  机械硬盘:10TB x N

  SSD固态硬盘:1TB x N

  爬虫集群性能:

  24小时可抓取页面数量:7000万

  爬虫集群数据量:

  域名总数:1.7亿

  数据索引总数:8亿

  抓取页面总数:1900亿

  内链:142000亿

  外链:21000亿

  数据特征:

  平均页面大小:66KB

  平均拥有页面:4.8万

  总存储量:17PB (17000TB)

  This is Big Data!

欢迎转载,请注明来源:http://www.liyaochao.com/post/22.html

评论列表: (共0条评论)

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。