转载【**搜索研发部】基于主特征空间相似度计算的切分算法

  说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词更重要的一个功能是帮助计算机理解文字,在这个层次上,切词是不分语言的,任何一个语言,涉及到计算机去

转载【**搜索研发部】语义主题计算–来自搜索背后的奥义

  两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。   关键词:主题模型   技术领域:搜索技术、自然语言处理

你要的大数据,可能是这样​爬出来的!

  大数据,就是要大,机器多,CPU多,内存大,硬盘多,能获得的数据量就大!  典型爬虫集群配置:  数量:2500台  CPU:8-16核(平均15核)  内存:64GB-128GB(平均100GB)  机械硬盘:10TB x N  SSD固态硬盘:1TB x N  爬虫集群性能:  24小时可抓取页面数量:7000万  爬虫集群数据量:  域名总数:1.7亿  数据索引总数:8亿  抓取页面总数:1900亿  内链:142000亿  外链:21000亿  数据特征:  平均页面大小:66KB

做SEO的你,把标题写对了吗?

  写文章的都知道:文好题一半!  做SEO同样如此,一个网页在搜索引擎眼里就是一篇文章,网页的标题就是文章标题。标题写得好,网页容易得到阅读,排名也会很好。  如何把网页标题写对?  1、确定标题需要的主要关键词  根据自己的业务转化目标,找到主要关键司。先参考下竟争对手的标题中的词。  例如本站的主关键字是:老域名,因为本站将会做与老域名相关的业务。请注意,根据中文语法,老 和 域名是两个词,这是算一个组合词。  2、根据主关键词,扩展描述  根据主关键词,把用户想看的,和你想表达的意思,用