转载【**搜索研发部】搜索引擎判断网页页面价值的标准

  搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足 了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判 断页面的价值呢?本文将逐一回答这些问题。   一、什么是页面价值   前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎

转载【**搜索研发部】检索结果聚类结果说明

  检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程。   关键词:搜索引擎,搜索结果,聚类   我们首先来看一个例子:对于Query“苹果”,在Google(www.google.com.h

转载【**搜索研发部】搜索引擎同义词反馈机制

  1. 介绍   由于搜索算法本身的局限性,对于用户的语义、意图等理解不够,而基于用户行为的点击调权,作为对传统搜索算法的补充,在搜索中扮演着重要的作用。尽管用户行为已经被证明在搜索中的效果,但是一直只是停留在query-url层面,或者ngram-url层面[1],没有深入反馈到检索算法中的基础策略,比如:同义词、紧密度、省略等,这些策略影响了url与query之间的关系。本文以对同义词的反馈为例,提出一个通用的基于用户行为的基础策略反馈框架。

转载【**搜索研发部】以求医为例谈搜索引擎排序算法的基础原理

  我们向搜索引擎网站提交处理一个查问,搜索引擎网站会从先到后列出数量多的最后结果,这些个最后结果排序的标准是啥子呢?这个看似简单的问题,却是信息检索资深专家们研讨的中心困难的问题之一。  为理解释明白这个问题,我们来研讨一个比搜索引擎网站更加古老的话题:求医。譬如,假如我牙疼,应当去看怎样的医生呢?如果我只有三种挑选:   A医生,既治眼病,又治胃病;   B医生,既治牙病,又治胃病,还治眼病;   C医生,专治牙病。   A医生肯定不在思索问题之列。B

转载【**搜索研发部】基于主特征空间相似度计算的切分算法

  说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词更重要的一个功能是帮助计算机理解文字,在这个层次上,切词是不分语言的,任何一个语言,涉及到计算机去

转载【**搜索研发部】语义主题计算–来自搜索背后的奥义

  两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。   关键词:主题模型   技术领域:搜索技术、自然语言处理

你要的大数据,可能是这样​爬出来的!

  大数据,就是要大,机器多,CPU多,内存大,硬盘多,能获得的数据量就大!

  典型爬虫集群配置:

  数量:2500台

  CPU:8-16核(平均15核)

  内存:64GB-128GB(平均100GB)

  机械硬盘:10TB x N

  SSD固态硬盘:1TB x N

  爬虫集群性能:

  24小时可抓取页面数量:7000万

  爬虫集群数据量:

  域名总数:1.7亿

  数据索引总数:8亿

  抓取页面总数:1900亿

  内链:142000亿

  外链:21000亿

  数据特征:

  平均页面大小:66KB

  平均拥有页面:4.8万

  总存储量:17PB (17000TB)

做SEO的你,把标题写对了吗?

  写文章的都知道:文好题一半!  做SEO同样如此,一个网页在搜索引擎眼里就是一篇文章,网页的标题就是文章标题。标题写得好,网页容易得到阅读,排名也会很好。  如何把网页标题写对?  1、确定标题需要的主要关键词  根据自己的业务转化目标,找到主要关键司。先参考下竟争对手的标题中的词。  例如本站的主关键字是:老域名,因为本站将会做与老域名相关的业务。请注意,根据中文语法,老 和 域名是两个词,这是算一个组合词。  2、根据主关键词,扩展描述  根据主关键词,把用户想看的,和你想表达的意思,用