选择优质老域名时,排除链接作弊域名的方法(通过反链数据)

  反链数据名词解释:  首页评级(UR):是指域名首页获得的外链强度,从1-100,使用google的PR类似算法计算得到 ;  域名评级(DR):是指域名全站“所有页面”获得的外链强度,从1-100,使用类似google的PR算法计算的值;  反向链接:1个A标签的超链,即为1个反链,同一页上有多条指向你的a标签,算多条反向链接;  引用页:在多少个页面上出现过指向你的A标签超链,1个页上出现多条指向你的a标签超链,算1引用页;  引用域:在多少个域名上出现过指向你的A标签超链,1

转载【**搜索研发部】网页搜索质量评估标准

  什么是query-url质量评估   本文说的query-url质量评估,核心是根据query需求,衡量搜索结果(即一个url页面)的好坏。评估的标准是看搜索结果是否能提供用户想找的信息,满足了用户的需求,以及在多大程度上满足了用户的需求。这里面包含两个层次:   (1)搜索结果是否可以提供用户想找的信息。如果结果正是用户所找,可以满足用户需求,则是好结果;如果结果里没有用户想要的信息,没有用户关心的内容,则是差结果。   (

转载【**搜索研发部】搜索引擎判断网页页面价值的标准

  搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足 了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判 断页面的价值呢?本文将逐一回答这些问题。   一、什么是页面价值   前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎

转载【**搜索研发部】检索结果聚类结果说明

  检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程。   关键词:搜索引擎,搜索结果,聚类   我们首先来看一个例子:对于Query“苹果”,在Google(www.google.com.h

转载【**搜索研发部】搜索引擎同义词反馈机制

  1. 介绍   由于搜索算法本身的局限性,对于用户的语义、意图等理解不够,而基于用户行为的点击调权,作为对传统搜索算法的补充,在搜索中扮演着重要的作用。尽管用户行为已经被证明在搜索中的效果,但是一直只是停留在query-url层面,或者ngram-url层面[1],没有深入反馈到检索算法中的基础策略,比如:同义词、紧密度、省略等,这些策略影响了url与query之间的关系。本文以对同义词的反馈为例,提出一个通用的基于用户行为的基础策略反馈框架。

转载【**搜索研发部】以求医为例谈搜索引擎排序算法的基础原理

  我们向搜索引擎网站提交处理一个查问,搜索引擎网站会从先到后列出数量多的最后结果,这些个最后结果排序的标准是啥子呢?这个看似简单的问题,却是信息检索资深专家们研讨的中心困难的问题之一。  为理解释明白这个问题,我们来研讨一个比搜索引擎网站更加古老的话题:求医。譬如,假如我牙疼,应当去看怎样的医生呢?如果我只有三种挑选:   A医生,既治眼病,又治胃病;   B医生,既治牙病,又治胃病,还治眼病;   C医生,专治牙病。   A医生肯定不在思索问题之列。B

转载【**搜索研发部】基于主特征空间相似度计算的切分算法

  说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词更重要的一个功能是帮助计算机理解文字,在这个层次上,切词是不分语言的,任何一个语言,涉及到计算机去

转载【**搜索研发部】语义主题计算–来自搜索背后的奥义

  两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。   关键词:主题模型   技术领域:搜索技术、自然语言处理

光有老域名这个排名神器还不够,让我告诉你秒排不可忽视的几点

  老域名是实现网站秒排的一个必要工具。相信很多建站做排名的同学,有听说附子SEO培训讲的老域名秒排技术,就以为只要拿个老域名建站,就能实现秒排!自己做的时候,效果却不尽人意!这是为什么呢?下面给大家详细讲解老域名实现快速的原理!  一、老域名是实现秒排的条件之一  老域名是实现秒排的条件之一,请注意,有之一!不是全部。  相信看过我以前文章的朋友已经了解到了,一个好域名对于排名的重要性,是不言而喻的!老域名之所以好用,重点还是在于这个“老”字!这个原理很好理解。我们买东西都愿意买老品牌,有一定

你要的大数据,可能是这样​爬出来的!

  大数据,就是要大,机器多,CPU多,内存大,硬盘多,能获得的数据量就大!  典型爬虫集群配置:  数量:2500台  CPU:8-16核(平均15核)  内存:64GB-128GB(平均100GB)  机械硬盘:10TB x N  SSD固态硬盘:1TB x N  爬虫集群性能:  24小时可抓取页面数量:7000万  爬虫集群数据量:  域名总数:1.7亿  数据索引总数:8亿  抓取页面总数:1900亿  内链:142000亿  外链:21000亿  数据特征:  平均页面大小:66KB

做SEO的你,把标题写对了吗?

  写文章的都知道:文好题一半!  做SEO同样如此,一个网页在搜索引擎眼里就是一篇文章,网页的标题就是文章标题。标题写得好,网页容易得到阅读,排名也会很好。  如何把网页标题写对?  1、确定标题需要的主要关键词  根据自己的业务转化目标,找到主要关键司。先参考下竟争对手的标题中的词。  例如本站的主关键字是:老域名,因为本站将会做与老域名相关的业务。请注意,根据中文语法,老 和 域名是两个词,这是算一个组合词。  2、根据主关键词,扩展描述  根据主关键词,把用户想看的,和你想表达的意思,用