PhraseRank,不是PageRank的,特别能战斗搜索垃圾邮件

A+ A-

从网页的索引短语可以针对吸引游客只是为了让他们点击广告后在识别和过滤关键字酿页面的有效途径,而蜜罐的网页?

一项新的专利申请昨天公布,并分配给谷歌,检测垃圾文件在基于短语的信息检索系统,提出了有利于该方法的一个合理的说法。

好了,“Phraserank”没有出现在文档中。 但它可能是值得我们思考的一个术语。 它可能做的远不止帮助阻止垃圾邮件。


丹尼注意到,今天早上我有很长的书面记录上安娜帕特森执笔备案,我认为从这个文件在通过我们两个人跳了出来:

根据前述内容,存在于给定文档中的相关短语的数量将是已知的。 一个正常的,非垃圾邮件文件通常具有相关短语的数量相对有限,通常在8和20之间的顺序,这取决于文档集合。 与此相反,一个垃圾邮件文件将具有相关短语的数量过多,例如100和相关短语之间1000的数量级上。 因此,本发明利用这一发现的通过识别为垃圾邮件文档那些具有相对于该文档集合中的文档的预期数目相关短语的相关短语的数量在统计学上显著偏差文档。

这是从安娜帕特森第六公开的专利申请上基于短语的索引的某些方面。 他们三人在美国专利商标局分配数据库被列为被分配给谷歌。 下面是别人:

  • 多个基于索引的信息检索系统*(20060106792)
  • 在信息检索系统*基于短语的搜索(20060031195)
  • 在信息检索系统中基于短语的索引(20060020607)
  • 基于短语的代的文档描述的(20060020571)
  • 短语识别在信息检索系统(20060018551)

*分配给谷歌

发明者,安娜帕特森,写了一个搜索引擎的互联网档案馆一对夫妇几年前,作为演示,它消失了大约在当她加入谷歌。 她的四个分页的文章,为什么编写自己的搜索引擎是很难的,是一个很好的介绍基于短语的索引。 我最喜欢的名言:

有关于不同的事情上指数研究的主要领域。 不要让一个博士; 只是指数的话。 话是什么人在搜索; 他们不寻求N元或流字母或PTrees或位置,所以比其他简单的任何其他方法会让你显得聪明。 但是,嘿,写你自己的搜索引擎是够硬。 保存你拥有什么聪明的排名。


在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。 作者的工作人员在这里列出。


Ads

分享

最近

注意你的业务:2017年我们首要的本地搜索栏

当地SEO从业者在数字营销组合中发挥越来越重要的作用,与本地意图的搜索继续以快速的步伐增长 - 尤其是在移动设备上。 ...

使用AdWords API出口到第三方广告网络会保持OK作为谷歌仍保留在FTC和解方面采取

虽然谷歌的反垄断和解与联邦贸易委员会说让他们允许部分通过其API的AdWords数据的出口将于明天到期,马修Suche...

SearchCap:圣诞老人追踪器,谷歌API条款和SEO指标

下面是今天的搜索发生的事情,对搜索引擎土地和在网络上其他地方的报道。 从搜索引擎土地: 使用AdWords API...

玛琳·黛德丽谷歌涂鸦荣誉传奇女星的事业

玛琳·黛德丽,标志性的德国出生的女演员,今天正在荣幸在她诞辰116周年的谷歌主页上。 她是那个时代最高薪的女演员之一,...

谷歌图片搜索结果中测试新的相关搜索框

谷歌在谷歌图片搜索结果页面的移动版本测试一种新的“相关搜索”框。 罗宾Rozhon发现了变化,在Twitter上发布的...

注释