|
 听刘骏演讲收获不少,在Pagerank方面,更是让我收益匪浅。
名词解释:PageRank 技术
通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
细细想来,我觉得Google的pagerank的确很完美,这正像美国正在进行的美国大选一样,看上去,这种评价肯定会得到客观的评价,让人感觉很好很公正。但当刘骏讲到中国网站时情形就大不相同。
22日的IT龙门阵,谷歌研究院副院长刘骏在谈到pagerank时指出,在利用pagerank评价中国网站时存在失效的问题。一般来说,国外网站在使用别人网站文章时往往通过引用的方式,而中国直接copy过来。Pagerank是基于引用计算评价的算法,面对中国互联网盗版严重就造成了Pagerank失效问题。 
那么作为谷歌竞争对手的百度又是怎么计算的呢?真正科学的方法又是什么呢?笔者略作猜测如下:
1 copyrank 与 pagerank
pagerank是基于引用的算法,引用这个操作对于国内的用户有些难度,国内经常引用别的网页的情况的确很少,我觉得主要有这么几类: 一类是类似洪波这样高端用户,这类用户包括网站的编辑,技术,或者对于网页和代码较为熟悉的用户,他们会时不时在文章中加上相关词语的链接; 第二类是广告,比如点睛 eyeclick,google ad还有友情链接,文字链广告等等; 第三类是一些web2.0产品,如博客留言中的引用,rss中的引用。但就用户而言,绝大多数是不会用引用代码或者超链接,添加超链接的过程太过复杂了。 中国人做网站喜欢拷贝,在他们看来与其去引用,还不如copy来的更快捷,反正文本网页又不占什么空间。所以,COPY成了中国网站的最爱。因此,与其计算pagerank还不如计算一篇文章的copyrank来得更加实际。 如果说pagerank是一个网页被引用的次数,那么copyrank就是一篇文章被copy的次数。我相信一篇文章被拷贝的次数越多,价值就越大,越值得去看。所以在中国,这个指标要比pagerank靠谱。
2 对网站的copyrank加权。
一个网页被不同网站编辑推荐copy应该不同的copyrank加权,比如一个新浪网编辑和一个小网站的编辑,他们在在copy某篇文章的时候显然不能给同样的加权,否则门户与小网站还有什么区别? 所以,不仅需要copyrank还有有copyrank加权。大型网站加权数值应该高一些,而小网站应低一些。还有文章被放到频道的头条还是焦点,首页还是频道页、第一条还是最后一条,放一天还是放一周,也应该有不同的加权。当然,也可以考虑用频道的流量进行加权,或许更合理一些,比如搜狐体育的流量很高,那么被搜狐体育copy的文章的加权也要适当提高。或许这种对比没有什么算法可言,会有很多人为的因素在里面,但我相信结果会更加人性化。
3 对网页评价还是对内容评价
正如刘骏所描述,中国网站盗版普遍存在,一篇文章往往可以找到很多相似或者相同的文章,有时甚至有几十篇甚至上百篇。这些稿子有时是出自公关公司,转载的数量取决于发文者的人脉,除此之外,一篇文章被转载copy的次数则可以说明它的受欢迎程度。 Google的pagerank的算法是基于对网页的评价体系,但在中国一篇文章可能会有上百个copy,所以,在中国copyrank似乎更有市场。当人们打开百度新闻的时候,会发现很多标题后面都标注着“xx条相同新闻”,这是一个相同新闻的列表,尽管他们的题目可能不同。我想这就是百度的copyrank吧! 那么,在中国到底是针对网页的pagerank合理还是针对内容的copyrank合理呢?很明显是后者。
顺便提一句,如果copyrank还没有申请专利,请google帮忙申请一下。
谢谢了!
|
一共有 7 条评论