今天谷歌黑板报出了新文章:由抄袭造成的重复内容,这是谷歌中国的翻译文章。一般来说,国内国外的网站都会通过抄袭其他人的内容而堆积构造看起来很多很全的内容架构,而我觉得中国的网站门户更喜欢转载来转载去,大部分网站(对,那些“一小撮”例外)都是连通的,转载内容的现象已经很不好,更多的会不给链接,最多给你留个名字,更有甚者什么都不注明。而网上的一些“圣经”则说,抄也要抄得有技术,改改结构改改字眼然后再发表就行了。
谷歌今天的文章无疑对网站发布管理员特别是原创的小站给了很大的鼓舞啊,因为Google 说它有算法检查出来这些重复、抄袭内容的真正来源。
但是之后我马上发现,Google 的检测重复内容算法没有那么强大。一个小小的Case,就已经难倒了Google / 谷歌。描述如下:
近几个月以来,一直有个叫“35公里”的人同时在solidot 和 cnbeta 提交一些他自己翻译的来自外国的稿件。
IBM软件协助盲人更好地访问网站原文 | 英文来源 | solidot | cnbeta | digg | Google
IBM软件协助盲人更好地访问网站原文 | 英文来源 | solidot | cnbeta | digg | Google
这后面的三个网站的内容相信都是“35公里”他主动提交的,这几个网站的这篇文章的内容Google 都有收录到,而且文章内容方面所说的一些特征都有了:完全相同的内容、有原文链接、有简单的站点地图。链接都存在而且都是链接到原文的网址的,这样的话做排名完全没有太大的难度了,然而在我看完了该文章后试着验证是否如是所述的时候,却发现这篇文章在中文网络中貌似很热,有大量的转载。我第一次看的时候是admin5.com 排在第一位, solidot, cnbeta, comsharp 原文的页面都在第一页。 对此我就觉得奇怪了,于是有了这篇文章。而现在cnbeta 的页面已经排在第一位,solidot,comsharp的原文紧随其后,不过这些排名都是让人觉得莫名其妙的。
在这个案例上“35公里”真是太好的例子了,因为他的文章都很有特点,一是全是翻译文章,二是都保留链接,三是都固定投递给几个网站。更多例子:
- 连线杂志10大黑白照片 [2]
- 又一款语义搜索引擎Evri+浮出水面 [2]
- eBay+将结束Paypal+支付的垄断地位 [2]
- Internet+的50年口述历史 [2]
- 语意搜索的神话与现实 [1]
这个事情不能完全说是Google 的算法不好,Google 做得比较好了,但是还没有那么好。他提交者“35公里”是做CMS 的,他的网站就是他的COMSHARP CMS 的DEMO,但是不能不说这个CMS 自己在SEO 方面很差,他的页面多看几个就发现图片比链接还多,关键字的链接都不多,网页的架构不是很好。
我对谷歌是信任的,只是现在谷歌还不能正确rank 这些重复内容,应该归咎于中文的处理技术吗? 应该谷歌会有它的答案和继续提高技术。考虑到这可能是中文处理方面的谷歌的问题,而现在他们还没有把这样的技术做好就已经出来这样说,所以我说谷歌在说谎。
而百度就不说了,一直觉得baidu 的技术是最有扩展性的(机器排序不行的时候,用人肉手动排序),也是最搞笑的。

2 条评论
谎说不上,最多算大话吧
不过貌似粤语里,“讲大话”就是“说谎”的意思吧。
我的猜测是网站的Rank问题,不是pagerank,那玩意儿早过时了,谁知道G会不会再搞个siterank出来…
@Wes 我通篇都没有提到pagerank,这也不是pagerank 能解决的问题,还是ranking ,但是现在再审视这篇文章所提出的问题,谷歌的搜索结果还是没有能够nb 了多少,还是那些垃圾转载网站的排在前面。