<?xml version="1.0" encoding="utf-8"?><?xml-stylesheet href='http://feed.feedsky.com/styles/temp01.xsl' type='text/xsl' ?><!--这是一个由Feedsy提供技术支持的Feed，为了提高读者阅读的体验，以及满足用户美化自己Feed的需要，我们设计了多种精美的Feed模板，提供给大家选择，所有最终呈现出来的样式，皆由用户自愿选择使用，未经许可，任何团体和个人，请不要擅自修改样式或者盗用，这是对于用户选择权的尊重。--><rss xmlns:atom="http://www.w3.org/2005/Atom" xmlns:fs="http://www.feedsky.com/namespace/feed" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0"><channel><atom:link href="http://feed.feedsky.com/beyondsearch" type="application/rss+xml" rel="self"></atom:link><fs:self_link href="http://feed.feedsky.com/beyondsearch" type="application/rss+xml"></fs:self_link><lastBuildDate>Mon, 25 Aug 2008 00:05:32 GMT</lastBuildDate><title>Beyond Search</title><description>最好走的路越走越难，最难走的路越走越容易！</description><link>http://www.guwendong.cn/</link><language>zh-CN</language><copyright>Copyright 2007-2008 &amp;lt;a href=&amp;quot;http://www.guwendong.cn/&amp;quot;&amp;gt;Guwendong.cn&amp;lt;/a&amp;gt;. All Rights Reserved.</copyright><pubDate>Mon, 25 Aug 2008 00:14:00 GMT</pubDate><item><title>《Programming Collective Intelligence》书评</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/107585349/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=69</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=69&amp;key=da216463</trackback:ping><description>&lt;a href=&quot;http://www.douban.com/subject/2209702/&quot; id=&quot;aitj&quot; title=&quot;《Programming Collective Intelligence》&quot;&gt;&lt;img src=&quot;http://otho.douban.com/mpic/s3144119.jpg&quot; id=&quot;uxk50&quot; style=&quot;padding: 0pt 20px 20px 0pt; float: left&quot; /&gt;&lt;/a&gt; 中国有句老话，叫做&amp;ldquo;知易行难&amp;rdquo;。&lt;br id=&quot;sd_d&quot; /&gt; 作算法的朋友应该更有体会，想把 paper 上的公式转变为可以运行的代码，这是件考验功力的事情。&lt;br id=&quot;yp73&quot; /&gt; &lt;a href=&quot;http://kiwitobes.com/&quot; id=&quot;kh:9&quot; title=&quot;Toby Segaran&quot;&gt;Toby Segaran&lt;/a&gt; 写的这本&lt;a href=&quot;http://www.douban.com/subject/2209702/&quot; id=&quot;iyjm&quot; title=&quot;《Programming Collective Intelligence》&quot;&gt;《Programming Collective Intelligence》&lt;/a&gt;，是修炼此种功力的武林秘笈之一。&lt;br id=&quot;i:y1&quot; /&gt; &lt;br id=&quot;ijws&quot; /&gt; 这本书最显著的特点是，实战性极强！&lt;br id=&quot;obz3&quot; /&gt; 针对每个算法，他从头到尾演示了一个完整的实现过程：从获取数据，组织存储，到算法实现，加载运算，再到最后的结果的分析利用。书中所有的例子均基于实际系统的真实数据，作者演示了大量的开放 API 的使用，Delicious、Amazon、Last.fm、Google News，各个都是大名鼎鼎，每步都是真刀真枪。跟着书中的操作这样一趟走下来，你会豁然开朗，原来这些看似神秘复杂的系统，也不过如此。但不幸的是，其中的大部分 API 已经不能工作了。比如 del.icio.us API，你就得换&lt;a href=&quot;http://www.michael-noll.com/wiki/Del.icio.us_Python_API&quot; id=&quot;uvhx&quot; title=&quot;Del.icio.us Python API&quot;&gt;这个&lt;/a&gt;了。&lt;br id=&quot;en:k&quot; /&gt; &lt;br id=&quot;en:k0&quot; /&gt; 从纯粹算法的角度来讲，这本书里讲解的算法，基本都是入门级的。但即使是这样，能把细节讲述地如此传神，也实属不易。换一个角度来看，简单，也同时意味着常用，熟练掌握了书中的这些算法，也足以解决不少的现实问题。而且，在拥有大规模数据的情况下，简单的算法，往往也可以取得令人吃惊的效果 &lt;a href=&quot;http://anand.typepad.com/datawocky/2008/03/more-data-usual.html&quot; id=&quot;nkq:&quot; title=&quot;More Data Usually Beats Better Algorithms&quot;&gt;[1]&lt;/a&gt;。&lt;br id=&quot;ijws0&quot; /&gt; &lt;br id=&quot;rqu:&quot; /&gt; 另外一个方面，此书作者用英文遣词造句的能力出神入化，读起来简直行云流水。时常会让自己产生英文超牛的幻觉，体验很爽。&lt;br id=&quot;cwpx&quot; /&gt; &lt;br id=&quot;cwpx0&quot; /&gt; 没时间细读的朋友，也建议至少看一下  &lt;a href=&quot;http://kiwitobes.com/&quot; id=&quot;kh:9&quot; title=&quot;Toby Segaran&quot;&gt;Toby Segaran&lt;/a&gt; 写的 &lt;a href=&quot;http://www.slideshare.net/adunne/mining-social-data-for-fun-and-insight&quot; id=&quot;coz7&quot; title=&quot;Social Data Mining&quot;&gt;Social Data Mining&lt;/a&gt; 这个 slide，一定会有收获。&lt;br id=&quot;yq9j&quot; /&gt; &lt;br id=&quot;yq9j0&quot; /&gt; 我得知此书，需感谢&lt;a href=&quot;http://www.guwendong.cn/post/2008/recommendation_resources.html&quot; id=&quot;wizj&quot; title=&quot;个性化技术相关资料&quot;&gt;个性化技术相关资料&lt;/a&gt;后面，KaKa 网友的推荐。&lt;br id=&quot;jkx9&quot; /&gt; 豆瓣猜没有帮助我发现这本书。&lt;br id=&quot;iq.5&quot; /&gt; 这曾让我思考，&lt;a href=&quot;http://www.douban.com/group/topic/3994778/&quot; id=&quot;i2z.&quot; title=&quot;基于 SNS 的推荐&quot;&gt;基于 SNS 的推荐&lt;/a&gt;，是否比传统的推荐更有效呢？&lt;br id=&quot;kehe&quot; /&gt; &lt;br id=&quot;xyr6&quot; /&gt; 五星！&lt;img src=&quot;http://docs.google.com/File?id=ddjqwpms_299grdm7tg6_b&quot; id=&quot;q5y.&quot; style=&quot;width: 64px; height: 12px&quot; /&gt;&lt;br id=&quot;iiaz&quot; /&gt; &lt;br id=&quot;baz1&quot; /&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/19d64445bb83bb03391849f0edf2c91a&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/19d64445bb83bb03391849f0edf2c91a/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>推荐系统</category><pubDate>Mon, 25 Aug 2008 08:05:32 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/programming_collective_intelligence_review.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/programming_collective_intelligence_review.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/programming_collective_intelligence_review.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/107585349/1231275</fs:itemid></item><item><title>Google 评价 blog 的指标</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930541/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=68</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=68&amp;key=bc5e0c09</trackback:ping><description>读了一下 Google 关于 Blog Ranking 的 &lt;a href=&quot;http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&amp;amp;Sect2=HITOFF&amp;amp;d=PG01&amp;amp;p=1&amp;amp;u=%2Fnetahtml%2FPTO%2Fsrchnum.html&amp;amp;r=1&amp;amp;f=G&amp;amp;l=50&amp;amp;s1=%2220070061297%22.PGNR.&amp;amp;OS=DN/20070061297&amp;amp;RS=DN/20070061297&quot; rel=&quot;nofollow&quot; id=&quot;ep8h2&quot; title=&quot;Patent&quot;&gt;Patent&lt;/a&gt;，总结如下。&lt;br /&gt;&lt;br /&gt;正面的指标：&lt;br /&gt;&lt;ol id=&quot;ep8h6&quot;&gt;&lt;li id=&quot;ep8h7&quot;&gt;&lt;b id=&quot;v4u:0&quot;&gt;[0038] 订阅数&lt;/b&gt;&lt;br id=&quot;kxqr0&quot; /&gt;统计 blog 在各种 reader 中被订阅的数量。被订阅的越多，ranking 越高。但同时会使用一些方法处理&amp;ldquo;subscriptions spam&amp;rdquo;，诸如验证订制人和 IP 的唯一性。&lt;/li&gt;&lt;li id=&quot;ep8h8&quot;&gt;&lt;b id=&quot;v4u:1&quot;&gt;[0039] 搜索点击数&lt;/b&gt;&lt;br id=&quot;kxqr1&quot; /&gt;统计 blog 作为搜索结果时被点击的次数。点击次数越多，ranking 越高。&lt;br id=&quot;c8dx0&quot; /&gt;&lt;/li&gt;&lt;li id=&quot;ep8h9&quot;&gt;&lt;b id=&quot;v4u:2&quot;&gt;[0040] 在其他 blogger 的 blogroll 里的出现次数&lt;/b&gt;&lt;br id=&quot;hrih0&quot; /&gt;blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中，指向某个 blog 的链接越多，ranking 越高。&lt;br id=&quot;p0r_0&quot; /&gt;&lt;/li&gt;&lt;li id=&quot;ep8h10&quot;&gt;&lt;b id=&quot;ijcl0&quot;&gt;[0041] 来自高质量的 blogroll 的链接数&lt;/b&gt;&lt;br id=&quot;c8dx1&quot; /&gt;高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。&lt;/li&gt;&lt;li id=&quot;ep8h11&quot;&gt;&lt;b id=&quot;ijcl1&quot;&gt;[0042] 来自高质量的 blog 的 blogroll 的链接数&lt;/b&gt;&lt;br id=&quot;gfg40&quot; /&gt;这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。&lt;/li&gt;&lt;li id=&quot;ep8h12&quot;&gt;&lt;b id=&quot;ijcl2&quot;&gt;[0043] 有Tag&lt;/b&gt;&lt;br id=&quot;nr:x0&quot; /&gt;blog 作者如果分析了 blog 内容，归类并打上了 tag，起码可以说明作者的态度比较认真。&lt;br id=&quot;ncqb0&quot; /&gt;&lt;/li&gt;&lt;li id=&quot;ep8h13&quot;&gt;&lt;b id=&quot;ijcl3&quot;&gt;[0044] 来自邮件和聊天记录的链接数&lt;/b&gt;&lt;br id=&quot;zuoe0&quot; /&gt;如果在 Email 正文里或者聊天记录里出现了指向 blog 的链接，会加分。GEmail 和 Gtalk 被用在了这里。&lt;br id=&quot;l0va0&quot; /&gt;&lt;/li&gt;&lt;li id=&quot;ep8h14&quot;&gt;&lt;b id=&quot;ijcl4&quot;&gt;[0045] PageRank&lt;/b&gt;&lt;br id=&quot;a:2m0&quot; /&gt;PageRank 越高对应的 blog 也就越重要。考虑到blog的更新比较频繁，最新的 blog post 可能还没有PR。这时可以用对应的 blog 的 PR 来代替。&lt;/li&gt;&lt;/ol&gt;其中 [0040-0042]，其实是类似于传统网页间 PageRank 计算的一套模式，只不过这里把它限制在了 blog 之间。&lt;br /&gt;&lt;br /&gt;负面的指标： &lt;ol id=&quot;ep8h16&quot;&gt;&lt;li id=&quot;ep8h17&quot;&gt;&lt;b id=&quot;kuo20&quot;&gt;[0047] 更新频率异常&lt;/b&gt;&lt;br id=&quot;dfz40&quot; /&gt;更新过于频繁或者非常有规律，会被认为是在 spam，ranking 会降低。这里提醒喜欢在每天的固定时间更新 blog 的朋友注意一下了。&lt;b id=&quot;x0jo0&quot;&gt;&lt;br id=&quot;m_3.0&quot; /&gt;&lt;/b&gt;&lt;/li&gt;&lt;li id=&quot;ep8h18&quot;&gt;&lt;b id=&quot;x0jo1&quot;&gt;[0048] feed 内容和 blog 内容的不一致&lt;/b&gt;&lt;br id=&quot;peic1&quot; /&gt;spammer 有可能会为了提升自己的 ranking 而把有价值的内容放到 feed 里面，同时在 blog 内容里面放一些指向不相关内容的广告链接。为了惩罚这种情况，对于 feed 内容和 blog 内容不一致的情况，要降低 ranking。&lt;/li&gt;&lt;li id=&quot;ep8h19&quot;&gt;&lt;b id=&quot;x0jo2&quot;&gt;[0049] 出现重复内容&lt;/b&gt;&lt;br id=&quot;x0jo3&quot; /&gt;有些 spammer 为了让某些内容能够多次长时间的出现在 feed 里面，会重复发布同样的内容。这样的情况会被惩罚。&lt;/li&gt;&lt;li id=&quot;ep8h20&quot;&gt;&lt;b id=&quot;j:700&quot;&gt;[0050] 垃圾词过多&lt;/b&gt;&lt;br id=&quot;mpof0&quot; /&gt;通过词频统计（bi-gram 或者 tri-gram 等），如果 blog 内容里垃圾词的比较过高，会降低 ranking。&lt;/li&gt;&lt;li id=&quot;ep8h21&quot;&gt;&lt;b id=&quot;ob4k0&quot;&gt;[0051] 多数 blog 长度相近&lt;/b&gt;&lt;br id=&quot;j:701&quot; /&gt;这个主要是针对使用机器自动生成 blog 的情况。&lt;/li&gt;&lt;li id=&quot;ep8h22&quot;&gt;&lt;b id=&quot;ygcm0&quot;&gt;[0052] 链接异常&lt;/b&gt;&lt;br id=&quot;vpha0&quot; /&gt;当 blog 里的链接多为指向单一网页，或者单一的外站，会被认为是在 spam，ranking 会降低。&lt;/li&gt;&lt;li id=&quot;ep8h23&quot;&gt;&lt;b id=&quot;obiq0&quot;&gt;[0053] 广告太多&lt;/b&gt;&lt;br id=&quot;nf6y0&quot; /&gt;如果一个 blog 页面内含有过多的广告，会降低 ranking。&lt;/li&gt;&lt;li id=&quot;y58i0&quot;&gt;&lt;b id=&quot;y58i1&quot;&gt;[0054] 广告出现在正文里&lt;br id=&quot;t.6l0&quot; /&gt;&lt;/b&gt;一般 blog 页面会包括三方面的内容：最近发表的 blog，blogroll 和 metadata。如果广告出现在正文里，会降低 ranking。不知道 adsense 的广告有没有特殊待遇？&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/58caf15bec2af226473abfd9677b51ed&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/58caf15bec2af226473abfd9677b51ed/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>研究小记</category><pubDate>Wed, 20 Aug 2008 08:47:32 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/google_blog_rank.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/google_blog_rank.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/google_blog_rank.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930541/1231275</fs:itemid></item><item><title>Are Machine-Learned Models Prone to Catastrophic Errors?</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930542/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=67</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=67&amp;key=f3980177</trackback:ping><description>最近忙，paper 看得多，blog 看得少，险些错过一些非常有意思的文章。上一次提到的 &amp;quot;&lt;a href=&quot;http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html&quot; id=&quot;bnc90&quot; title=&quot;Introduction to Google Search Quality&quot;&gt;Introduction to Google Search Quality&lt;/a&gt;&amp;quot; 算一篇，这次要说的是另外一篇 &amp;quot;&lt;a href=&quot;http://anand.typepad.com/datawocky/2008/03/more-data-usual.html&quot; id=&quot;b3h4&quot; title=&quot;Are Machine-Learned Models Prone to Catastrophic Errors?&quot;&gt;Are Machine-Learned Models Prone to Catastrophic Errors?&lt;/a&gt;&amp;quot;。            &lt;i id=&quot;vakb0&quot;&gt;不过这两个 blog 都被我们伟大的 GFW 拌掉了。&lt;br id=&quot;o35q0&quot; /&gt; &lt;br id=&quot;o35q1&quot; /&gt; &lt;/i&gt;&lt;a href=&quot;http://www.norvig.com/resume.html&quot; id=&quot;o2yw0&quot;&gt;Peter Norvig&lt;/a&gt; 这样的大师的意见，我们需要仔细体会。我整理一下我感兴趣的。&lt;br id=&quot;zw6q0&quot; /&gt; &lt;ol id=&quot;zw6q1&quot;&gt; &lt;li id=&quot;zw6q2&quot;&gt;tow phase of google search algorithms&lt;ul id=&quot;zw6q3&quot;&gt; &lt;li id=&quot;zw6q4&quot;&gt;An offline phase, which is time-consuming and query-independent.&lt;/li&gt; &lt;li id=&quot;zw6q4&quot;&gt;An on-line phrase, in response to a user query in a few milliseconds.&lt;/li&gt; &lt;/ul&gt;&lt;/li&gt;  &lt;li id=&quot;zw6q4&quot;&gt;Tons of training data ... from &lt;b id=&quot;h6xa0&quot;&gt;the armies of &amp;quot;raters&amp;quot;&lt;/b&gt; employed by Google&lt;/li&gt; &lt;li id=&quot;zw6q4&quot;&gt;The big surprise is that Google &lt;b id=&quot;s:ax0&quot;&gt;still uses the manually-crafted formula&lt;/b&gt; for its search results, &lt;b id=&quot;twzr0&quot;&gt;despite&lt;/b&gt; the fact that, their &lt;b id=&quot;twzr1&quot;&gt;best machine-learned model&lt;/b&gt; is now as good as, and sometimes &lt;b id=&quot;twzr2&quot;&gt;better than&lt;/b&gt;, &lt;b id=&quot;twzr3&quot;&gt;the hand-tuned formula&lt;/b&gt; on the results quality metrics that Google uses.&lt;/li&gt; &lt;li id=&quot;zw6q4&quot;&gt;two reasons&lt;/li&gt; &lt;div id=&quot;rh960&quot;&gt; &lt;ul id=&quot;z5vz0&quot;&gt; &lt;li id=&quot;rh962&quot;&gt;the human experts who created the algorithm believe they can do better than a machine-learned model&lt;/li&gt;  &lt;li id=&quot;z5vz1&quot;&gt;Google&amp;#39;s search team worries that &lt;b id=&quot;nu9v0&quot;&gt;machine-learned models&lt;/b&gt; may be     &lt;b id=&quot;nu9v1&quot;&gt;susceptible to catastrophic errors&lt;/b&gt; on unforeseen query types, which is  different from the training data.&lt;/li&gt; &lt;/ul&gt;    &lt;/div&gt; &lt;li id=&quot;jx8n2&quot;&gt;Nassim Taleb divides &lt;a href=&quot;http://en.wikipedia.org/wiki/Black_swan_theory&quot; id=&quot;ogys0&quot; title=&quot;Black Swan&quot;&gt;Black Swan&lt;/a&gt; phenomena into two classes&lt;ul id=&quot;ogys1&quot;&gt; &lt;li id=&quot;jx8n2&quot;&gt;Mediocristan&lt;/li&gt; &lt;li id=&quot;jx8n2&quot;&gt;Extremistan&lt;/li&gt; &lt;/ul&gt;&lt;/li&gt;  &lt;li id=&quot;jx8n2&quot;&gt;The current generation of machine learning algorithms can work well in Mediocristan but not in Extremistan.&lt;/li&gt; &lt;/ol&gt; &lt;br id=&quot;d7.x0&quot; /&gt; So the thing is, how to figure out whether new machine learning algorithms can be devised that work well in Extremistan, or prove that it cannot be done? &lt;br id=&quot;jx8n3&quot; /&gt;&lt;br /&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/c399068f57d5318aa1bf8dec3a34e1bf&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/c399068f57d5318aa1bf8dec3a34e1bf/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>研究小记</category><pubDate>Tue, 03 Jun 2008 11:29:02 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/peter_norvig_on_machine_learning.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/peter_norvig_on_machine_learning.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/peter_norvig_on_machine_learning.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930542/1231275</fs:itemid></item><item><title>Google Search Quality 官方说明</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930543/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=66</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=66&amp;key=da480d0a</trackback:ping><description>&amp;quot;the ranking of Google search results&amp;quot; 是 google 的命脉，因此很少能看到官方的说明。原因倒也无可厚非：&amp;quot;competition and abuse&amp;quot;，这两件事情确实哪一个都不容忽视！&lt;br id=&quot;qd6v0&quot; /&gt; &lt;br id=&quot;qd6v1&quot; /&gt; 不过近日，google 负责搜索质量的 VP， &lt;a href=&quot;http://manber.com/&quot; id=&quot;aq:.&quot; title=&quot;Udi Manber&quot;&gt;Udi Manber&lt;/a&gt;，透露了一些有意思的资料，&amp;quot;&lt;a href=&quot;http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html&quot; id=&quot;bnc90&quot; title=&quot;Introduction to Google Search Quality&quot;&gt;Introduction to Google Search Quality&lt;/a&gt;&amp;quot;。对 search 感兴趣的千万不要错过！我列举一下我感兴趣的。&lt;br id=&quot;s.260&quot; /&gt; &lt;ol id=&quot;z59l0&quot;&gt; &lt;li id=&quot;s.262&quot;&gt;more than &lt;b id=&quot;pimx0&quot;&gt;one thousand programmer/scientist years&lt;/b&gt; have gone directly into their development (that is to say &amp;quot;the ranking algorithms&amp;quot;).&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;divided into some teams&lt;ul id=&quot;z59l1&quot;&gt; &lt;li id=&quot;s.262&quot;&gt;The heart of the group is the team that works on core ranking&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;Another team in our group is responsible for evaluating how well we&amp;#39;re doing&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;Another team is dedicated to new features and new user interfaces&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;There is a whole team that concentrates on fighting &lt;a href=&quot;http://www.google.com/support/webmasters/bin/answer.py?hl=en&amp;amp;answer=35769#quality&quot; id=&quot;v:jf0&quot; title=&quot;webspam and other types of abuse&quot;&gt;webspam and other types of abuse&lt;/a&gt;&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;There are other teams devoted to particular projects&lt;/li&gt; &lt;/ul&gt;&lt;/li&gt;  &lt;li id=&quot;s.262&quot;&gt;&lt;a href=&quot;http://www.google.com/technology/&quot; id=&quot;k6ow0&quot; title=&quot;PageRank&quot;&gt;PageRank&lt;/a&gt; &lt;a href=&quot;http://en.wikipedia.org/wiki/PageRank&quot; id=&quot;mr41&quot; title=&quot;PageRank @ Wiki&quot;&gt;[1]&lt;/a&gt; is still in use today, but it is now a part of a much larger system. ... made significant changes to the PageRank algorithm in January, 2008.&lt;br id=&quot;d-j10&quot; /&gt; &lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;some other parts&lt;ul id=&quot;a9s10&quot;&gt; &lt;li id=&quot;s.262&quot;&gt;language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;query models (it&amp;#39;s not just the language, it&amp;#39;s how people use it today)&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;&lt;b id=&quot;tpsy0&quot;&gt;time models&lt;/b&gt; (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;&lt;b id=&quot;t8020&quot;&gt;personalized models&lt;/b&gt; (not all people want the same thing).&lt;/li&gt; &lt;/ul&gt;&lt;/li&gt;  &lt;li id=&quot;s.262&quot;&gt;Google conducts evaluations typically in three manners, (1) automated evaluations &lt;b id=&quot;b8gs0&quot;&gt;every minute&lt;/b&gt;, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;In 2007, ... more than &lt;b id=&quot;o49c0&quot;&gt;450&lt;/b&gt; new improvements, about &lt;b id=&quot;o49c1&quot;&gt;9 per week&lt;/b&gt; on the average.&lt;/li&gt; &lt;li id=&quot;s.262&quot;&gt;.. work on projects where the sole purpose is to simplify the algorithms. &lt;b id=&quot;h3kh0&quot;&gt;Simple is good.&lt;/b&gt;&lt;/li&gt; &lt;/ol&gt; &lt;br id=&quot;nzlw0&quot; /&gt; &lt;a href=&quot;http://manber.com/&quot; id=&quot;aq:.&quot; title=&quot;Udi Manber&quot;&gt;Udi Manber&lt;/a&gt; 是我最景仰的几位科学家之一。&amp;quot;Chief Algorithms Officer&amp;quot;这个职位，就是 Amazon 专门为表彰他的贡献而首创出来的。&lt;br id=&quot;nzlw1&quot; /&gt; &lt;br id=&quot;gdpn0&quot; /&gt; 推荐阅读：&lt;br id=&quot;yqm50&quot; /&gt; &lt;ol id=&quot;yqm51&quot;&gt; &lt;li id=&quot;yqm52&quot;&gt;&lt;a href=&quot;http://www.popularmechanics.com/blogs/technology_news/4259137.html?nav=RSS2&quot; id=&quot;g0vq&quot; title=&quot;20 (Rare) Questions for Google Search Guru Udi Manber&quot;&gt;20 (Rare) Questions for Google Search Guru Udi Manber&lt;/a&gt; &lt;/li&gt; &lt;li id=&quot;yqm52&quot;&gt;&lt;a href=&quot;http://searchengineland.com/070604-105606.php&quot; id=&quot;x7kb&quot; title=&quot;Insight Into Google's Search Quality Efforts&quot;&gt;Insight Into Google&amp;#39;s Search Quality Efforts&lt;/a&gt; &lt;/li&gt; &lt;/ol&gt; &lt;br id=&quot;jmh-1&quot; /&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/20dcff9d0e559263812221c1da40fb4f&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/20dcff9d0e559263812221c1da40fb4f/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>研究小记</category><pubDate>Sun, 01 Jun 2008 21:35:15 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/google_search_quality_1.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/google_search_quality_1.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/google_search_quality_1.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930543/1231275</fs:itemid></item><item><title>Digg+RDFa</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930544/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=65</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=65&amp;key=1fbf5667</trackback:ping><description>5月初，Digg &lt;a href=&quot;http://blog.digg.com/?p=120&quot; id=&quot;j_sf&quot; title=&quot;宣布&quot;&gt;宣布&lt;/a&gt;在其新闻页面里，加入对 &lt;a href=&quot;/catalog.asp?cate=3&quot; id=&quot;tuww&quot; title=&quot;Semantic Web 系列&quot;&gt;semantic markup&lt;/a&gt; &lt;a href=&quot;http://en.wikipedia.org/wiki/Semantic_Web&quot; id=&quot;xg71&quot; title=&quot;[1]&quot;&gt;[1]&lt;/a&gt;  的支持。目前支持 3 种：&lt;a href=&quot;http://en.wikipedia.org/wiki/XHTML_Friends_Network&quot; id=&quot;mzl90&quot; title=&quot;XFN&quot;&gt;XFN&lt;/a&gt;，&lt;a href=&quot;http://en.wikipedia.org/wiki/Hcard&quot; id=&quot;dlad0&quot; title=&quot;hCard&quot;&gt;hCard&lt;/a&gt;，以及最重要的 &lt;a href=&quot;http://www.w3.org/TR/xhtml-rdfa-primer/&quot; id=&quot;dlad1&quot; title=&quot;Embedding Structured Data in Web Pages&quot;&gt;RDFa&lt;/a&gt; &lt;a href=&quot;http://en.wikipedia.org/wiki/RDFa&quot; id=&quot;vp-g&quot; title=&quot;RDFa @ Wikipedia&quot;&gt;[1]&lt;/a&gt;。&lt;br id=&quot;v0ei0&quot; /&gt; &lt;br id=&quot;ppum0&quot; /&gt;想看实际用法的，可以在 Digg 新闻页面的源代码里，搜索&amp;ldquo;property&amp;rdquo;。比如在这个页面里 &lt;br /&gt;http://digg.com/tech_news/In_Google_we_trust_but_should_we，你可以找到类似于这样的内容，&lt;br /&gt;&amp;ldquo;&amp;lt;&lt;span id=&quot;a3.u0&quot; class=&quot;start-tag&quot;&gt;a&lt;/span&gt;&lt;span id=&quot;a3.u1&quot; class=&quot;attribute-name&quot;&gt; href&lt;/span&gt;=&lt;span id=&quot;a3.u2&quot; class=&quot;attribute-value&quot;&gt;&amp;quot;http://www.guardian.co.uk/technology/2008/may/22/internet.google&amp;quot; &lt;/span&gt;&lt;b id=&quot;c2jt0&quot;&gt;&lt;span id=&quot;f_:i0&quot; style=&quot;color: #ff0000&quot;&gt;&lt;span id=&quot;a3.u3&quot; class=&quot;attribute-name&quot;&gt;rel&lt;/span&gt;=&lt;/span&gt;&lt;span id=&quot;a3.u4&quot; class=&quot;attribute-value&quot;&gt;&lt;span id=&quot;f_:i1&quot; style=&quot;color: #ff0000&quot;&gt;&amp;quot;dc:source&amp;quot;&lt;/span&gt; &lt;/span&gt;&lt;span id=&quot;c2jt1&quot; style=&quot;color: #ff0000&quot;&gt;&lt;span id=&quot;a3.u5&quot; class=&quot;attribute-name&quot;&gt;property&lt;/span&gt;=&lt;span id=&quot;a3.u6&quot; class=&quot;attribute-value&quot;&gt;&amp;quot;dc:title&amp;quot;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&amp;gt;&lt;br /&gt;In Google we trust - but should we?&amp;lt;/&lt;span id=&quot;a3.u7&quot; class=&quot;end-tag&quot;&gt;a&lt;/span&gt;&amp;gt;&amp;rdquo;。&lt;br id=&quot;pyqj0&quot; /&gt; 如果安装了 &lt;a href=&quot;http://www.w3.org/2006/07/SWD/RDFa/impl/js/&quot; id=&quot;id202501&quot; title=&quot;RDFa bookmarklets&quot;&gt;RDFa bookmarklets&lt;/a&gt; 的话，可以看到更形象的效果，类似下面。&lt;br id=&quot;zc-.0&quot; /&gt; &lt;ol id=&quot;gk8i0&quot;&gt;&lt;li id=&quot;gk8i1&quot;&gt; 使用 &lt;span id=&quot;m80w0&quot; class=&quot;bookmarklet&quot;&gt;RDFa Highlight 标亮页面上的 &lt;/span&gt;N3 Triples。&lt;br id=&quot;gk8i2&quot; /&gt; &lt;img src=&quot;http://docs.google.com/File?id=ddjqwpms_244hnccg9hd_b&quot; id=&quot;da::0&quot; style=&quot;width: 684px; height: 138px&quot; /&gt;&lt;br id=&quot;z1460&quot; /&gt; &lt;/li&gt;&lt;li id=&quot;gk8i2&quot;&gt;使用 GetN3 extractor 抽取出来的 N3 Tripes 文本。&lt;/li&gt;  &amp;lt;http://digg.com/tech_news/In_Google_we_trust_but_should_we&amp;gt;&lt;br /&gt;　　&amp;lt;http://purl.org/dc/elements/1.1/source&amp;gt;&lt;br /&gt;　　　　&amp;lt;http://www.guardian.co.uk/technology/2008/may/22/internet.google&amp;gt;&lt;br /&gt;&amp;lt;http://digg.com/tech_news/In_Google_we_trust_but_should_we&amp;gt;&lt;br /&gt;　　&amp;lt;http://purl.org/dc/elements/1.1/title&amp;gt;&lt;br /&gt;　　　　&amp;quot;In Google we trust - but should we?&amp;quot; &amp;lt;http://digg.com/tech_news/In_Google_we_trust_but_should_we&amp;gt;&lt;br /&gt;　　&amp;lt;http://purl.org/dc/terms/abstract&amp;gt;&lt;br /&gt;　　　　&amp;quot;Google is more vulnerable to competitors than people think.&amp;quot; .&lt;br id=&quot;wfk:8&quot; /&gt; &amp;lt;http://digg.com/tech_news/In_Google_we_trust_but_should_we&amp;gt;&lt;br /&gt;　　&amp;lt;http://purl.org/dc/elements/1.1/creator&amp;gt;&lt;br /&gt;　　　　&amp;lt;http://digg.com/users/dagorret&amp;gt; .&lt;br id=&quot;wfk:9&quot; /&gt; &amp;lt;http://digg.com/tech_news/In_Google_we_trust_but_should_we&amp;gt;&lt;br /&gt;　　&amp;lt;http://purl.org/dc/elements/1.1/date&amp;gt;&lt;br /&gt;　　　　&amp;quot;2008-05-22 11:45:13&amp;quot; .&lt;br id=&quot;nfkm0&quot; /&gt;   &lt;/ol&gt; &lt;br id=&quot;gm:70&quot; /&gt; 最早的 &lt;a href=&quot;http://www.w3.org/RDF/&quot; id=&quot;jaj6&quot; title=&quot;RDF&quot;&gt;RDF&lt;/a&gt; &lt;a href=&quot;http://en.wikipedia.org/wiki/Resource_Description_Framework&quot; id=&quot;k8ls&quot; title=&quot;Resource Description Framework @ Wikipedia&quot;&gt;[1]&lt;/a&gt; &lt;a href=&quot;/post/2006/rdf.html&quot; id=&quot;efav&quot; title=&quot;Semantic Web：RDF实战&quot;&gt;[2]&lt;/a&gt;，由于其比较难于理解，并且操作复杂，导致其始终没有推广起来。W3C 组织受到轻量级规范如 &lt;a href=&quot;http://microformat.org/&quot; id=&quot;igy1&quot; title=&quot;Microformats&quot;&gt;Microformats&lt;/a&gt; 的启发，推出了新的经过简化的 &lt;a href=&quot;http://www.w3.org/TR/xhtml-rdfa-primer/&quot; id=&quot;gxp.&quot; title=&quot;Embedding Structured Data in Web Pages&quot;&gt;RDFa&lt;/a&gt; &lt;a href=&quot;http://en.wikipedia.org/wiki/RDFa&quot; id=&quot;socq&quot; title=&quot;RDFa @ Wikipedia&quot;&gt;[1]&lt;/a&gt; 规范。从其官方描述&amp;ldquo;Embedding Structured Data in Web Pages&amp;rdquo;，就可以看出来，它是一种嵌入到 HTML/XHTML 中的数据。要说 RDFa 的实现比 Microformats 还是要复杂一些，不过它的适用性更广，对于可以通过 RDF 表达的任何内容， 都能够使用 RDFa 添加到 XHTML 文档中，而且不再需要使用繁琐的 XML 语言进行描述。这使得基于现有 Web 内容实现 Semantic Web，成本低了不少，也更靠谱了。&lt;br id=&quot;e_7b0&quot; /&gt;&lt;br id=&quot;qwzb0&quot; /&gt;希望可以有更多的 Applicaitons 向 Digg 看齐，让 RDFa 的队伍壮大起来。&lt;br id=&quot;i1_80&quot; /&gt;这里需要谴责一下 &lt;a href=&quot;http://www.powerset.com/&quot; id=&quot;j9-h&quot; title=&quot;Powerset&quot;&gt;Powerset&lt;/a&gt;，号称 Semantic Web 的 Killer App，居然都不支持 RDFa。&lt;br id=&quot;gm:71&quot; /&gt; &lt;br id=&quot;p4-p0&quot; /&gt;            推荐阅读：&lt;br id=&quot;l3h40&quot; /&gt; &lt;ol id=&quot;l3h41&quot;&gt;&lt;li id=&quot;l3h42&quot;&gt;&lt;a href=&quot;http://www.digital-web.com/articles/writing_semantic_markup/&quot; id=&quot;fok6&quot; title=&quot;Writing Semantic Markup&quot;&gt;Writing Semantic Markup&lt;/a&gt; &lt;/li&gt;&lt;li id=&quot;l3h42&quot;&gt;&lt;a href=&quot;http://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html&quot; id=&quot;lm4y&quot; title=&quot;Introducing RDFa&quot;&gt;Introducing RDFa&lt;/a&gt; &lt;br id=&quot;f7bn0&quot; /&gt; &lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/c278ebd66039ceb4b5fb010dd5a8fe4b&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/c278ebd66039ceb4b5fb010dd5a8fe4b/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>Semantic Web</category><pubDate>Mon, 26 May 2008 03:25:40 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/digg_rdfa.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/digg_rdfa.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/digg_rdfa.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930544/1231275</fs:itemid></item><item><title>Word Count as a Measure of Quality on Wikipedia</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930545/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=64</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=64&amp;key=fe306b14</trackback:ping><description>&lt;a href=&quot;http://en.wikipedia.org/&quot; id=&quot;d:hi&quot; title=&quot;Wikipedia&quot;&gt;Wikipedia&lt;/a&gt; 是个好东东！目前，Wikipedia 上大约有超过 2,000,000 个英文条目，已经成为一部地地道道的百科全书。但由于之前 &lt;a href=&quot;http://en.wikipedia.org/wiki/Golden_Shield_Project&quot; id=&quot;scpw&quot; title=&quot;GFW&quot;&gt;GFW&lt;/a&gt; 作祟，要访问它必须得使用穿墙术，这大大降低了它在国内的影响力。最近沾了奥运会的光，Wikipedia 解封了。&lt;br id=&quot;lw7-0&quot; /&gt;  我相信，大多数人都会有这样的印象，&amp;ldquo;Wikipedia 上的内容是高质量并且可以信赖的&amp;rdquo;。经常使用 google 的人尤其会这么认为，因为 Wikipedia 的内容经常会出现在 google search 结果的第一页内。随便试验几个例子就可以证明这一点，&lt;a href=&quot;http://www.google.com/search?aq=f&amp;amp;complete=1&amp;amp;hl=en&amp;amp;newwindow=1&amp;amp;q=recommender+system&amp;amp;btnG=Search&quot; id=&quot;r6an&quot; title=&quot;recommender system&quot;&gt;recommender system&lt;/a&gt;，&lt;a href=&quot;http://www.google.com/search?aq=o&amp;amp;complete=1&amp;amp;hl=en&amp;amp;newwindow=1&amp;amp;q=semantic+web&amp;amp;btnG=Search&quot; id=&quot;ahqz&quot; title=&quot;semantic web&quot;&gt;semantic web&lt;/a&gt;，或者更 general 一些的，&lt;a href=&quot;http://www.google.com/search?aq=f&amp;amp;complete=1&amp;amp;hl=en&amp;amp;newwindow=1&amp;amp;q=automobile&amp;amp;btnG=Search&quot; id=&quot;btu3&quot; title=&quot;automobile&quot;&gt;automobile&lt;/a&gt;，&lt;a href=&quot;http://www.google.com/search?aq=f&amp;amp;complete=1&amp;amp;hl=en&amp;amp;newwindow=1&amp;amp;q=Olympic&amp;amp;btnG=Search&quot; id=&quot;vrpg&quot; title=&quot;Olympic&quot;&gt;Olympic&lt;/a&gt;。国外有人做过一个实验，结论是，&amp;ldquo;&lt;a href=&quot;http://www.thegooglecache.com/white-hat-seo/966-of-wikipedia-pages-rank-in-googles-top-10/&quot; rel=&quot;bookmark&quot; id=&quot;uedd0&quot; title=&quot;96.6% of Wikipedia Pages Rank in Google's Top 10&quot;&gt;96.6% of Wikipedia Pages Rank in Google&amp;#39;s Top 10&lt;/a&gt;&amp;rdquo;。Wikipedia 的影响力之大，可见一斑。&lt;br id=&quot;f35c0&quot; /&gt; &lt;br id=&quot;wwje0&quot; /&gt;  但实际上，经常使用 Wikipedia 的人们&lt;a href=&quot;http://www.teach42.com/2005/10/21/quality-problems-at-wikipedia-raise-your-hand-if-youre-surprised/&quot; id=&quot;cm9e&quot; title=&quot;Quality problems at Wikipedia&quot;&gt;发现&lt;/a&gt;， Wikiepedia 上的条目并不像我们想当然认为的那样尽善尽美，它也是鱼龙混杂的。而且要命的是，由于 Wikipedia 百科全书的性质，对于不熟悉的内容，读者很难区分哪些内容是高质量的，哪些又是滥竽充数的。Wikipedia 的管理者已经&lt;a href=&quot;http://www.theregister.co.uk/2005/10/18/wikipedia_quality_problem/&quot; id=&quot;j3rv&quot; title=&quot;Wikipedia founder admits to serious quality problems&quot;&gt;承认&lt;/a&gt;了这一点，并在&lt;a href=&quot;http://www.infoworld.com/article/06/08/04/HNwikipediaquality_1.html&quot; id=&quot;xh55&quot; title=&quot;Wikipedia to focus on quality issue&quot;&gt;试图解决&lt;/a&gt;这个问题。国外有学者把这个问题引入到了 research 领域，做了不少有意思的工作。&lt;br id=&quot;b9f50&quot; /&gt; &lt;ul id=&quot;b9f51&quot;&gt; &lt;/ul&gt;&lt;ol&gt;&lt;li id=&quot;b9f52&quot;&gt;&lt;a href=&quot;http://eprints.rclis.org/archive/00003610/01/MeasuringWikipedia2005.pdf&quot; id=&quot;pj7t&quot; title=&quot;Measure Wikipedia&quot;&gt;Measure Wikipedia&lt;/a&gt;&lt;/li&gt;&lt;li id=&quot;b9f52&quot;&gt;&lt;a href=&quot;http://www.isrl.uiuc.edu/%7Estvilia/papers/qualWiki.pdf&quot; id=&quot;sm3l&quot; title=&quot;Information Quality Discussions in Wikipedia&quot;&gt;Information Quality Discussions in Wikipedia&lt;/a&gt;&lt;br id=&quot;ycb90&quot; /&gt; &lt;/li&gt;&lt;li id=&quot;b9f52&quot;&gt;&lt;a href=&quot;http://www.isrl.uiuc.edu/%7Estvilia/papers/quantWiki.pdf&quot; id=&quot;wfe4&quot; title=&quot;Assessing information quality of a community-based encyclopedia&quot;&gt;Assessing information quality of a community-based encyclopedia&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.searchenginejournal.com/wikipedia-article-quality-assessment-and-ranking-tips-for-users-and-search-engine-engineers/6002/&quot; id=&quot;var1&quot; title=&quot;Wikipedia Article Quality Assessment and Ranking Tips for Users and Search Engine Engineers&quot;&gt;Wikipedia Article Quality Assessment and Ranking Tips for Users and Search Engine Engineers&lt;/a&gt;&lt;/li&gt;&lt;/ol&gt; &lt;br id=&quot;q3nu0&quot; /&gt;  刚刚结束的 &lt;a href=&quot;http://www2008.org&quot; id=&quot;y:qh&quot; title=&quot;WWW2008&quot;&gt;WWW2008&lt;/a&gt; 会议里有一篇 short paper，《&lt;a href=&quot;http://www2008.org/papers/pdf/p1095-jblumenstock.pdf&quot; id=&quot;bs2q&quot; title=&quot;Size Matters: Word Count as a Measure of Quality on Wikipedia&quot;&gt;Size Matters: Word Count as a Measure of Quality on Wikipedia&lt;/a&gt;》。里面给出了一个令人吃惊的实验结果，在进行 Wikipedia 的文章质量评价时，仅仅只需要使用&amp;ldquo;&lt;b id=&quot;b-gc0&quot;&gt;Word Count&lt;/b&gt;&amp;rdquo;一个参数，就可以取得 96.31% 的准确率！这个结果，比许多使用复杂模型的算法，都要好！&lt;br id=&quot;psud0&quot; /&gt;  可以看出来，作者写作这篇 paper 的态度是非常严谨的！但我个人还是认为，对于评价质量这个问题，article length 并不是一个严谨的指标，文章的实验结论似乎仅能说明，使用这个指标得到的结果与 wikipedia 现有数据拟合的更好而已。这篇文章更靠谱的结论应该是，&amp;ldquo;long articles are featured (good), and featured articles are long&amp;rdquo;。有这方面实际经验的朋友，欢迎讨论。&lt;br id=&quot;kf5.0&quot; /&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/23c7cf78cd9493ee0a71df9f0f242e82&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/23c7cf78cd9493ee0a71df9f0f242e82/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>研究小记</category><pubDate>Tue, 06 May 2008 05:33:21 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/wiki_word_count.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/wiki_word_count.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/wiki_word_count.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930545/1231275</fs:itemid></item><item><title>Twine Beta：盛名之下，其实难副</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930546/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=63</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=63&amp;key=434b959e</trackback:ping><description>&lt;img src=&quot;http://docs.google.com/File?id=ddjqwpms_229dsjbdsfc_b&quot; id=&quot;hfrg&quot; style=&quot;margin: 1em 1em 0pt 0pt; width: 180px; height: 98px; float: left&quot; /&gt;等了很久之后，终于在4月26日拿到了 &lt;a href=&quot;http://www.twine.com/&quot; id=&quot;jc1i&quot; title=&quot;Twine Beta&quot;&gt;Twine Beta&lt;/a&gt; 的试用邀请。简单地玩儿了一下，发现用标题这句话形容它再合适不过了&amp;mdash;&amp;mdash;盛名之下，其实难副！&lt;br id=&quot;fx3m0&quot; /&gt; 这就是传说中万人瞩目的&amp;ldquo;&lt;a href=&quot;http://www.readwriteweb.com/archives/twine_first_mainstream_semantic_web_app.php&quot; id=&quot;pm2f&quot; title=&quot;Twine: The First Mainstream Semantic Web App?&quot;&gt;The First Mainstream Semantic Web App&lt;/a&gt;&amp;rdquo;？OMG！与 &lt;a href=&quot;http://www.freebase.com&quot; id=&quot;jbez&quot; title=&quot;Freebase&quot;&gt;Freebase&lt;/a&gt; 的惊艳相比，Twine 差得简直太远了。&lt;br id=&quot;s1x90&quot; /&gt; &lt;br id=&quot;s1x91&quot; /&gt; 用官方的话说，Twine 的核心是&amp;ldquo;&lt;b id=&quot;je7b0&quot;&gt;Interest Networks&lt;/b&gt;&amp;ldquo;，又或者是之前更多被提到的&amp;ldquo;&lt;b id=&quot;je7b1&quot;&gt;Knowledge Networks&lt;/b&gt;&amp;rdquo;。Twine is a &lt;i id=&quot;je7b2&quot;&gt;Smartest Way To Organize, Share and Discover Information About Your Interests&lt;/i&gt;. &lt;i id=&quot;je7b3&quot;&gt;You can use Twine alone, with friends, groups and communities, or even in your company&lt;/i&gt;. 但以其目前的 Beta 版来看，Twine 最多也就能算个稍微新型的 bookmark 应用而已。&lt;br id=&quot;yvlv0&quot; /&gt; &lt;br id=&quot;hh6w0&quot; /&gt; 当然，可以看到 Twine 试图在做一些事情，我捡重要的说说。&lt;br id=&quot;kjhs0&quot; /&gt; &lt;br id=&quot;kjhs1&quot; /&gt; 第一件事情，从网页里抽取实体。&lt;br id=&quot;kjhs2&quot; /&gt; 这事儿英文通常称为 Entity Extraction，Semantic Web 中叫做 Ontology Annotation。这个确实是 Sematic Web App 必须要解决地第一件事情。但在这件事情上，Twine 做得很烂。我总共试了 3 篇文章。&lt;br id=&quot;b7-50&quot; /&gt; &lt;ol id=&quot;b7-51&quot;&gt; &lt;li id=&quot;b7-52&quot;&gt;第一篇是我的一个中文 blog，&amp;ldquo;&lt;a href=&quot;http://www.guwendong.cn/post/2008/site_mystrands_com.html&quot; id=&quot;bsq3&quot; title=&quot;个性化站点：MyStrands&quot;&gt;个性化站点：MyStrands&lt;/a&gt;&amp;rdquo;。Twine This，结果是乱码！好吧，你可以说 Beta 对中文的支持还不好，可以容忍。&lt;/li&gt; &lt;li id=&quot;b7-52&quot;&gt;第二篇是我在 Google Reader 上 share 的一篇英文 blog，&amp;ldquo;&lt;a href=&quot;http://blog.kiwitobes.com/?p=56&quot; id=&quot;bn62&quot; title=&quot;Slide decks from Web 2.0 talks&quot;&gt;Slide decks from Web 2.0 talks&lt;/a&gt;&amp;rdquo;，里面有两个很棒的 PPT。这次更离谱，完全没有定位准确正文，居然把 &amp;ldquo;Recent Comments&amp;rdquo; Panel 里的内容作为了网页正文！好吧，你可以说这篇文章的正文部分字数少，识别有难度，可以容忍。&lt;/li&gt; &lt;li id=&quot;b7-52&quot;&gt;第三篇是一个分析 Twine 的英文 blog，&amp;ldquo;&lt;a href=&quot;http://radar.oreilly.com/archives/2007/10/web2summit-radar-networks-unwi.html&quot; id=&quot;d4cj0&quot; class=&quot;title&quot; title=&quot;Web2Summit:  Radar Networks Unwinds twine.com&quot;&gt;Web2Summit:  Radar Networks Unwinds twine.com&lt;/a&gt;&amp;rdquo;，长篇大论，以免正文字数少又难倒了 Twine。这次总算顺利通过了，让我们赶紧来看一下 Twine 传说中的 Auto Tag 吧。&amp;ldquo;People&amp;rdquo;里加上了&amp;ldquo;Nova Spivack&amp;rdquo;，这个不错。&amp;ldquo;Organizations&amp;rdquo;里加入了&amp;ldquo;O&amp;#39;Reilly&amp;rdquo;和&amp;ldquo;Radar Networks&amp;rdquo;，也不错，但有个&amp;ldquo;&lt;a href=&quot;http://www.twine.com/search?annotation=radar%3A%2F%2Fztmcvvx-32&quot; id=&quot;ext-gen72&quot;&gt;Directory Assistance&lt;/a&gt;&amp;rdquo;非常诡异！点链接进去一看，search 结果里大量出现了&amp;ldquo;Network&amp;rdquo;这个词，而这篇文章里总共出现了3次&amp;ldquo;Network&amp;rdquo;，看来&amp;ldquo;Network&amp;rdquo;被当作了&amp;ldquo;Directory Assistance&amp;rdquo;的一个 Keyword。由此大概可以推断，对于 Entity Extraction，Twine 使用的是 &lt;a href=&quot;http://en.wikipedia.org/wiki/Metadata_modeling&quot; id=&quot;dmu.&quot; title=&quot;Meta Model&quot;&gt;Meta Model&lt;/a&gt;。但关键是此处的结果是有问题的，Network 在本文里是作为&amp;ldquo;Radar Networks&amp;rdquo;出现的，并不是本来的 Network，这里产生了歧义，但 Twine 的模型并没能解决这个问题。最后再来看&amp;ldquo;Other Tags&amp;rdquo;，&amp;ldquo;Semantic Edge&amp;rdquo;、&amp;ldquo;Semantic Web&amp;rdquo;和&amp;ldquo;Web 2.0&amp;rdquo;还算不错，但称不上好。通篇在评论的 Twine 应用本身，并没有出现在 Auto Tags 里面，但通过验证，其实&amp;ldquo;Twine&amp;rdquo;这个 Tag 是存在的。&lt;br id=&quot;u3yn0&quot; /&gt; &lt;/li&gt; &lt;/ol&gt;  &lt;br id=&quot;fsho0&quot; /&gt; 第二件事情，&amp;ldquo;Twine&amp;rdquo;的使用。&lt;br id=&quot;fsho1&quot; /&gt; 这里的&amp;ldquo;Twine&amp;rdquo;，不是 Twine.com，而是 Twine team 创造出来的一个概念，用来组织 Interest Networks。用大家都能理解的一个说法，&amp;ldquo;Twine&amp;rdquo;基本和我们常见的&amp;ldquo;频道&amp;rdquo;差不多，就是一堆相似的文章的集合。在我看来，&amp;ldquo;Twine&amp;rdquo;本身其实和 tag 没有本质的区别，不同就在于用作&amp;ldquo;Twine&amp;rdquo;的 tag 应该会得到一个比较高的 tag weight，并在 tag hierarchy 中占据更高层的位置。其实，tag weight 与 tag hierarchy，也是我一直在思考的一个问题。比如在使用 del.icio.us 时，我们会给网页打上不同的 tag，潜意识里，各个 tag 的 weight 应该是不同的，并且通常还会使用不同层次的概念。比如&amp;ldquo;&lt;a href=&quot;http://radar.oreilly.com/archives/2007/10/web2summit-radar-networks-unwi.html&quot; id=&quot;d4cj0&quot; class=&quot;title&quot; title=&quot;Web2Summit:  Radar Networks Unwinds twine.com&quot;&gt;Web2Summit:  Radar Networks Unwinds twine.com&lt;/a&gt;&amp;rdquo;这篇文章，Technorati Tags 就是&amp;ldquo;freebase, radarnetworks, SemanticWeb, web2.0, web20, web2summit&amp;rdquo;，其中 SemanticWeb 和 radarnetworks 应该 weight 高一些，而 freebase 是 SemanticWeb 和 web2.0 概念之下的一个应用。但常见的 tag 标注方法，是没有办法体现上述两项差别的。&amp;ldquo;Twine&amp;rdquo;的使用，似乎就意在 tag 上面再插入一层，定义出重要的 tag，建立 hierachy。如果 Twine 确实是这种思路的话，目前的产品设计至少也有一个问题。用户可以自由地创建 Twine，似乎并没有什么规则/规范。我可以建立一个&amp;ldquo;Film&amp;rdquo;的&amp;ldquo;Twine&amp;rdquo;，然后把&amp;ldquo;The Matrix&amp;rdquo;加进来，打上&amp;ldquo;Science fiction&amp;rdquo;的 tag；也可以建立一个&amp;ldquo;Science fiction&amp;rdquo;的&amp;ldquo;Twine&amp;rdquo;，然后把&amp;ldquo;The Matrix&amp;rdquo;加进来，打上&amp;ldquo;Film&amp;rdquo;的 tag。这会造成混乱。&lt;br id=&quot;jr.b0&quot; /&gt; &lt;br id=&quot;jr.b1&quot; /&gt; Recommendation Panel， 是 Twine 上另外一个值得关注的功能，但由于我目前活动度不够，推荐给我的东西很少，留待下一步分析。&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/47a94e1611934e307483c639d86a2434&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/47a94e1611934e307483c639d86a2434/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>三言两语</category><pubDate>Sat, 03 May 2008 20:48:06 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/twine_beta.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/twine_beta.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/twine_beta.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930546/1231275</fs:itemid></item><item><title>个性化技术相关资料</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930547/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=62</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=62&amp;key=1574d082</trackback:ping><description>经常会有朋友发 email 问我，&amp;ldquo;研究个性化技术应该如何入手&amp;rdquo;？&lt;br /&gt;这个问题其实挺让我为难的，因为以我目前的水平，尚不足以授人以渔。但又不好不作答，因此，整理了这份资料清单。我争取长期维护下去&lt;i&gt;，&lt;/i&gt;力求授人以鱼吧。&lt;br /&gt;&lt;i&gt;注：此清单完全以我个人喜好整理，不周之处还请大家在评论里指明，或者 email/gtalk 也可。&lt;/i&gt;&lt;br /&gt;&lt;br /&gt;Subjects:&lt;br /&gt;&lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://www.answers.com/topic/collaborative-filtering?cat=technology&quot; id=&quot;ys1h&quot; title=&quot;Recommender System&quot;&gt;Recommender System&lt;/a&gt;&lt;br /&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.answers.com/topic/collaborative-filtering?cat=technology&quot; id=&quot;kcbj&quot; title=&quot;Collaborative Filtering&quot;&gt;Collaborative Filtering&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.answers.com/topic/the-long-tail&quot; id=&quot;yt7.&quot; title=&quot;Long Tail&quot;&gt;Long Tail&lt;/a&gt;&lt;br /&gt;&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;Groups &amp;amp; Researchers:&lt;br /&gt;&lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://www.grouplens.org/&quot; id=&quot;z8ue&quot; title=&quot;GroupLens Lab&quot;&gt;GroupLens Lab&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://glaros.dtc.umn.edu/gkhome/publications&quot; id=&quot;o3js&quot; title=&quot;Karypis Lab&quot;&gt;Karypis Lab&lt;/a&gt;&lt;br /&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.cs.brown.edu/people/th/index.html&quot; id=&quot;obqn&quot; title=&quot;Thomas Hofmann&quot;&gt;Thomas Hofmann&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://dpennock.com/&quot; title=&quot;David M. Pennock&quot;&gt;David M. Pennock&lt;/a&gt;&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;Conferences:&lt;br /&gt; &lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://recsys.acm.org/2007/&quot; id=&quot;zkmn&quot; title=&quot;RecSys 2007&quot;&gt;RecSys 2007&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.cs.uic.edu/%7Eliub/Netflix-KDD-Cup-2007.html&quot; id=&quot;ym1o&quot; title=&quot;KDD Cup and Workshop 2007&quot;&gt;KDD Cup and Workshop 2007&lt;/a&gt;&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;Selected Papers:&lt;br /&gt;&lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://www.si.umich.edu/%7Epresnick/&quot; id=&quot;z4io&quot; title=&quot;Paul Resnick&quot;&gt;Paul Resnick&lt;/a&gt;, &lt;a href=&quot;http://citeseer.ist.psu.edu/resnick94grouplens.html&quot; id=&quot;khdx&quot; title=&quot;GroupLens -- An Open Architecture for Collaborative Filtering of Netnews&quot;&gt;GroupLens -- An Open Architecture for Collaborative Filtering of Netnews&lt;/a&gt; &lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www-users.cs.umn.edu/%7Esarwar/&quot; id=&quot;ik1m&quot; title=&quot;Sarwar&quot;&gt;Badrul Sarwar&lt;/a&gt;, &lt;a href=&quot;http://citeseer.ist.psu.edu/sarwar01itembased.html&quot; id=&quot;t_oa&quot; title=&quot;Item-based Collaborative Filtering Recommendation Algorithms&quot;&gt;Item-based Collaborative Filtering Recommendation Algorithms&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://glinden.blogspot.com/&quot; id=&quot;xmi6&quot; title=&quot;Greg Linden&quot;&gt;Greg Linden&lt;/a&gt;, &lt;a href=&quot;http://csdl2.computer.org/persagen/DLAbsToc.jsp?resourcePath=/dl/mags/ic/&amp;amp;toc=comp/mags/ic/2003/01/w1toc.xml&amp;amp;DOI=10.1109/MIC.2003.1167344&quot; title=&quot;Amazon.com Recommendations: Item-to-Item Collaborative Filtering&quot;&gt;Amazon.com Recommendations: Item-to-Item Collaborative Filtering&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.cs.brown.edu/people/th/index.html&quot; id=&quot;obqn&quot; title=&quot;Thomas Hofmann&quot;&gt;Thomas Hofmann&lt;/a&gt;, &lt;a href=&quot;http://portal.acm.org/citation.cfm?id=963774&quot; id=&quot;kl05&quot; title=&quot;Latent Semantic Models for Collaborative Filtering&quot;&gt;Latent Semantic Models for Collaborative Filtering&lt;/a&gt; &lt;/li&gt;&lt;li&gt;4 googlers, &lt;a href=&quot;http://www2007.org/papers/paper570.pdf&quot; id=&quot;r-03&quot; title=&quot;Google News Personalization - Scalable Online Collaborative Filtering&quot;&gt;Google News Personalization - Scalable Online Collaborative Filtering&lt;/a&gt; &lt;br /&gt;&lt;/li&gt;&lt;/ol&gt; &lt;br /&gt;Blogers:&lt;br /&gt;&lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://glinden.blogspot.com/&quot; id=&quot;pqpv&quot; title=&quot;Greg Linden&quot;&gt;Greg Linden&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.daniel-lemire.com/blog/&quot; id=&quot;beuk&quot; title=&quot;Daniel Lemire&quot;&gt;Daniel Lemire&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://blogs.sun.com/plamere/&quot; id=&quot;f_q_&quot; title=&quot;Duke Listens!&quot;&gt;Duke Listens!&lt;/a&gt;&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;Software Libraries:&lt;br /&gt;&lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://taste.sf.net/&quot; id=&quot;kuae&quot; title=&quot;Taste,&quot;&gt;Taste,&lt;/a&gt; Java, http://taste.sf.net/&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://sourceforge.net/projects/beyondthoth/&quot; id=&quot;f5mf&quot; title=&quot;Beyond Thoth&quot;&gt;Beyond Thoth&lt;/a&gt;, C#, http://sf.net/projects/beyondthoth/&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;Resources:&lt;br /&gt;&lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://infolab.stanford.edu/%7Eullman/mining/2006/index.html&quot; id=&quot;k666&quot; title=&quot;Stanford CS345: Data Mining&quot;&gt;Stanford CS345: Data Mining&lt;/a&gt;&lt;br /&gt;&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://del.icio.us/tag/collaborativefiltering&quot; id=&quot;vu:e&quot; title=&quot;http://del.icio.us/tag/collaborativefiltering&quot;&gt;http://del.icio.us/tag/collaborativefiltering&lt;/a&gt; &lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://del.icio.us/tag/recommendersystem&quot; id=&quot;t0-g&quot; title=&quot;http://del.icio.us/tag/recommendersystem&quot;&gt;http://del.icio.us/tag/recommendersystem&lt;/a&gt;&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;Books:&lt;br /&gt;完全以个性化技术为中心的书籍很少，但多数讲 &lt;a href=&quot;http://www.answers.com/topic/machine-learning?cat=technology&quot; id=&quot;a803&quot; title=&quot;Machine Learning&quot;&gt;Machine Learning&lt;/a&gt; 或者 &lt;a href=&quot;http://www.answers.com/topic/data-mining?cat=technology&quot; id=&quot;ixon&quot; title=&quot;Data Mining&quot;&gt;Data Mining&lt;/a&gt; 的书籍里面，都会有专门的章节，介绍与此相关的内容。&lt;br /&gt;&lt;ol&gt;&lt;li&gt;&lt;a href=&quot;http://www.douban.com/subject/2209702/&quot; id=&quot;yq42&quot; title=&quot;Programming Collective Intelligence&quot;&gt;Programming Collective Intelligence&lt;/a&gt;, &lt;a href=&quot;http://blog.kiwitobes.com/&quot; id=&quot;l735&quot; title=&quot;Toby Segaran&quot;&gt;Toby Segaran&lt;/a&gt;, O&amp;#39;Reilly, 2007.8&lt;/li&gt;&lt;li&gt;&lt;a href=&quot;http://www.amazon.com/Personalization-Techniques-Recommender-Systems-Uchyigit/dp/9812797017/ref=pd_bbs_sr_1?ie=UTF8&amp;amp;s=books&amp;amp;qid=1206083681&amp;amp;sr=8-1&quot; title=&quot;Personalization Techniques and Recommender Systems&quot;&gt;Personalization Techniques and Recommender Systems&lt;/a&gt;, &lt;a href=&quot;http://www.doc.ic.ac.uk/%7Egu1/&quot; title=&quot;Gulden Uchyigit&quot;&gt;Gulden Uchyigit&lt;/a&gt;, World Scientific, 2008.4&lt;br /&gt;&lt;/li&gt;&lt;/ol&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/02384eb6d9d9940e844fc98ac2ef1b12&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/02384eb6d9d9940e844fc98ac2ef1b12/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>推荐系统</category><pubDate>Sun, 23 Mar 2008 12:14:53 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/recommendation_resources.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/recommendation_resources.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/recommendation_resources.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930547/1231275</fs:itemid></item><item><title>个性化站点：MyStrands</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930548/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=61</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=61&amp;key=0e42577f</trackback:ping><description>&lt;img src=&quot;http://docs.google.com/File?id=ddjqwpms_143g3hwqvdk&quot; style=&quot;margin: 1em 1em 0pt 0pt; width: 155px; height: 27px; float: left&quot; /&gt;&lt;a href=&quot;http://www.mystrands.com/&quot; id=&quot;yn9:&quot; title=&quot;MyStrands&quot;&gt;MyStrands&lt;/a&gt; 是一家专注于个性化技术的 Start-up。最近，他们搞了一项活动，&amp;ldquo;&lt;a href=&quot;http://www.mystrands.com/corp/strands-awards.vm&quot; id=&quot;x1-i&quot; title=&quot;Strands $100,000 Call for Recommender Startups&quot;&gt;Strands $100,000 Call for Recommender Startups&lt;/a&gt;&amp;rdquo;，在个性化圈内被广泛关注。MyStrands 成立于 2003 年，以作 Music 推荐开始起步，目前的产品线涉及到 TV、Mobile、Community 等领域。2007 年 7 月，他们完成了第二轮融资，总额 $25 Million。因此，掏出 $100,000 还是非常轻松的，而且，相比可能收获的好的 project 来讲，这个活动的结果应该也会是物超所值的。&lt;br /&gt;&lt;br /&gt;平心而论，技术方面，MyStrands 目前尚没有&amp;ldquo;必杀技&amp;rdquo;，即使在他们的主业音乐推荐上，其推荐的质量与 Pandora 相比也尚存在一定的差距。我从外部观察，基本上是以 &lt;a href=&quot;http://www.guwendong.cn/post/2006/item_based_collaborative_filtering.html&quot; id=&quot;z98s&quot; title=&quot;推荐系统：协同过滤 之 Item-based Collaborative Filtering&quot;&gt;Item-based Collaborative Filtering&lt;/a&gt; 技术为核心，正在逐渐向以 User 为中心的 social recommendation 方向前进，但其社区的活跃度还不够，数据积累尚待时日。产品方面，MyStrands 比较注重各种终端设备的集成，包括 PC（Windows、Mac）、Mobile 以及其他一些可联网设备，都可以运行他们的应用。尤其在 Mobile 方面，其推出的 social player 可以支持 Windows Mobile 与 Symbian 这两个主流平台，并刚刚在 &lt;a href=&quot;http://www.mobilerules.org/&quot;&gt;Mobile Rules! Award 2008&lt;/a&gt; 上被评为&amp;ldquo;最佳多媒体应用&amp;rdquo;。&lt;br /&gt;&lt;br /&gt;总体来看，在个性化领域，MyStrands 应该还是走在前面的，他们自己的信心也很足。引一段其 blog 中的文字，&amp;ldquo;&lt;a href=&quot;http://blog.mystrands.com/2007/06/18/mystrands-raises-25-million-to-lead-the-social-recommendation-industry/&quot; rel=&quot;bookmark&quot; title=&quot;MyStrands raises $25 Million to lead the social recommendation industry&quot;&gt;MyStrands raises $25 Million to lead the social recommendation industry&lt;/a&gt;&amp;rdquo;：&lt;br /&gt;&lt;blockquote style=&quot;font-style: italic&quot;&gt;We feel strongly that the future of the web is about personalization. Personalized TV stations, personalized advertising, personalized news, personalized shopping, personalized music and entertainment experiences, wherever you happen to be, whether it&amp;rsquo;s at home, on the go, at your friend&amp;rsquo;s or at a bar&amp;hellip; This is what our 50-person team has been focusing hard on and where we are headed with this funding.&lt;br /&gt;&lt;/blockquote&gt;&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/1bfbdfe3e7919407e2afce8d65231d4a&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/1bfbdfe3e7919407e2afce8d65231d4a/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>个性化站点</category><pubDate>Thu, 20 Mar 2008 15:26:00 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/site_mystrands_com.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/site_mystrands_com.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/site_mystrands_com.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930548/1231275</fs:itemid></item><item><title>三言两语：隐私问题与个性化服务</title><link>http://item.feedsky.com/~feedsky/beyondsearch/~5933687/105930549/1231275/1/item.html</link><wfw:comment>http://www.guwendong.cn/</wfw:comment><wfw:commentRss>http://www.guwendong.cn/sydication.asp?cmt=60</wfw:commentRss><trackback:ping>http://www.guwendong.cn/cmd.asp?act=tb&amp;id=60&amp;key=9547c0f6</trackback:ping><description>Web 上的隐私保护是个让人头疼的问题！已经有激进点儿的人在说，&amp;ldquo;&lt;a href=&quot;http://www.homelandstupidity.us/2006/11/27/privacy-is-dead-get-over-it/&quot; id=&quot;m3r7&quot; title=&quot;Privacy is Dead: Get Over It&quot;&gt;Privacy is Dead: Get Over It&lt;/a&gt;&amp;rdquo;。确实，随着计算机存储容量的扩展，以及数据分析能力的提升，我们在 web 上的每个动作，都有可能会被保存下来，被进一步的加工，并被各种形式的应用所利用。&lt;br /&gt;&lt;br /&gt;这些大数据的存在，有可能会造成严重的后果，即使初衷是好的。AOL Search Log 事件就是一个鲜活的例子。2006 年 6 月，AOL 实验室发布了一组数据 &lt;a href=&quot;http://www.techcrunch.com/2006/08/06/aol-proudly-releases-massive-amounts-of-user-search-data/&quot; id=&quot;n81-&quot; title=&quot;AOL Proudly Releases Massive Amounts of Private Data&quot;&gt;[1]&lt;/a&gt;，&amp;ldquo;&lt;a href=&quot;http://www.gregsadetsky.com/aol-data/&quot; id=&quot;m.g3&quot; title=&quot;此乃镜像链接，AOL实验室的数据已经被删除了&quot;&gt;500k User Queries Sampled Over 3 Months&lt;/a&gt;&amp;rdquo; （此乃镜像链接，AOL实验室的原始数据已经被删除了）。刚开始，学术界的人们都欢欣鼓舞，如此大量的数据公开出来确实难能可贵，毋庸置疑会有力地促进相关的学术研究 &lt;a href=&quot;http://www.nytimes.com/2006/08/23/technology/23search.html?pagewanted=1&amp;amp;ei=5070&amp;amp;en=bc33074f3f99ea1a&amp;amp;ex=1183521600&quot; id=&quot;ty9:&quot; title=&quot;Researchers Yearn to Use AOL Logs, but They Hesitate&quot;&gt;[2]&lt;/a&gt;。但没多久，就出现了一个大问题，AOL 数据集里面的第 4417749 号用户，被人还原出了真实的身份 &lt;a href=&quot;http://www.nytimes.com/2006/08/09/technology/09aol.html?ex=1183521600&amp;amp;en=6ba614ecb88cff46&amp;amp;ei=5070&quot; id=&quot;rwiy&quot; title=&quot;A Face Is Exposed for AOL Searcher No. 4417749&quot;&gt;[3]&lt;/a&gt;。一下子，舆论哗然，隐私保护组织也开始不遗余力地展开讨伐。最终，此事以 AOL 关闭实验室相关部门，CTO Maureen Govern 被 fire 掉才告一段落。隐私得到了保护，但世界失去了一次进步的机会 &lt;a href=&quot;http://glinden.blogspot.com/2006/08/chance-to-play-with-big-data.html&quot; id=&quot;q370&quot; title=&quot;a chance to play with big data&quot;&gt;[4]&lt;/a&gt;！后面的 Netflix Prize 竞赛，也遭遇了&lt;a href=&quot;http://hunch.net/?p=303&quot; id=&quot;dd:i&quot; title=&quot;The Netflix Crack&quot;&gt;类似的问题&lt;/a&gt;，但谢天谢地，这次的影响很小。&lt;br /&gt;&lt;br /&gt;而另一方面，基于这些数据所得到的分析结果，无论对个人还是对服务提供商，都有益处。拿我来讲，经常在 Amazon 上面搜索书籍和打分，使得 Amazon 可以向我推销能吸引我的商品；启用了 Google 的搜索历史服务，使得 Google 可以向我提供适合我的搜索结果；向豆瓣贡献着打分数据，使得豆瓣可以帮我找到我会觉得好看的电影。而与此同时，Amazon、Google 甚至是豆瓣，通过大量收集这样的数据，已经建立起了非常高的进入壁垒。后来者由于缺乏这样的数据积累，在类似的服务上也很难再有所超越。&lt;br /&gt;  &lt;br /&gt;通常情况下，如果你严肃地探讨隐私保护的问题，大多数人也许会发现，这是一个虚幻的命题。大多数人并不见得能够清楚地说明到底在顾虑什么，往往，大家只是担忧而已，甚至仅仅是潜意识型的思维，&amp;ldquo;我只是不想让别人了解我&amp;rdquo;。但当我们把问题拉回到现实情况，我们会发现，隐私也许根本不是问题。你在地址栏里主动输入 amazon.com，在 Amazon 的网上超市里面选购商品，下订单并付款，然后给出评价完成交易。Amazon 为我们提供了一种体验很好的服务，我们乐意在 Amazon 上浏览，进行各种活动，看起来 Amazon 似乎有权利使用我们的这些行为数据，提升他们的服务，从而让我们更快乐的购物。因此，虽然 Amazon 记录了我们的一举一动，但并没有人抱怨隐私受到了侵犯。&lt;br /&gt;&lt;br /&gt;个性化服务，已经被公认为是下一个十年中的 next big thing 之一，而隐私问题，却一直在困扰着个性化服务的发展。我个人认为，从业人士和相关部门，实在是有必要来共同关注和解决这个问题了。制定相应的行业规范，是非常有必要的，甚至是制定专门的法律都不为过。毕竟，这是一个价值超过10亿$的问题！&lt;br /&gt;&lt;!-- Feedsky ad --&gt;&lt;a href=&quot;http://feed.feedsky.com/~cpm/c/beyondsearch/d70481ab3e39cfae85f59edb2b9546bc&quot;&gt;&lt;img src=&quot;http://feed.feedsky.com/~cpm/beyondsearch/d70481ab3e39cfae85f59edb2b9546bc/s.gif&quot; border=&quot;0&quot; style=&quot;margin-top:5px;&quot; /&gt;&lt;/a&gt;&lt;!-- /Feedsky ad --&gt;</description><category>三言两语</category><pubDate>Thu, 28 Feb 2008 05:50:36 +0800</pubDate><author>wendell.gu@gmail.com (guwendong)</author><comments>http://www.guwendong.cn/post/2008/privacy_and_personalization.html#comment</comments><guid isPermaLink="false">http://www.guwendong.cn/post/2008/privacy_and_personalization.html</guid><dc:creator>wendell.gu@gmail.com (guwendong)</dc:creator><fs:srclink>http://www.guwendong.cn/post/2008/privacy_and_personalization.html</fs:srclink><fs:srcfeed>http://www.guwendong.cn/rss.xml</fs:srcfeed><fs:itemid>feedsky/beyondsearch/~5933687/105930549/1231275</fs:itemid></item></channel></rss>