首页 >> 大全

豆瓣的推荐机制

2023-10-20 大全 31 作者:考证青年

为什么80%的码农都做不了架构师?>>>

1,来自豆瓣创始人的观点:豆瓣的推荐机制是基于社会化的协同过滤的推荐;

总结:你读了一本书,通过此书对你进行推荐,方式是:统计此书其他读者喜欢的书,即喜欢本书的读者还喜欢的其他书。

为什么不使用基于内容的推荐机制:1,硬件:内容时刻在扩增, 豆瓣的图书太多,不可能将每俩本书进行相似度聚类;2,意义:豆瓣想要的做一个合适的过滤器:帮助你找到喜欢的东西,本质上,一本书对我来讲,是一个黑盒子。我并不关心它的主题、出版社、作者、内容,只看它和哪本书有关联。这样挖掘出来的东西,可能非常正确,推荐非常有效。”;3,原因:什么是有效的推荐:真正有效的推荐不能通过简单的外在就能看出来,比如你看了《哈利波特》,推荐《哈利波特2》,这样的推荐是没有意义的。或者你看了余华的《活着》,为你推荐余华早期的《细雨中的呼喊》,这也是没有必要的,因为这太过于明显,用户自己就可以进行搜索,不需要系统推荐。真正有效的推荐是:用户没有想到的。是你挖掘出来的联系不是表面能看出来的。比如你看《世界是平的》,豆瓣会推荐《长尾理论》,这两个之间其实没有内容上的联系。”

具体机制:其中的机制其实也不难理解,因为两本书有相同的读者群。喜欢这本书的人也喜欢那本。“就是一种统计方法,喜欢这本书的人中间,比如说百分之四十都喜欢那本书。”

最后:杨勃认为,流行的东西,豆瓣没什么特别用处,因为你从其他媒体也能了解到。豆瓣发挥强大效力的地方是长尾。“你看一本书,在豆瓣看到有10个人看,这样带来的惊喜,比你发现一本书有1万人在看,要强烈得多。而且,这个过程是沿着长尾往下走,散播去,推进到越来越多的人不知道的书。有很多偏僻的书,其实是有天然读者的,只是缺乏一个桥梁把他们连接。缺乏一个传播机制。如果一本很偏的书建立了你们的联系,那么很有可能会有新的发现。”(这里可以解释为什么活动的参与者越少,越能促进人际关系)

豆瓣上的书籍目前有80万种,“我们的数据库和当当、卓越、亚马逊对接,但也可以由用户自己填加一些老书。中国以前不使用国际标准书号ISBN,70年代是中国统一书号,我们也支持,但多半由用户自己填加。”

百家号推荐机制原理__豆瓣评分机制计算

在杨勃看来,任何一个书店或网站,图书品种达到20万就够了。“其他的书,或者说位于长尾尾部的书,大部分价值不大,比如1982年的水暖工手册,1996年初中升高中地理复习参考资料……当然,其中也偶有精华。比如古籍或者早年翻译过现在没有再版的书。这些书都藏在后面四五十万的垃圾中间。”

杨勃估计,《围城》、《活着》、《挪威的森林》大概是豆瓣里面阅读数最多的。大致统计,将各版本的数字加起来,三书的总阅读人数分别为六千、五千和七千。

“如果你是一个书店,你就有库存限制问题。你没有采购过的书,数据库里就没有。但豆瓣不一样,只要有人看过,就可以填加,而且它的空间没有成本。”杨勃认为,豆瓣的数据比当当、卓越更接近理想化的长尾。

“80年代的书,当当卓越绝对不会有。”他现场演示,找到网友“小小风也”的主页。上面有一本《孤筏重洋》,最早是1981年湖南人民出版社出的,05年重庆出版社再版。海子卧轨自杀时带着这本书。

两种推荐机制

豆瓣的定位,用长尾理论解释,是想做一个合适的过滤器——帮助发现你喜欢的东西。

怎样做到这一点呢?杨勃从现实生活得到启发。“一堆人聊天,你说到一本书,有个同事跳出来,说这个我也看。你们就会聊起来,会谈到别的书。豆瓣的分析思路也一样,都看过这本书的人,他们在阅读其他书时有多少重合。”

杨勃把推荐机制分为两种。一是按内容分类,比如分析一首歌的节奏、配器、频率,然后将与其类似的歌划为一类,著名的就是这样做的。还有一种是社会性推荐。“前一种方法,即便只有一两个用户,你也可以做起来。而第二种方法,你必须有很多数据积累。到数据足够多的时候,它会更有效。”

_百家号推荐机制原理_豆瓣评分机制计算

其实,这类似早期Yahoo和的区别。在创始初期,Yahoo就按内容对不同网站进行分类,但这种方法是自不量力,因为网站生长太快,再多的人手也不够给所有网站做目录。Yahoo后来采用了一些自动方式,比如用软件分析网页词汇,再确定它的类别。

而则聪明得多,他不分析网站,而是分析链接。一个链接相当于一票,学术文献也是相互索引,被引用最多的论文价值最高。网页也是如此,被链接最多的网页就高。

“这种方法的好处在于,它不用长时间积累用户数据,网站之间的投票一直存在,用机器抓过来就能用。而豆瓣,用的是人对书的投票。它不是自然存在于网络上,必须慢慢积累起来,需要一个过程。”杨勃说。

“本质上,一本书对我来讲,是一个黑盒子。我并不关心它的主题、出版社、作者、内容,只看它和哪本书有关联。这样挖掘出来的东西,可能非常正确,推荐非常有效。”

杨勃发现,推荐光准确是没有用的,还要有效。“我们也做过通过标签分析,这本书和哪本书最像,通过它做推荐,很准,但用处不大。比如你看过《黑客帝国1》,然后它找出《黑客帝国2》给你,这种推荐毫无用处。你看过余华的《活着》,我把《细雨中的呼喊》(余华的早期作品)推荐给你。这通常也没有用。有效的推荐,是你挖掘出来的联系不是表面能看出来的。比如你看《世界是平的》,豆瓣会推荐《长尾理论》,这两个之间其实没有内容上的联系。”

其中的机制其实也不难理解,因为两本书有相同的读者群。喜欢这本书的人也喜欢那本。“就是一种统计方法,喜欢这本书的人中间,比如说百分之四十都喜欢那本书。”

杨勃认为,流行的东西,豆瓣没什么特别用处,因为你从其他媒体也能了解到。豆瓣发挥强大效力的地方是长尾。“你看一本书,在豆瓣看到有10个人看,这样带来的惊喜,比你发现一本书有1万人在看,要强烈得多。而且,这个过程是沿着长尾往下走,散播去,推进到越来越多的人不知道的书。有很多偏僻的书,其实是有天然读者的,只是缺乏一个桥梁把他们连接。缺乏一个传播机制。如果一本很偏的书建立了你们的联系,那么很有可能会有新的发现。”

什么人在看什么书,什么人喜欢什么音乐、电影。豆瓣目前已经积累了上千万条这样的记录。“我们的程序会找出和你兴趣一致的人,然后按一定方法来找你们共同喜欢的东西,推荐给你。大致如此。”

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了