| lh's profilejoyfirePhotosBlogLists | Help |
joyfire三尺剑一车书 一支梅千里路 11/24/2009 参见Beta技术沙龙,主题是推荐系统周日去奇遇花园参加Beta技术沙龙,这次主题是“推荐系统在大型网站中的应用”,是和Resys合办的(说起来俺也起了点儿牵线搭桥的作用,哈)。推荐系统果然很热门,参与的人比以前都多。 第一个主讲人是dangdang网的技术总监王洪涛。从产品经理的角度介绍了dangdang的推荐系统。从业务需求的视点去看,实现什么算法反而不那么重要了,关键在于整体把握。网站做到什么程度需要引入哪一类的推荐系统?如何评价系统的效果?另外对用户体验的拿捏也是个重要问题,必须既给用户惊喜,又不讨人烦。 接着讲座的是付超群,以前在新浪音乐开发推荐系统。他从技术上介绍了推荐算法和工程实现。主要涉及了关联分析、slope one和SVD三种算法,内容很足,言简意赅没废话,我个人很喜欢这个报告。 国内评价和推荐做得最好的应该是豆瓣。有人问dangdang是否考虑在书评挖掘方面深入做些事。我想,豆瓣的领先地位,除了源于技术,更重要的是来自“第三方”的超然位置所带来的高质量评价内容,以及这些评价数据背后的深度参与人群。王洪涛回答时也说,dangdang上的书评,很多是抱怨送货和售后服务的,而豆瓣就没有这个包袱了。其实单个企业很难全面覆盖产业链条,合作共赢才是正理。 顺便提一下,企业的技术形象很重要。dangdang站内搜索的口碑不好。结果每次圈子里交流,他们的工程师总是有点尴尬,心虚郁闷的样子,忍受周围的朋友拿各种雷人的搜索结果开涮。物质待遇以外,工程师还很需要专业上的自豪感和认同感。 11/19/2009 生日和数学今天pFind组里两个人同时过生日。大家买了个黑森林蛋糕庆祝。 吃蛋糕前,BOSS H问17个人中出现生日重复的概率。我算的方式是1-(364/365)*(363/365)...*((365-16)/365),大概应该是31.5%,可能性还是蛮高的。 然后切蛋糕,可吃蛋糕的次序怎么决定呢。于是玩猜数字游戏。屡战屡败,倒数第三个才吃上,哇哇哭。 请寿星之一发表XX岁感言,他说:“XX是个素数。” 怎么感觉像The Big Bang Theory里的情节?郑重声明:俺是正常的工程师,和这帮博士不是一伙的。 11/17/2009 Hadoop in China 2009印象昨天Hadoop in China 2009在计算所召开。有主场之利,就混进去听了。把印象最深的内容写一写。 总体感觉规模很大,组织相当严谨,内容具有多样性。一方面,Hadoop in China前身是开源社区的线下技术沙龙,骨子里带有草根性,相当多的报告都是年轻的一线工程师在讲实实在在的最新项目;另一方面,这次又请来一些拥有行业视角的大公司技术高层,分享了不少全局信息。 第一个超出期望的是中国移动研究院院长黄晓庆。原以为礼貌上请赞助单位发言,不差钱的央企,“大云”肯定是炒概念。没想到还真讲了些好玩的研发内容,甚至对Hadoop内核做了不少改进。正因为有实际工作而且打算开源,所以就有深入的思考:“下面是我对开源社区的建议。首先,Hadoop应该更全球性。很高兴看到72%的贡献来自Yahoo!,但这对Hadoop长远发展并不是最好的,Hadoop用户应该提供更多贡献。另外,希望建立基于开源社区的云计算规范标准,使应用不只绑定在某个特定平台上。”报告英文很流利,讲得台底下的Yahoo!技术高层直点头。 来自Facebook的报告特别吸引人。除了技术本身,数据仓库这种应用场景也很酷。底层设施需要按照ETL、数据挖掘和决策支持的特性进行调整,例如利用Hive支持SQL,以便商业分析人员使用。查了一下,已经有三篇论文引用Hive,都是比较顶级的会议。相对我个人而言,以往关注都限于搜索引擎范围内。这次意识到Hadoop已经被用于很多领域。 Cloudera帅帅的创业者(长发,山羊胡子,真的很Geek)列出了Hadoop的应用领域:像NTT KDDI和中国移动这类的电信公司用Hadoop分析用户信息,优化网络配置;美国供电局用Hadoop分析电网现状;包括VISA和JP摩根在内的金融公司用Hadoop分析股票数据;包括Amazon和ebay在内的零售商和电子商务公司也开始使用Hadoop……他还特别提到生物公司用Hadoop进行DNA测序和分析。 有事错过了Google公司的报告Challenges in Data Processing in the Cloud。 下午Track很多,在分会场来回转移。之后主要听了下面几场:
前几个报告都能在网上搜索到相关技术资料,不多写。 后一个报告介绍网易的封闭项目,也算是与Hadoop对照。网易在国内算是技术布局早的,几乎是一看到Google老三篇就立刻照着实现。报告前半部分讲如何选择不同的分布式存储设施。把分布式存储系统分为三类:类似GFS的,类似BigTable的,还有Key-value方式的。对于GFS这一类,提供接近Unix文件的API,适用于必须对数据进行顺序全扫描的应用场景;对于BigTable这一类,提供分字段索引排序,适合需要随机查找的应用;而对于Key-value这一类,强调响应速度,更适合当cache用。报告后一半都是案例,分享重点是解决问题的思路,而不是问题本身。 大会最后的Panel Discussion。从听众提问看,在国内Hadoop还有待普及,很多技术人员甚至不太熟悉开源基础。百度的Ruyue Ma提出,不要指望万能药方,每种技术方案都有适用区域,传统的MPI也有自己的独特优势,未必所有应用都必须移植到云平台上。多位嘉宾强调,第一关注点应该在于可拓展性,而不是性能。 顺便提一下,国内企业今年突然都开始投入分布式技术的研发。很多家公司同时打算或正在开发自己的GFS、MapReduce对应产品。我倒觉得,现在才动手的话,不如选择成熟的开源方案,这样招聘、培训和合作的成本较低。 11/13/2009 列书单.2009.11.13几周内完成了大堆技术报告和论文,做了几次文献讲评和外访交流,加上人际情绪起起落落,有些疲惫。 今天释放一下,一个月没空逛书店了,早就“饥饿”难耐,于是杀奔中关村图书大厦。豆瓣上的“我想读”列表已经很长了,挑最滴口水的先扛回来(豆瓣正在内测“购书单”,期待中)。尤其是张五常的封笔之作,自从第一次从他BLOG读到连载开始,就等着买回来收藏。 买了张五常的《中国的经济制度》,梁文道的《噪音太多》,北岛和李陀主编的《七十年代》,叶檀的《拿什么拯救中国经济》,基佐的《一六四零年英国革命史》,格雷厄姆的《梦之日记:我自己的世界》,法迪曼的《书趣:一个普通读者的自白》,G.Pascal Zachary的《观止:微软创建NT和未来的夺命狂奔》。 11/10/2009 流水帐.2009.11.11
10/31/2009 织田信长的第17代后裔刚看国际滑联花样滑冰大奖赛中国杯站,中央5台直播。 申雪和赵宏博两口子复出很完美。有趣的是,参赛的日本男子花样滑冰冠军叫织田信成,是日本战国时代传奇人物织田信长的第17代直系后裔。 北方又要强降温,大家照顾好身体。
10/29/2009 天河1号抢在了曙光6000的前头10/24/2009 海明威的巴黎时代前两天跟tinyfool、pongba、许式伟、老莫他们一起吃饭。在等人的时候,跑到五道口光合作用买了本海明威的《流动的盛宴》。这是他自杀前的最后作品,回忆二十年代在巴黎的年轻时光。 那个时代巴黎住着庞德、艾略特、乔伊斯等众多著名的英美作家。最有趣的是对菲茨杰拉德的描写。海明威认识菲茨杰拉德时,后者刚发表了《了不起的盖茨比》。海明威赞叹:“既然他能写出一部像《了不起的盖茨比》这样卓越的书,准能写出一部更出色的。”但是紧接着的那一句,却暗示了菲茨杰拉德的悲剧性结局:“我那时还不认识姗尔达,所以还不知道他的可怕处境。” 书的开头,海明威1921年到巴黎时,他还是无名小辈:二十岁出头,身上带着战争留下的弹片,新婚燕尔,收入微薄的小记者。而到了书的结尾,1926年,他已经离了婚,认识了一堆日后名动世界的名字,写成了《太阳照常升起》。 电视里头播国庆节目。意识到那段时间邓小平恰好也在法国。当然是完全不同的故事了:为生活所迫,把最苦的工种几乎都干了一遍。接触马列思想,在工人活动中崭露头角。最终在编印激进报纸时,认识了上司周恩来。 煽情:这两个年轻人也许曾在巴黎的大街上擦肩而过。 10/18/2009 流水帐.2009.10.18
10/15/2009 网络游戏就是云计算居然有这么多人没意识到:网络游戏就是云计算。 从运营形式看:玩家把自己的帐号信息、虚拟装备和财产等关键数据,都存储在服务器上,通过网络登入,使用运营商提供的娱乐服务;从技术角度看:众多玩家的各种交互,例如聊天、组团、战斗等,以及更多虚拟世界并发事件的模拟,都需要深度运用大规模分布式计算和网络安全技术。 很明显,这是典型的云计算。无论是从技术还是商业角度看,网络游戏产业已经是搜索引擎以外,云计算最成功的应用案例。 事实上,也许它未来的地位还会更重要。 一方面,游戏领域的激烈商业竞争会不断推动技术发展,培养人才,这很容易理解。例如国内不少著名的程序员和架构师,都是游戏产业培养起来的,再例如ice等重大创新,就是美国军方和网络游戏的产业需求共同催生的。 另一方面,用户习惯上,当网络游戏的一代长大成人,走入社会,在线游戏就不再是边缘产业。直观上思考,能在这个3D虚拟场景里交朋友、谈恋爱、合作杀怪物,以后就可以通过它找工作、买卖二手车、开商店、组织学术会议、进行远程培训、举行演唱会……这就好像,我小时候很痴迷《变形金刚》,其实这部动画片只是玩具厂商的市场营销。现在我们这一代三十岁了,《变形金刚》就突然变成了几十亿美元的好莱坞电影,汽车产业巨头植入广告的载体。在此之前的《蜘蛛侠》也一样:从五六十年代小孩子的漫画书,变成了主流大片。 林登实验室其实就是意识到了这一点,才开发出“第二人生”,IBM公司在其中会召开全球年会,路透社设立驻“第二人生”特派记者,那位著名的德国女华人通过虚拟房地产业赚取百万利润,甚至之前发生的虚拟恐怖分子案,说明他们都明白了。事实上,外国导演在十年前就拍了The Matrix。然而,再看看中央电视台前一阵讨论魔兽世界的节目,他们并没有明白,主持人和嘉宾在思维上已经落后了不止一代了。 很多人都和我一样,不喜欢网络游戏。但警惕思维僵化,保持开放心态,是必要的。历史上很多重要创新,起初都不讨人喜欢,甚至引起社会主流的强烈憎恨。“老人”们要注意,别当烧死布鲁诺的人。 故事回放:布鲁诺临死时说,“我死了,地球还是绕着太阳转,而不是相反”。伽利略虽然迫于压力收回了言论,进行了忏悔,可是忏悔完还是低声说了一句,“可是它们(指他观测到的木星的四颗卫星)的确在那里呀”。几百年后,教会向伽利略等被迫害的天文学家正式道歉。 谁敢打赌说,下一代的战略性创新,决定国力的重要技术、商业模式或制度演进,肯定不可能从网络游戏里诞生呢? (后记:科学松鼠会发表了一篇《科学家网游不辍为哪般?》。) 10/11/2009 狗血时代、百年老店和Objective-C昨天早上偏头痛,晚起了一小时,因为有些工作放心不下,还是强令自己去上班。午饭和晚饭都没吃。下午和领导谈工作的时候,已经有点灯枯油尽了。晚上10点回来,吃了点东西,包裹在被子里喝啤酒,看“游戏风云”频道演示《猪兔大战》。 以前看到北京女病人BLOG这篇《被隐藏的时光》,和朋友笑言,俺的狗血时代终于过去了。好像很多功成名就的人物都说过,最快乐最令人怀念的时光,正是那默默无闻、野心勃勃、累死累活、年轻气盛、大喜大悲的几年。 前天开会,fy大虾最后讲,他的PPT里写“什么是百年老店,就是人死了,店还在。” 点开09年10月的TIOBE编程语言榜。趋势很明朗。Java和C/C++语言稳占鳌头;PHP、C#和JavaScript稳步提高;而随着iPhone所向披靡,尤其是App Store模式的猛烈发展,Objective-C像坐着火箭一样猛烈崛起,相信很快就能闯入前10。
10/7/2009 推荐10月份的《程序员》刚刚收到10月份的《程序员》,有几篇文章不错,推荐一下。 这期组织了一个产品开发、营销和运营的专题。第一篇就是周鸿祎的《用互联网的思想经营产品》,很赞同其中的很多观点。之前谢文有一篇文字,对开发、营销和运营三阶段有很类似的论述。分析Windows Vista这款失败产品那一段,和Joel on software的看法基本一致。 最近数据挖掘和推荐的话题很火爆,大牛们纷纷加入Resys Group。《程序员》保持了嗅觉灵敏、迅速跟进的特点,这一期里有《商品推荐背后的数学》和《Tag和Tagging》两篇与此有关。 感兴趣的一篇小文章是《编程习惯》,强调了版本控制、构建系统、自动化测试、代码评阅、重构、代码风格等六大基础设施。刚好和俺前两天写的不谋而合。 HR的内容越来越多了,例如《建立完整的外包人才体系》、《绩效考核的五种死因》、《绩效实施经验六法》等。今天和朋友吃饭,聊天说起这个来,很多HR部门都有故弄玄虚的坏毛病,交流困难,演进缓慢。在这种不良气氛下,个人的职业成长很多时候更需要依赖悟性和韧劲。 10/4/2009 流水2009.10.4
9/30/2009 中国万网有安全问题keso在讨论中国万网被阿里巴巴收购。刚好,我这两天正为万网怒火中烧。 无论私人域名还是单位用的pFind域名,一直使用万网的域名服务。虽然贵一点,但感觉服务还好,品牌比较可信。 昨天发现有域名被指向了121.199.253.187,再Google了一下,发现这个IP地址是一个诈骗网站,被网通电信列入屏蔽黑名单。在线提交了技术支持单,又打电话过去。服务人员态度倒还好,很快改回来,但没解释原因。今天域名被再次指向121.199.253.187。恼火,国庆敏感时期,域名莫名其妙指向诈骗网站,如果被管理机构封掉,说都说不清楚。 这说明万网有安全问题。作为国内最大的域名服务商,这种表现让人失望。 9/26/2009 五星级秘书和职业理想最近招人面试,被老板临时抓去充当生物信息组的面试秘书。 当秘书也要全力以赴。一直听到周围的年轻人议论所里的行政人员。例如那位姓宋的长者,口碑非常好,据说在BBS上排名第一,唯一一个“五星级”。所以,刚好看看自己的智商情商离“五星级”有多远。 两周下来,压力很大,好多天23点打车回家,差点累死。服务水平受到认可。这两天陆续收到面试者、被面试者和行政秘书发来的称赞的邮件和短信,也有人当面冲我树大拇指。 行政工作还算好应付,只要不太笨,认真负责就行了。而面试本身就更有挑战性了。戏剧性的过程,考验着每个参与者的情感和理智。团队里不止一个人声称这次“受了内伤”。尽管纠结,职业地应对下来,就感觉到自己的成长。 当然,还是最喜欢和擅长技术研发。我的并行版论文明天第14稿应该就是最终版了,月底投英文期刊。下个月开始着手申请专利。 职业理想是扮演“研发团队领袖”(Tech Lead,一般直译为技术主管)的角色。随着年纪增大,逐渐有些积累了。李开复说:兴趣和天赋可以相互激发。 BTW 1:李开复在哥伦比亚大学最初学的是法律,同班有个不善言辞的黑人同学,叫奥巴马。 BTW 2:阿弥陀佛,山东队又输了,罪过罪过。 9/17/2009 Joel 12条和2006年Tinyfool刚刚发了一篇关于著名的Joel 12条的BLOG。我很有成就感。 一直用Joel 12条作为软件工程实践的基本底线。这12条很朴实,我也实践得很朴实:时不时在PPT里把这12条拿出来给现状打分,不停唠叨直到他们养成习惯,这样坚持了4年。刚开始只有3分。现在超过10分。 事实证明效果很好。不谦虚的说,这个学生为主,还要兼顾大量科研任务的团队,工程效率超出了很多软件公司。双人编程、重构、代码审核等高级的软件工程实践,是建立在SVN版本管理这类基础设施之上的,这是常识。 这些年pFind Studio各个软件不断上演龟兔赛跑的故事:刚进入某领域时总是显得缓慢笨拙,等过了2.0版,团队协同的平台效益就明显起来;而很多同行系统越大越纠结,一旦核心牛人的热情和投入减弱,很快就成了焦油坑,演进陷入停滞。 说到水面以下的积累,前几天“超龙一号”评审,有个院士表扬我们组,举了一个美国国内的统计:持续专注少于8年,团队人数少于8人的科研团队,全部失败,没有一个团队能持续搞出牛的科研成果。 到现在为止,pFind团队坚持了7年半。 最难的时光?也许是2006年。那一年,整个组没发表一篇论文,没拿到一分钱,没申请专利和软件著作权,每次例会都有种沉重的气氛。 但也是那一年,团队下了决心把pFind彻底推倒重来,静下来,老老实实打磨,一次次反复跑实验。现在回头看,个人记忆里,那是困惑挣扎的一年,也是幸福充实的一年。从那以后,开始对pFind变得自信,对自己变得自信。 BTW:北京、山东、天津、上海又一次集体输球。这次我彻底服了,不知hchi哥服不服。9/10/2009 999新人、哲学家就餐和lehuo域名稍息,讲一下。 昨天是999,据说北京领证上岗的人数突破了历史纪录,甚至超过了去年的888。飞飞给我们发喜糖,原来他也当了传说中的三九新人。 给八卦一族爆点猛料:别看飞飞是这么内敛稳重的人,该出手时就出手,爆发力惊人。人家通过网络认识美女飞嫂,一见钟情,一拍即合,快刀斩乱麻,效率超过曙光大机上的pFind搜索引擎,一点不含糊。 不贫了。恭喜恭喜。羡慕中。 借机澄清谣言。居然有人说我们组里有断背痕迹,因为吃饭时那几个人老是凑在一起,汗。 组里有好几个左撇子,在大餐桌一起吃饭时,邻座之间胳膊总是互相较劲,搞得像哲学家就餐问题。嫌烦,大家把左撇子扔到一堆去。慢慢的就养成固定的座次习惯了。 BTW:请想买lehuo域名的看这篇帖子。 9/6/2009 列书单.2009.9.6两周没逛书店了。今天去了一趟五道口的光合作用,买到了米兰·昆德拉的《生活在别处》、麦克·莫波格的《柑橘与柠檬啊》和汉密尔顿的《卡萨诺瓦是个书痴》。 周围N多人推荐《飞屋环游记》,终于去看了。不知怎么搞得,竟然被一部动画片的开头15分钟弄得满眼眶都是泪水,差点流出来,晕。感觉开头的这15分钟,很像那部奥斯卡最佳动画短片。另外,发现这部片子并不是整部全是3D的,而是3D和2D段落相互间隔。是为了调节观众的眼睛疲劳,还是制作成本问题,或是因为现场出现技术故障? 唐僧:下雨,北京凉起来了。注意加衣服。 9/4/2009 用户易用性就是容忍犯错和偷懒如今无论哪种软件产品都在强调用户体验。本质上,AJAX这一类近乎变态自我折磨的界面技术的热门,不是Geek式的炫耀,而是为了提高用户易用性。 用户易用性的核心,就是容忍用户犯错和偷懒,就是摆正心态:软件是仆人,而且要达到英国贵族管家的档次。 举个例子,微软Office到底好在哪里?录入一篇英文文章,不慎把三个字母的常用小词,例如and或the,敲错了顺序,弄成了adn和teh,一敲单词后面的空格或标点符号,MS Word就会自动帮你纠正过来。 别小看这个功能。一方面,对需求边界的把握是一门艺术:刚刚好有用,又避免算法自作聪明,用户常用到它,却意识不到它的存在。另一方面,实际也有很高技术含量:只有adn和teh才纠错,而其他字母排列不纠错,这是进行过“双手盲打”的人机工程学研究统计的。 设计者对产品的态度,就可以了解其职业能力和素养。总认为“这是用户该保证的”,不愿意完善异常处理的人,总是抱怨“请给点建设性意见,别老挑刺”的人……都命中注定做不出伟大的产品。记得《项目幸存手册》里说,听到程序员说出“哪来的这么笨的用户”这种混蛋话,就想跳起来骂人。 “傻瓜式的相机”成就了日本电子产业。对软件和网络行业来说,马太效应更加明显,Jobs式偏执狂席卷一切,拙劣的山寨仿制品,中国式的小聪明,走捷径,长久不了。 pFind的用户群都是科学家,极有条理和耐心的铁人,主观摸索欲望很强,不喜欢抱怨。对产品来说,这并不是什么好事。年底将发布pFind Studio 2.4版,会集中解决用户易用性问题,不是泛泛改善,要做出吓人的惊喜来。敬请期待。(正在收集改进意见,欢迎被我们软件痛苦折磨过的小白鼠们发邮件来控诉和诅咒。我们准备设立一个奖金,年底颁发给抱怨最多最毒的用户) 08年初放出“把Mascot打得满地找牙”的口号,现在看来实现比预想快。今天Boss H问两年后,我说“如果pFind免费,拿到50%的份额;如果不免费,拿到33%的份额”,他们说新一版狂言诞生了。真的只是狂妄自大吗,拭目以待。 BTW:hchi哥今天的PPT引起俺的赞同。要追求完美,不作自甘平庸的笨蛋;又要平常心,不抱怨,不喜怒无常,保持幽默感和倾听能力。同志们,遵从hchi哥的教导,勇敢前进了。 |
|
|||
|
|