您所在的位置:欢聚电脑网 > 网站学院 > 网站运营 > 移动平台 > 正文

微信团队揭秘:用人工智能武装微信

时间:05-31 关键字:淘宝 来源:www.huanju.org

微信 5.0“扫一扫”发布的时候,被讨论得最多的是它所承载的商业化重任。

被忽视的,是背后的技术,及技术蕴藏的趋势。

同样地,这个版本亮相的微信自主研发语音识别技术,也为外界所震惊和质疑。“腾讯能够一夜之间自研成功语音识别技术?”类似质疑遍地都是。

在独家采访微信“模式识别中心”团队后,我们发现两个产品功能并不是孤立地存在的,而是人工智能技术武装微信的两个投射。微信走向智能化,不是从这两个功能起步,也显然不以其为终点。

本文揭秘了微信产品背后的故事,介绍“模式识别技术”的未来形态,以及科研与产品开发的关系。而我们更关心的,是微信乃至整个移动互联网正在发生的变化:越来越智能化。这是由移动设备和移动产品丰富的连接性引发的变革。正是得益于如此丰富的连接性,人工智能基础技术得以从多方面渗透进来,燃起穿戴设备的热潮,掀起电视、汽车、家居、医疗各产业的变革,真正拉开科技改变生活的序幕。

weixin pattern recognition team1

1/3 博士,2/3 硕士的高学历团队

“模式识别”是人工智能的一个分支,在上个世纪 60 年代成为一门学科。所谓模式识别(pattern recognition)是指对表征事物或现象的各种形式信息进行处理和分析,以实现对事物或现象进行描述、辨认、分类和解释的过程。模式识别对象包括文字、语音、图像、生物传感器、心电图、脑电图、地震波等等。对应到 IT 领域,主要是指文字、语音、图像、与 IT 相关的传感器等,如 iPhone 5s 新增的指纹识别功能,将来也会属于“模式识别”研究的对象。

微信的模式识别中心也是一个研发中心。据团队负责人陈波介绍,他们隶属于微信北京研发中心,研究方向包含语音识别、图像识别、语音合成、音频指纹、语义理解、数据挖掘等等。不过由于这个研究型团队辖属于微信,他们不只负责理论研究,还对接产品功能开发。

模式识别中心原先不属于微信,其前身是腾讯研究院下属模式识别小组,2010 年 9 月成立。这个小组面向整个腾讯公司提供基础研究成果的服务。比如诞生之初就为 QQ 输入法提供手写识别功能。2011 年腾讯内部创新热潮起来后,这个团队拓展研究领域,扩展到人脸识别、图像检索、文字识别等,集多种图像技术于一身“QQ 慧眼”就是这个团队研发的。2012 年 9 月,该团队正式划归微信管辖,随他们一同到微信的是当月发布的微信 4.3 版本中的通讯录语音搜索功能。

为什么基础研究团队要整合到微信团队?陈波给出的答案是:“一方面微信是引领移动互联网潮流的产品,对视觉、听觉延伸的东西需求很大;一方面技术成熟,到了基础领域研究落地阶段,微信是一个比较合适的平台”。

目前微信模式识别团队有 40 多名成员,都是高学历多能人才。据陈波介绍,40 多名同事中,有 1/3 是博士,2/3 是硕士。还有一个类似比例是:整个团队 1/3 从事前沿技术研究,2/3 从事现有技术研究和产品对接。

关于团队的研究方向,陈波介绍主要分为语音和图像两个小组,语音研究对应的是手机上的麦克风,由博士生卢鲤带领 12 个人负责;图像对应的是手机摄像头,由博士生刘海龙带领 13 个人负责。“小组是比较成熟的方向。除了小组之外,我们也有其他研究方向”,陈波说,“包括文字识别、人脸识别、语义理解、视觉搜索、音频指纹检索等”。除了科学研究团队,模式识别中心还有一个工程团队与微信产品团队进行对接。

据陈波介绍,她的团队不是纯粹搞研究,不只会写 paper,还有很好的开发能力。他们没有专门的手机开发人员,都是自己搞 iPhone 开发,把 demo 秀出来;遇到产品问题,也要与产品团队共同解决。在招聘人才方面,模式识别中心也是把关严格,要求研究与工程能力兼备,所以团队过即使加入微信后也没有膨胀发展:团队成立之初是 2、3 个人,去年加入微信大家庭的时候是 30 人左右;加入微信后,现在团队是 40 人出头。相对于竞争对手,这仍然是一个精干的团队。

“两盒烟,三个月”,一诺千金

微信 5.0 加入自主研发语音识别技术,引起震动。很多人不相信腾讯能在一夜之间靠自己研发出这种高门槛、长周期、重积累的技术。行业龙头老大科大讯飞创业 10 多年还在不断完善这种技术——当然,讯飞在语义识别、云平台服务、串联产业链方面扎得更深。

但是,世界上没有奇迹,也没有“一夜之间”的传奇故事。

腾讯模式识别团队成立于 2010 年 9 月,前期图像技术成熟,较早落地。但它的语音识别技术起步晚,2011 年底才正式启动语音识别自研项目。显然,这个项目的启动受到了当年苹果发布 Siri 语音助手的影响,后者引发语音产业热潮——科大讯飞的股票迄今已经翻番。

到今年 8 月,语音识别自研项目历时一年半,模式识别中心终于攻克语音识别技术难题,并在微信 5.0 产品中正式亮相(“语音输入”功能)。由于模式识别团队属于研究型队伍,在前期主要集中于积累基础技术,加上腾讯的低调作风,才给外界造成“一夜之间冒出来”的感觉。

事实上,在此之前模式识别团队曾为微信开发多项人工智能技术。比如 2012 年 9 月发布的 4.3 版本中的通讯录语音搜索功能,2013 年 2 月发布的 4.5 版本中的语音提醒和“摇一摇”搜歌。但微信 4.5 版本中的“语音提醒”功能才引起外界对其语音技术的关注,一方面与微信受到的关注度相关——微信 1 月刚刚中旬宣布达到 3 亿用户,成为一个庞大的移动 IM 平台;另一方面“语音提醒”功能非常显眼,不像“摇一摇”搜歌或“扫一扫”那么隐蔽或难于理解。

关于微信 4.5 版本的“语音提醒”功能,外界所不知道的是,它差点无法在该版本中发布。最终顺利发布,这后面有一个“两盒烟,三个月”的故事。

去年 10 月 8 日,国庆长假刚刚结束,模式识别中心语音组组长卢鲤与团队负责人陈波到广州与张小龙交流工作。“张小龙希望语音提醒在 4.5 版本上,我说技术不成熟,做这个事情没把握。我说了半个小时,小龙一言不发,最后说‘那你们觉得需要多长?’我咬咬牙说起码得 6 个月。小龙又一言不发,走开了”,卢鲤回忆到,“他回来后,手里拿了 4 包烟,开会的人有 4 个人抽烟,一人一包,包括他自己。这烟我没抽过,我看了烟,又咬咬牙,说‘要不 3 个月’,他听了之后,把他手里那包烟也留给了我。”

weixin luli by ifanr

(微信模式识别中心语音组负责人卢鲤)

从 10 月中旬到 2 月初,除去春节假期,产品上线差不多就是 3 个月(期间进行一次封闭开发),卢鲤顺利完成了任务。烟为什么对卢鲤有这么大的吸引力?答案在这个对话里:

ifanr:平时通过什么方式来放松?

卢鲤:我的方式是抽烟。

微信 4.5 版本发布的“语音提醒”功能,使用到较复杂的语义识别技术。比如“早上 7 点半起床坐 718 路公交车上班”,需要把“7 点半”理解为时间,把“起床坐 718 路公交上班”理解为事件。这在语音识别中反而是较复杂的。今年 2 月该功能发布后,它对语义的理解能力做得不错,但会有一些错别字,说明语音识别还不太完善。微信 5.0 发布的“语音输入”功能,识别率很准确,甚至在人名、地名、专有名词识别方面给人以惊喜。说明通过一年半时间的努力,模式识别团队在语音识别领域赶上了行业水平。

如果这篇文章对你有帮助,就请点个赞吧!
休息一下