就机器同传而言,目前搜狗的语音识别率已达97%,而机器翻译的准确率则要略低一些,这也是业界的难题。虽然机器同传依旧有这样那样的缺陷,但随着AI的进步,五年内会继续会有一个大的飞跃。
机器人写字,翻译,人工智能,机器同传 AI取代会议同传,还需几步? AI资讯图片来自“123rf.com.cn”

人工智能,如果总是将未来的事情,拿到现在来评判,就会给很多人以错觉。以同声传译为例,几年前就有互联网大佬说,AI很快就可以取代同声传译的工作!事实上真是如此吗?尽管国内目前不乏在大型会议中全程多人使用机器同传服务的案例,但要实现稳定、准确,并真正“取代”同传行业,仍然需要假以时日。

翻译官会消失吗?

同声传译,简称“同传”,又称“同声翻译”、“同步口译”,是指传译员在不打断讲话者说话的情况下,不间断地将讲话者的内容翻译后复述给听众的一种传译方式,传译员通过同传的设备提供即时准确无误的翻译,这种翻译方式适用于大型的权威研讨会和国际性会议。

“同声传译”这个职业曾被誉为世界上最高薪酬的工作,他们的工资不是按照“月”计算的所谓“月薪”,而是以“天”为单位,严格来说是以“每小时”乃至“每分钟”作为计量单位来进行计算。这个“日进千金”的行业看似风光,实则每次传译员出行一次任务都是一场风暴似的脑力压榨。

目前国际情况,世界上95%的国际高端会议都会采用同声传译的方式进行。但大型会议使用“同声传译”的历史并不久,第一次应用要追溯到第二次世界大战结束后,设立在德国的纽伦堡国际军事法庭在审判法西斯战犯时,首次采用。

走红于网络的翻译官张璐,就是为曾满分翻译了屈原《离骚》诗歌的选句:“亦余心之所善兮,虽九死其犹未悔”,我遵从我内心的想法,即使要死千万次我也不会后悔。

李开复认为,一项本来由人从事的工作,如果可以在5秒钟以内的时间里,对工作中需要思考和决策的问题作出相应决定,那么,这项工作就有非常大的可能被人工智能技术全部或部分取代。 

机器翻译发展到了哪个阶段?

从机器翻译的发展历程来看,其实最早也是语言学的研究范围(包括语音识别,也包含语言学的内容)。过去几十年来,为了实现机器翻译的梦想,以IBM、谷歌、微软为代表的国外科研机构和企业均相继成立机器翻译团队,专门从事智能翻译研究,矢志打破语言的巴别塔,但突破发生在2014年起,机器翻译领域开始有了翻天覆地的变化,这期间发生的大事,是以机器学习神经网络作为基础的机器翻译,开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。

在这场革命之后,机器翻译彻底进入了Neural MachineTranslation,即NWT神经网络机器翻译时代。很多人为此欢欣鼓舞。甚至谷歌在中英翻译系统上部署GNWT——谷歌神经机器翻译的新闻发布之后,当时网上有一句广为流传的话:“作为翻译,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。”

目前机器翻译的水平到底哪家强呢?可以参考国际顶级机器翻译比赛WMT(Workshop on Machine Translation),由来自欧洲和美国的高校、研究机构(Charles University、University of Edinburgh、FBK、MSR、Heidel berg University、Johns Hopkins University等)的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一。WMT比赛从2006年开始到2017年,一共举办了12届机器翻译比赛。今年的新闻机器翻译任务(Machine Translation of News)包含英语与捷克语、德语、芬兰语、拉脱维亚、俄语、土耳其语、汉语等一共七个语种的互译,总共14个翻译方向。其中,中译英和英译中方向是今年新增加的两个翻译方向。

同声传译难在哪里?

搜狗的机器翻译团队成绩有目共睹,而且搜狗同传也是国内目前唯一曾应用于大型会议的语音识别+机器翻译系统,从去年世界互联网大会上,搜狗CEO王小川首秀了这项技术。随后,搜狗同传又在香港科技大学学术讲座、前哨大会、GMIS大会上“炫技”。

随着台上嘉宾演讲的进行,经由语音识别、机器翻译,其身后的屏幕上同步出现中英字幕。即便演讲内容涉及人工智能领域大量专业词汇,搜狗同传也能转化并呈现。看样子,搜狗能够取代人工同传,实现不同语言人们低成本的有效交流。

但是并不完全那么简单。以中英文的机器同传为例,它大致需要将搜集来的中文语音信息经过语音断句,获得小的语音片段,然后会送到语音识别中获得文本,此时需要对文本进行一些顺滑处理,将这个经过语音识别后的处理文本送到端到端的神经网络(目前机器翻译的主流方法),通过翻译器进行语音翻译。

机器同传是语音识别+机器翻译的过程,目前在业内语音识别领域就存在难以解决的问题,包括如何指定麦克风,比如有多个人说话、多个说话声混在一起时,在机器系统里面就会默认是人声嘈杂的环境,没有主说话人;另外还有包括噪声、口音和距离造成的识别准确度等问题。而同传要做好必然会受到两个方面的能力影响,一是识别的能力,二是翻译的能力,这两个能力一般的错误是乘的关系,识别的错误会累加到翻译的错误上。这就意味着,要做好机器同传,在识别和翻译上每一块都要足够强,不然最后叠加出来的效果就惨不忍睹了。

就机器同传而言,目前搜狗的语音识别率已达97%,而机器翻译的准确率则要略低一些,这也是业界的难题。虽然机器同传依旧有这样那样的缺陷,但随着AI的进步,我们相信五年内会继续有一个大的飞跃。

对于何时出现一个“完美”的机器同传,搜狗语音交互中心技术总监陈伟说,搜狗机器同传接下来的发展,一方面需要保证稳定的语音识别率,比如噪音场景下;另一方面是机器翻译如何能更好的找到一个完整的语义边界。同传系统最核心的就是建立一个连接语音识别和机器翻译文本的处理系统,这个处理系统可以接收语音识别的结果,去做容错。此外,就是如何处理更多口语化的表达,如“这个”、“那个”,以及如何断句问题,确保翻译出来的是一个完成的语义句子。当这些问题都解决的时候,机器同传的效果才会提升很多。

电影《星际迷航》里,星舰通讯指挥官佐藤星把翻译器集成到星舰人员佩戴的交流别针上或者耳朵里,语言不同的人可以进行自由实时的交流。刘慈欣在《三体》中描述到:被冰冻的人类在苏醒时,第一眼看到的,就是与医生所说内容同步出现的中英字幕。

我们看过太多的完美未来,也往往会把未来的场景当做现在的应用,但技术的打造需要时间需要切实的落地,但我们有信心,一定可以亲眼见证这一出现在科幻小说中的场景。