雷锋网(公众号:雷锋网)消息,7月8日,CCF-GAIR全球人工智能与机器人峰会进入第二天,CCF-GAIR由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办。在AI+专场,北京大学计算机科学技术研究所研究员万小军,作为AI+专场的开场嘉宾,为我们带来了主题为《机器写稿技术与应用》的演讲。

机器写稿的背景与现状

在国外,已经有三家著名的提供机器写稿技术的公司,包括ARRIA、AI、 NARRATIVESCIENCE,为美联社等多家知名媒体写了数千万篇稿件,当然这是面向英文或者是西方的语言。

随着人工智能技术的发展,国内的机器写稿也逐渐受到关注,有很多的媒体在和一些学术机构进行合作,推出一些写稿机器人;另外是互联网巨头,包括微软、百度、腾讯、今日头条,也在研发机器写稿技术。写稿的内容主要侧重在体育、财经、民生领域。

以新华社写稿机器人快笔小新撰写的财报新闻为例,其技术流程为:数据采集 - 数据加工 - 自动写稿 - 编辑签发,它的写作方式还是比较死板的。

对于原创新闻和二次创作,前者指直接从数据生成原始稿件,比如天气预报,年报财报;后者指基于已有稿件内容创作新稿件,两种稿件涉及到不同的技术:第一种是自然语言处理技术,即从我语义的表达生成自然语言;第二种是自动摘要,从已有的文字素材去给它摘要,生成一个新的稿件。

北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017 北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017 AI资讯 第1张

还有一些其他相关的技术,包括文本信息推荐技术,文本复述技术,前者指自动为你插入你想引用的唐诗宋词、名人名言等,后者指在保持同样的语义的前提下,自动使用不同的语言表达,以规避版权问题。这里有一个例子是说“梅西获得了5座金球奖”,你可以改为“梅西是五届金球奖得主”,也可以改写为“金球奖5次颁给了梅西”。

对于更受关注的写稿机器人与记者的关系:目前为止应该是一种分工协作的关系,就是说机器人现在可能不具有逻辑思维的能力,也不具有深度总结的能力,它只能去把一个基本的新闻事实描述清楚,但是我们记者就可以写深度报道。

我们在机器写稿方面的技术研究

我们做了很多的基础技术性的研究,包括基础的自动文摘、自然语言生成等等,另外也做了很多的应用研究,包括新闻资讯生成、综述生成以及用户评论自动生成。我们介绍几个代表性的结果。

除了根据结构化数据和素材生成的新闻简讯,我们还可以生成体育赛事的长篇报道。怎么生成呢?我们发现有一个很重要的素材,就是体育的直播文字。我们经常发现一个很著名的体育比赛下面都有文字直播,或者是通过视频直播转成文字直播,这个文字直播中通常包含主持人对这样一个比赛的精彩细节的描述,我们通过机器学习的手段,能够把这些精彩的描述挑选出来,放到我们最终的报道中,这个报道就写得比较长,可以达到上千字以上。

这是一个生成长篇报道的过程,首先对直播文字进行语句的智能排序,再进行智能选择,这都是借助机器学习的手段,最后生成一个平均长度超过1000字的赛事的报道。

另外,在娱乐新闻和自动生成评论上,我们也有不错的成果。

北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017 北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017 AI资讯 第2张

目前,我们分别和今日头条、南方都市报及广州日报合作推出了小明、小南和阿同机器人。

未来的趋势展望

机器写稿不光是在媒体行业,现在也在跟一些游戏行业和情报行业合作。未来,只要什么时候你需要写这样一些报告,比如一些行业报告,或者写一些稿件,都会用到机器写稿,不光是媒体,其它的行业也会用到。

第二个方向,我们现在写的稿件还主要侧重对客观事实的描写,还没有加入太多的态度和立场,因此显得人性化方面不太理想,下一步会让我们的稿件自己具有一定的立场。

第三点也是最难的一点,就是让机器学会推理和归纳,写出真正的深度报道,比如说我们报道一场足球比赛以后,我们要分析一下为什么是这样的结果,把这个原因进行推理总结出来,这样的报道就是真正的智能的,这是下一步要研究的目标。