在文献情报学专家武夷山看来,这本AI“著作■■”充其量只是一篇超长的研究文章撮要,甚至距离一篇合格的综述文章还差得很远■★★■■。
文本摘要技术是通过自动分析给定的一篇文档■◆◆■,摘取其中的要点信息,最终输出一段短小的摘要。逐渐地,摘要从单文档分析到多文档分析◆◆,直到输出一个摘要集。
★★■◆◆“锂电研究方向非常热门★★◆,关注者众多★◆。这些年■■,全球月均产生的新文献数量在1000篇左右■◆■。”黄学杰告诉《中国科学报》,对很多工业界人士而言◆★■■★■,能阅读大量英文文献的不多,为了帮助他们相对精准地追踪领域前沿进展■■,这么做是有必要的◆★。
如此比对,黄学杰认为《锂离子电池■★■◆:机器生成的最新研究综述》除了文本呈现的问题,比如不同章节内容编排的格式不统一、信息罗列缺乏完整逻辑链条,更重要的缺陷还在于内容本身的事实偏差◆★◆■★。比如,书中对于某些锂电材料的介绍并不符合现有行业市场的真实评价◆■◆。且总体而言,书中的结论完全略去了最新研究方向存在的难点和问题◆★★◆★■。
这些源文档是从SpringerLink平台上遴选出来的、锂电池领域2016~2018 年发表的经由同行评议的 150 篇权威论文◆■。如果读者希望进一步查阅引文的原始来源■■◆◆,可以通过书中的超链接一键直达◆★◆★★■。
哈尔滨工业大学计算机学院社会计算与信息检索研究中心助理研究员冯骁骋介绍说,目前主流的文本自动摘要主要有两种方式,一种是抽取式◆◆■◆◆,另一种是生成式。
施普林格的这本综述集更接近第一种方式■◆■★◆■。AI研究人员解释■◆★,科学出版物的读者更看重内容的正确性而不是语言风格,尤其需要 “创造性”的自动化写作和保留出版物原始信息之间的平衡。因此■■■★◆★,他们采用了相对保守的方法,基于文档聚类和排序、抽取总结、生成摘要的改写。
冯骁骋表示,这个过程相当于一个管道体系结构◆★★■,前一个模块的输出作为下一个模块的输入。“但它的劣势就在于,管道中的错误传播◆■★。◆★”
黄学杰表示,他们不以杂志影响因子和作者的知名度作为筛选和判断的标准◆★★■★,而单纯从论文内容角度选择最有新意和研究潜力的。要知道,锂电领域早期的重要论文几乎都没有出现在那些所谓的知名杂志上。
比如说◆★◆■,输入文档的预处理是一个非常重要的基础步骤,它包括了内部格式转换、书目分析★■、词性的语言注释、词元化◆★、依存句法分析、语义角色★◆◆■、共指等,以及对上下文敏感的短语的重新表述,如代词回指和话语连接的规范化。而检测错误的词语和句子会导致错误的语言注释,进而导致错误的语法,最终产生无意义的句子重组。
由于“噪声■★■■◆★”的步步积累★◆★,可能使生成的文本内容面目全非。因此,冯骁骋认为,目前,尽管抽取式摘要的方法比较成熟◆■★,但文本生成的质量以及内容的流畅度并不尽如人意,在实践中尤其难以正确处理长文本■★★★◆■。
继新闻、诗歌、小说■★■★、剧本之后,一直在■■★★◆“作者★◆★”身份上寻求突破的AI又有了全新的尝试。这一次★★◆◆★,它是从科技出版社施普林格自然集团“出道◆★◆◆◆■”,为广大科学工作者、工程技术研发人员编写了一本247页的学术“书籍◆◆◆★★■”《锂离子电池:机器生成的最新研究综述》(Lithium-Ion Batteries★■◆■◆★: A Machine-Generated Summary of Current Research)。AI有可能开启科学出版的新时代吗?
事实上★★◆■◆■,《锂离子电池:机器生成的最新研究综述》出版前,有一位中国学者已经连续6年在学术期刊《储能科学与技术》上做了一件同样的事锂电池百篇论文点评◆◆■◆。
“这是因为论文写作存在一个非常微妙的现象★◆◆◆,作者总是将自己研究方向上的困难和劣势隐藏得特别深,有的甚至刻意回避。机器通过论文摘要摘编根本不可能发现这些隐性问题。◆★★■■◆”黄学杰指出。
由于信息检索技术的发展,它最早的应用需求就来自图书馆◆◆★◆★。图书馆需要为大量的文献书籍生成摘要,而自动摘要的工作效率会比人工摘要的方式高得多,因此,这种研究早在半个多世纪前就开始了★■■★◆。
他说,好的综述当然要对既往研究文献进行整理■★、归纳★◆■■★,但更重要的是它的评述部分。作者需要对所综述的文献之价值进行合理的分析和判断,就研究前沿和学术挑战等议题提出自己的看法★◆■■■★,这些内容可能对作为读者的研究人员有一定的启示和导向意义◆★■◆。这是该 ★■■◆★“著作”不具备的。
抽取式的方法比较传统,它是对文档结构单元例如句子、段落等进行评价,并对每个结构单元赋予一定权重■■★◆★,然后选择最重要的结构单元组成摘要■■;而生成式文本摘要主要是依靠深度神经网络结构实现的◆★★◆★◆,是基于对整篇文章的理解分析■■■,直接输出一个结果★■★◆■。这就是2014年Google Brain团队最早提出的端到端模式。
中科院物理研究所研究员黄学杰带着他的学生,每两个月从最新发表的约2000篇锂电池论文中,人工筛选出100篇进行内容分类、归纳、总结、提炼■★★◆◆★,并加以评论。
AI的这次“写作”试验在文本自动生成领域还不是一个多么惊人的成果。学术文献自动综述的本质就相当于文本自动摘要◆■,这类研究在自然语言处理和机器学习领域一直都很活跃★★■◆。
值得一提的是◆★◆■,《锂离子电池:机器生成的最新研究综述》最终成文未经任何人为的编辑与润色◆■。什恩伯格表示,这样做也是为了真实地显现文本自动生成内容的当前进展和剩余边界。
另外,科研人员对于本领域的研究进展的把握需要★★■■★“与时俱进”■■◆■★,因此必然要不断浏览最新文献,为了节省阅读时间而拿出一年甚至更长的时间等待这样的机器生成长篇综述问世◆★■,肯定是不现实的。这也意味着,这类自动生成的文本若真想发挥作用,就需要满足用户的时间要求★★■◆。
打开这本书的封面,读者很容易把关注点落到它的“署名作者”Beta Writer上。其实,这位作者的真实身份■★★★★■,是德国法兰克福大学应用计算语言学(ACoLi)实验室的AI研究人员开发的一种算法★★◆。
科学家对学术内容质量和价值的判断■■★★★■,是目前人工智能、文献检索无法替代的。这是因为机器理解的是规则,但无法理解价值和意义本身。
用人工智能自动扫描并总结这些研究成果★◆■★,可以帮助读者加快对某一特定研究领域的文献消化过程,而不是阅读数百篇已发表的文章。这样他们就能把由此节省下来的时间投入更重要的研究工作中■★。其实,这就是信息超载时代,人工智能提供给研究人员一个快速进入一项研究主题的解决方案■◆■★。
目前■■■,该书以电子版的形式发布在Springer Link上,供读者免费下载。施普林格计划在未来利用该算法出版更多针对不同科研领域的书籍。
还有,大量论文的产出也伴随着许多重复性的、灌水的内容。他也因此认为,提供基于专业学者判断和评价的综合信息服务是很重要的★◆★★■。
正如施普林格自己所承认的,让人遗憾的是◆★★★,该书的语法和句法都还有些拙劣★■■◆。不过,想要让AI在学术界真正“有所作为”,还在于它能否提供基于正确科学判断的、有价值的信息■■★★★。
简单说,Beta Writer所完成的工作就是用基于相似性的聚类程序将源文档排列成连贯的章节★■,然后再创建出简洁的论文摘要集。内容包括有关正极和负极材料以及分离器、聚合物电解质■◆◆、热行为和建模等方面的最新研究信息■■◆★。
学术文章是以科学性为生命的。可见,AI 想要作为“科学作者”的身份展示某一研究领域的“真面目”◆■■★,还有很长的学习之路要走。
之所以要在锂电池领域出版一本研究综述书,施普林格自然产品数据和元数据管理总监亨宁什恩伯格在本书的◆★■“前言”中这样解释:仅过去三年,就有超过5.3万篇有关锂电池的论文发表,这对想了解这一领域最新研究进展的科学家★■、技术人员来说是个巨大的挑战。