在科技与文化深度融合的背景下,出版机构作为中国文化产业的主力军,以科技创新来支撑和促进出版产业的快速健康发展已成必然趋势。教育出版机构在教育领域以在线教育为主阵地开疆拓土的过程,实际上就是采用新技术不断提升自身竞争力的进化历程。
1 教育出版机构应用新技术拓展在线教育的必要性
自20世纪90年代末,在线教育发展至今,已有20余年。科技促进了在线教育的高速发展,新技术对教育出版产业的主要冲击就是教育出版业不再单纯地以纸质教材为主要教育产品形态,而是在新技术的影响下,呈现多种产品形态,进而催生出不同商业模式并存的商业格局。在这种商业格局下,在线教育成为了教育出版机构拓展未来发展空间的主要阵地,而由此出现了在线教育外在的发展模式迫使教育出版机构自适应,同时教育出版机构自身的内容资源与在线教育对接的内在障碍都无形中促使教育出版机构采用新技术来改变现状,突破局限。
1.1在线教育发展模式的进化带来的外在压力
在线教育的发展模式,已经从最初的数字内容资源的汇集模式,发展到以知识点为核心的资源拓展模式。教育出版机构原来将社内存量的数字教材简单地汇集入在线教育平台的方式,已经不再适应在线教育现有的发展模式,这迫使教育出版机构将存量数字教材尽快融入到目前的在线教育发展模式中来。而目前在线教育这种以知识点为核心的资源拓展模式,实际上就是以教学大纲或者纸质教材为蓝本的知识点构建模式,这种知识点构建模式,实际上就是数字教材呈现方式的改变。这种呈现方式的改变是在数字教材现有基础之上,以教学大纲为大框架,按照相应的框架纲领内容要求,提炼相应的知识点补充进框架纲领中,进而为线上教学提供一种以知识点为核心拓展的电子框架形式,这种电子框架形式简单地称之为电子课件。
教育出版机构为了适应目前在线教育的发展模式,需要积极寻求一种技术实现手段,使现存的数字教材能自动地转换成所需的电子课件,以达到与在线教育快速融合的目的。
1.2数字教材与电子课件对接的内在障碍
目前,教育出版机构的数字内容资源整体是以数字教材的形式存在,直接将不同版本的纸质教材通过技术加工生成。数字教材作为出版、教育和技术三者结合的产物,从数字教材本身的知识点的逻辑顺序来看,是符合知识教授的内在规律的,但教学是有进程的,这个进程就是要对数字教材的知识点进行提取,并分阶段教授。而从线上教学实际来看,教师并不是简单地复用数字教材,教师通过对数字教材的纲领框架和知识点进行提取,并按照教学进程分阶段生成相关的电子课件,进而用电子课件来引导学生学习以及传授知识点。
由于数字教材和电子课件二者的存在形式和内容呈现方式有较大的差别,要实现数字教材和电子课件的无缝对接,就要从新技术应用的角度,找到数字教材转换成电子课件的技术实现手段,方便教师能快速实现数字教材向电子课件转换的智能提取,才能推动基于数字教材开展线上教学的大规模应用。
无论是在线教育发展模式的进化,还是教育出版机构自身内容资源对接障碍的需要,都使得教育出版机构要找到一种实现数字教材转换电子课件的提取方法。
本文是在国家重大工程-国家数字复合出版工程研发基础之上,将基于全信息自然语言理解的文本过滤技术应用在教育出版领域,创新性地提出一套关于数字教材转换电子课件的智能提取方法。
2 数字教材转换电子课件的智能提取方法的实例分析
2.1数字教材转换电子课件的智能提取方法的应用原理
数字教材转换电子课件的智能提取方法是在全信息自然语言处理基础之上,通过文本过滤技术实现数字教材转换电子课件的智能提取。原理为在全信息自然语言知识库的基础上,构建全信息自然语言理解处理模型,用以描述和定量全信息,结合统计和规则两种处理方式,基于全信息自然语言理解的文本过滤技术,实现对数字教材转换成电子课件的框架和知识点提取,对电子课件的输出格式进行参数设置,输出基于数字教材转换电子课件的实验结果。数字教材转换电子课件的智能提取方法的基本原理如图1所示。
图1 数字教材转换电子课件的智能提取方法的基本原理图
2.2数字教材转换电子课件的智能提取方法的具体实例分析
为了具体展现和阐述实验方法,本文选取了华中科技大学出版社2018年10月出版的《机电传动与控制技术》一书,以书中的第二章2.1节文本内容作为实验对象,为了聚焦实验研究,本文明确以Word文本格式作为输入,以PPT电子课件格式作为输出结果。
2.2.1电子课件智能提取的准备工作
根据实验所选取的文本内容实验对象,首先需要针对电动机专业领域构建知识库,这个知识库是整个自然语言理解模型处理的基础,表示和贮存从自然语言序列中提取出来的关于电动机的语法、语义和语用信息。知识库的构建其实是为语法分析、语义分析、语用分析奠定必要的语言知识,主要包括但不限于语法-语义-语用知识,词性、词义、词类、词法结构、词频含义的不同区分规则、短语搭配、逻辑知识等,并通过机器学习训练来维护和扩展知识库。其中基于全信息知识库的处理模型,采用的是定量分析方法,用以描述和度量全信息。本实验设定事物X的运动状态集合为{X1,X2,X3,…,Xn},相应语法信息参量为{G1,G2,…,Gn}、相应语义信息参量为{S1,S2,…,Sn}以及相应语用信息参量为{P1,P2,…,Pn},由此构建全信息自然语言处理模型如图2所示。经过全信息自然语言理解处理分析,机器对实验对象的文本内容做了智能处理,相当于回答了关于以电动机控制技术为主题的定义、含义以及效用等。机器对文本进行基本的智能梳理,为随后数字教材转换电子课件奠定了认识基础。
图2 全信息自然语言处理模型图
2.2.2电子课件智能提取的实现步骤
机器经过全信息自然语言理解对实验文本的原始数据处理后,以获得待过滤的文本表示,为后期实现电子课件框架提取和电子课件知识点提取做准备。
(1)电子课件的框架提取本文对待过滤文本的电子课件框架的提取,采用的是特征匹配与过滤模型的实验手段。通过文本特征匹配进行相似度计算,通过机器学习过程不断训练过滤模型,以人为干预的模式进行监督不断优化。
首先要确定过滤特征。根据待过滤文本情况,实验指定以数字标识的章节关键句词为首位特征,以“句号”或者“无标点符号”为末位特征作为过滤特征进行输入。
其次进行特征比对匹配。在确定过滤特征后,需要对指定的文本特征与待过滤文本的文本特征进行比对匹配。为了方便计算机处理,系统对文本的特征提取和比对做了量化处理,设定指定的文本特征集合为向量A,通过特征过滤后的文本特征集合为向量B,通过计算余弦值大小来衡量两个文本间的相似度,余弦值越接近1,夹角便越接近0,两个文本越相似。其计算公式为:
为了更精准地提取指定文本特征相似性较高的文本信息,实验设置了检验计算的阈值为[0.5,1],余弦值在[0.5,1]之间,则比对过的文本信息可进入目标序列。
最后根据匹配结果生成电子课件框架。经过特征比对匹配后,进入目标序列的文本信息,按照文本过滤的先后顺序进行排列,将匹配结果反馈给系统,得到要提取的电子课件框架如图3所示。
图3 电子课件框架提取结果图
(2)电子课件的知识点提取提取电子课件的框架后,需要对电子课件的知识点进行提取,采用的是在全信息自然语言理解对文本的分层处理基础上,结合文本过滤技术,实现对已过滤掉的文本进行知识点提取。实际上就是对已过滤掉的文本进行细化处理。其电子课件知识点提取流程如图4所示。
根据图4可知,本文结合全信息自然语言理解,将已过滤掉的文本做语法层面的分析,设定相应的过滤特征进行文本处理,得到处理结果节点S1。然后将分析处理结果节点S1进行语义层面分析,设定相应的过滤特征进行文本处理,得到处理结果节点S2。再将分析处理结果节点S2进行语用层面分析,设定相应的过滤特征进行文本处理,得到处理结果节点S3。将分析处理结果节点S3反馈到全信息知识库,进行优化处理,将优化后的处理结果进行输出,作为电子课件相应知识点进行提取。
图4 电子课件知识点提取流程图
根据前文对数字教材转换电子课件的智能提取方法的实例分析,本文梳理了基于数字教材(Word格式)转换电子课件(PPT格式)的智能提取方法,对提取模型和实验步骤做了详细的介绍和阐述。本文所选取的实验文本遵循文中所述的实验提取方法,得到了实验文本转换电子课件所需的类目框架和知识点。系统根据文本输出格式(PPT格式)的要求,设置文本输出的相关参数,比如字体大小、形态、颜色以及版面格式,得到输出的电子课件结果。
3 结语
本文基于全信息自然语言理解的文本过滤技术在教育出版领域的应用研究,提出了一种数字教材转换电子课件的智能提取方法。以华中科技大学出版社2018年10月出版的《机电传动与控制技术》一书的第二章2.1节文本内容作为具体的实验对象,遵照实验方法的基本原理和实验步骤,获取了实验预期结果,证明了本文所提出的基于实验文本对象的一种数字教材转换电子课件的智能提取方法在教育出版领域应用的可行性。
这种智能提取方法的可行性实验的成功,对教育出版机构适应和拓展目前在线教育的发展模式是非常有价值的,同时对以内容资产为核心的出版业推进科技创新、实现生产模式的智能化也有极大的借鉴意义。未来在线教育会呈现大规模增长的趋势,教育出版机构在传统业务模式的发展前提下,必然会推进与在线教育融合的效率和质量,电子课件的智能提取方法作为解决数字教材与电子课件对接障碍的技术实现手段,满足了目前教育出版机构融入在线教育发展模式的迫切需求。未来教育出版机构在现有的电子课件智能提取方法的基础上,将会围绕线上教学,开展更为深入的技术研究,这种技术研究的核心仍然将会是以知识点为核心的教学资源的快速呈现方式和智能实现手段。
同时,由于实验所选取的实验文本对象具体明确,是围绕“电动机控制”为主题进行的专业知识库的建设,实验文本的专业知识库无法覆盖教育出版其他千差万别的教材专业主题;同时实验文本选取的数据偏小,实验数据还无法支撑大规模的商业推广。因此本文所提出的实验方法以及实验所得到的实验数据,仅作为新技术在教育出版应用研究的参考。相信随着新技术的快速发展,出版产业将在新技术的推动下,会更高效地融入到时代的发展进程中去,而未来出版产业的智能化必将可期可待。
作者:韩钦 (中南出版传媒集团-天闻数媒科技(北京)有限公司)
本文刊发于《中国高新科技》杂志2020年第24期
(转载请注明来源)