SMO算法与决策树算法在医疗科技应用中的对比研究 - 传媒与出版

0　引言

人工智能（Artificial Intelligence，AI），是融合了计算机科学、统计学、语言学和脑神经学等多方面学科知识的前沿综合性学科，在医疗科技中的应用范畴包括医疗机器人、智能药物研发、智能诊疗、智能影像识别和健康管理等，在这几种范畴中不可缺少的是对于数据的精准运算和智能分析。对于这种高精准度和针对性的计算，人工智能算法中的SMO算法和决策树算法可以算得上是较为简易准确的，因此近些年来SMO算法和决策树算法在医疗科技中的应用也逐渐增多。SMO算法属于支持向量机的序列最小优化算法，是从线性可分情况下的最优分类面发展而来的，把低维线性不可分的数据通过核函数映射到高维空间。决策树算法是一种运用树型结构进行决策推断的智能算法，决策树算法中每个内部节点代表对某一属性的一次测试，该种算法是在统计学理论的基础上的机器学习方法。为探究SMO算法与决策树算法在医疗科技中的应用，本文将SMO算法与决策树算法运用于乳腺癌和心脏病数据分析，进而探讨这两种算法的利与弊，为医疗科技的进一步发展提供参考。

1　人工智能算法理论基础

1.1　SMO算法

SMO算法于1988年由Platt提出，属于分解算法中的特例，是支持向量机算法（SVM）的改进算法。SMO算法由多个简单操作的迭代组成，每个迭代仅优化2个点的最小子集，并采用解析方式进行求解，实现了算法速度上质的飞跃。SMO算法在操作过程中虽然需要很多迭代，但每个迭代的操作都需要很少的步骤并且不需要存贮核矩阵就能实现。此外，SMO算法在实现过程中所需的计算机内存储量与训练样本数量成正比。因此，SMO算法在原来传统的支持向量机的基础上在确保精准度的同时，也实现了速度以及样本数量性的提升。

1.2　决策树算法

决策树算法是最经典的数据挖掘算法之一，是通过自上而下、条理清晰的过程对数据进行分类和归纳学习的算法。通俗地讲，构造决策树的目的是根据训练样本中输入变量建立一个相适应的树形模型，进而预测输出变量的值。决策树算法中的典型算法是J48决策树算法，是在ID3基础上进行改进的算法。ID3算法是把信息增益作为测试属性的标准，即树节点的选择策略。但由于计算时公式复杂、计算量大等问题，J48正式被研发出来。J48决策树算法操作过程中从根节点开始，从每个非叶节点中挑选相应的样本集来进行测试，根据测试结果选出该节点的决策属性。在决策树的生成中，测试属性的选择和如何划分本集是其中的重要环节，测试属性选择标准的不同在于决策树算法之间的根本差异。

2　SMO算法与J48算法在医疗科技中的实证研究

2.1　SMO算法与J48算法在乳腺癌中的应用

本文通过应用中国科学院软件研究所软件工程技术中心weka软件对SMO与J48决策树算法进行实现。首先，打开weka软件，页面中会出现多个选项，点击选择“Eexplorer”，进入界面；其次，在主页面中的“Preprocess”选项卡中点击“Open file”选择相应的乳腺癌数据集，紧接着点击“Edit”查看数据文字版；然后，在主页面中点击“Classify”选项卡进入分类页面，进而选择SMO与J48决策树算法进行探索研究，并记录相应的实验数据。为探究算法参数对数据结果的影响，文中修改参数再次进行实验并记录数据，应用以上算法并重复以上步骤进行实验并记录数据。SMO算法与J48决策树算法在乳腺癌中的应用对比结果见表1。

表1　SMO算法与J48决策树算法在乳腺癌中的应用对比结果表

算法	SMO算法（参数改变前）	SMO算法（参数改变后）	决策树J48算法（参数改变前）	决策树J48算法（参数改变后）
训练耗时/s	0.28	0.07	0.05	0.06
此时参数	惩罚系数：1.0；核函数：PolyKernel-E 1.0-C250007	惩罚系数：1.5；核函数：PolyKernel-E 1.0-C250007	置信系数：0.25；最少对象数目：2	置信系数：0.50；最少对象数目：2
不复发召回率	0.851	0.851	0.960	0.915
复发召回率	0.392	0.294	0.271	0.306
平均召回率	0.696	0.685	0.713	0.734
准确率（%）	69.58	68.53	75.52	73.42

2.2　SMO算法与J48算法在心脏病中的应用

同理，上述SMO算法与J48决策树算法在乳腺癌中的应用步骤，SMO算法与J48算法在心脏病中的应用对比结果见表2。

表2　SMO算法与J48决策树算法在心脏病中的应用对比结果表

算法	SMO算法（参数改变前）	SMO算法（参数改变后）	决策树J48算法（参数改变前）	决策树J48算法（参数改变后）
训练耗时/s	0.09	0.06	0.05	0.05
此时参数	惩罚系数：1.0；核函数：PolyKernel-E 1.0-C250007	惩罚系数：1.5；核函数：PolyKernel-E 1.0-C250007	置信系数：0.25；最少对象数目：2	置信系数：0.50；最少对象数目：2
不复发召回率	0.902	0.890	0.799	0.799
复发召回率	0.791	0.784	0.719	0.719
平均召回率	0.851	0.842	0.762	0.762
准确率（%）	85.15	84.16	76.24	76.24

2.3　SMO算法与J48算法在医疗科技中的对比分析

由表1和表2可知，改变参数基本会改变SMO算法与决策树算法的数据结果，但在心脏病应用中，改变决策树J48算法的参数并未改变相应结果。此外，在乳腺癌的数据计算中，对于平均召回率和准确率来说，J48都明显高于SMO；在心脏病的数据计算中，对于平均召回率和准确率来说，SMO都明显高于J48。因此，在实际医疗科技应用中应根据具体实际情况进行人工智能算法的选择，以更好地服务于医疗科技者。

3　结论

从乳腺癌和心脏病的数据可知，一般的参数对于准确率、复发召回率和不复发召回率没有太大的影响，大多是影响了训练耗时，系统初始参数所训练的耗时基本都比改过后参数所运行的训练时间要长，所以可以得出结论：参数变化对于概率上基本没有太大影响，改参数的项目越多，所运行的时间越少，参数对于输出数值仍有一定的意义与影响。

在科技迅速发展的今天，相信在不久的将来，先进的科学技术尤其是人工智能与产业技术的发展，将会更好地服务人类，造福全世界。

参考文献

[1]杨杰，叶晨洲，全勇，等．支撑向量机回归的简化SMO算法[J]．红外与激光工程，2004，33（5）：533-537.

[2]杨丽华，李保林．SMO算法在邮件过滤中的应用[J]．湖北汽车工业学院学报，2009，23（1）：50-54.

[3]程克非，程蕾，黄永东．基于J48决策树算法的水质评价方法[J]．计算机工程，2012，38（11）：264-267.

[4]黄文，王正林．数据挖掘：R语言实战[M]．北京：电子工业出版社，2014.

（北京市延庆区第一中学）