龙源期刊网 http://www.qikan.com.cn
RBF神经网络时间序列模型在肺癌发病率预测的应用研究
作者:周怡伶 邓婕
来源:《科技创新导报》2011年第17期
摘 要:本文将神经网络与时间序列方法相结合,建立肺癌发病率的RBF神经网络时间序列组合预测模型。
关键词:BRF神经网络时间序列模型肺癌发病率预测
中图分类号:R7 文献标识码:A 文章编号:1674-098X(2011)06(b)-0008-02 1 前言
随着我国人口的持续增长和人口老龄化的加剧,加之生活方式、社会、经济、环境等影响肿瘤发病死亡的危险因素的改变,自20世纪70年代以来,我国癌症呈明显上升趋势,现已成为我国城、乡居民的首要死因,而其中肺癌的上升趋势更为明显[1]。目前,肺癌发病率的预测模型和方法主要有时间序列模型[2]、相关性分析[3]、灰色模型[4]等。由于肺癌的危险因素很多,包括吸烟、大气污染、室内微小环境的污染、职业危害(如矽肺等)、既往肺部疾病史及遗传因素等[1],这些因素相互作用,是一个复杂的非线性系统,难以用经典数学模型模拟。由于肺癌至今仍然是居民健康的重大威胁之一,建立肺癌发病率科学预测方法,是重要而且紧迫的工作。 时间序列分析是非线性动态系统建模与预测的一类重要方法,目前使用得较成熟的是Box-Jenkins模型等线性方法,但线性方法对于复杂系统往往不很有效[6]。在此背景下,人们越来越重视非线性方法及其在复杂系统模拟中的应用和研究。神经网络是一种随着计算机技术的发展而产生的智能化方法,具有可任意逼近非线性连续函数的学习能力和对杂乱信息的综合能力[7],已被广泛应用于经济[7]、水资源[8]、医疗卫生以及环境等领域。建立时间序列和神经网络的组合预测模型可以有效的反映各种因素的综合影响,组合预测理论已经证明多种模型的线性组合在一定的条件下能够有效的改善模型的拟合能力和提高预测精度。
然而,在基于时间序列的预测模型的设计和应用中,需要着重考虑两个问题。一个是用于建模时间序列要有多长?另一个是模型的有效预测期限有多长?在以往肺癌发病率的预测模型中,有关于此的研究比较少。本文将神经网络与时间序列方法相结合,建立肺癌发病率的神经网络时间序列组合预测模型,并着重探讨了建模时间序列的长度和模型预测的有效期限。旨在为肺癌发病率的科学的预测增添新方法,为肺癌防控提供科学依据。
龙源期刊网 http://www.qikan.com.cn
2 材料与方法 2.1 数据来源
本文的数据资料为江苏省启东市1972 ~2001年肺癌发病资料(粗发病率),源自公开发表的文献[2]。病例来源、人口资料及资料质量等情况可详见该文献。 2.2 原理与方法
本文基于MATLAB7.0软件平台,建立基于时间序列模型的径向基神经网络(RBF)预测模型。神经网络模型和时间序列模型的基本原理已有很多文献报道,在此不再敖述。 2.3 建模时间序列长度的优化
以1999~2001年的数据为测试样本,分别以1972~1998、1980~1998和1990~1998共三个时段的时间序列数据作为建模样本,通过比较不同时间序列长度建模条件下模型的结果,优化建模的时间序列长度。
2.4 模型有效预测期限的确定
分别以1997~2001、1998~2001、1999~2001和2000~2002年共四个时段的时间序列数据作为输出,分别以1980~1996、1980~1997、1980~1998和1980~1999年共四个时段的时间序列数据作为输入,分别预测未来1、2、3和4的肺癌发病率,通过比较模型对不同预测期限的结果,确定模型的有效预测期限。
3 结果与讨论 3.1 模型的建立
RBF神经网络在MATLAB软件平台上设计和应用,所有数据均经过归一化和反归一化转化。RBF神经网络的建立和训练十分简单,避免了BP神经网络的容易陷入过拟合、参数确定主观性强以及结果不同等诸多缺点。 3.2 建模时间序列的优化
在时间序列预测模型的建模中,尽管保证足够的时间序列长度十分必要,但是时间序列的长度并非越长越好。三个不同时间序列长度建模的预测结果见表1。1990~1998时段时间序列建模的结果最差。原因可能是该时段时间序列太短(仅9年),9年的观测难以保证未来预测值的稳定性。1972~1998时段时间序列建模的结果居中。原因可能是该时段时间序列最长(27年),涵
龙源期刊网 http://www.qikan.com.cn
盖了丰富的系统变化信息,但是由于该时段历经20世纪70、80和90三个年代,而研究区域在三个不同阶段的人口、经济和医疗卫生等发展水平差异巨大,因而在一定程度上影响了模型的模拟效果。1980~1998时段时间序列建模的结果最好。原因可能是该时段保证了足够的时间序列长度(19年),而且自改革开放以后,80年代开始,研究区域在经济社会发展水平、人口等方面稳步发展,因而模型的干扰因素的影响水平相对比较低。结果表明,对于江苏省启东市肺癌发病率的建模时间序列,从80年代算起为宜。 3.3 模型有效预测期限的确定
任何一种模型都无法保证未来无限期的预测值的稳定性,因而在建模过程中需要对模型的有效预测期限进行检验。本文对2~5年不同预测期限的预测结果表明(表2),预测未来2~3年的平均相对误差都在5%以内;预测未来4年的相对误差都在10%以内,平均5.81%;预测未来5年的相对误差范围为0.68%~11.21%。可见,本模型非常适用于肺癌发病率的短期预测,对未来2~3年的肺癌发病率的预测具有很到的精度。 4 结论
在时间序列预测模型的建模中,需要考虑研究区域在个不同阶段的人口、经济和医疗卫生等发展水平,并经过模拟和检验后优化建模时间序列长度。对于江苏省启东市肺癌发病率的建模时间序列,从80年代算起为宜。在时间序列模型的建模过程中需要对模型的有效预测期限进行检验。本模型非常适用于肺癌发病率的短期预测,对未来2~3年的肺癌发病率的预测具有很高的精度。
本文将神经网络与时间序列方法相结合,建立肺癌发病率的RBF神经网络时间序列组合预测模型。本模型充分发挥时间序列和神经网络的优势,具有很到的拟合能力和预测精度。此外,神经网络时间序列模型具有很强的动态分析能力,一旦有了新的观测值,即可不断加入建模,具有很高的适应性。本模型在应用中得到了检验,是一种强有力的肺癌发病率预测手段。 参考文献
[1] 杨玲,李连弟,陈育德,等.中国肺癌死亡趋势分析及发病、死亡的估计与预测[J].中国肺癌杂志,2005,8(4):274-278.
[2] 陈勇,陈建国,朱健,等.1972~2001年启东市肺癌发病趋势的时间序列分析及预测模型探讨[J].南京医科大学学报(自然科学版),2005,25(7):514-519.