? 主成分分析:在降维思想指导下产生的一种有效处理高维数据的方法。在实际问题研究中,往往会涉及众多相关的变量。虽然所涉及的每个变量都提供了一定的信息,但其重要性不同,且在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在
一定程度上有所重叠。信息的重叠越大,变量间的相关性也越大。如何对这些变量加以“改造”,用为数较少的、互不相关的、不可直接测量的新变量来反映原变量所提供的绝大部分信息,并通过对新变量的分析达到解决问题的目的,是基于主成分的因子分析法核心思想。
? 实践中,反映某个问题的可直接测量的变量很多(例如国家信息化测评指标),并且这些变量之间存在相关性。因此,该方法的应用极其广泛。
? 在分析过程中,选取m(m
? 聚类分析:聚类是把一组个体按照相似性归成若干个类别,即物以类聚。其目的是使得属于同一类别的个体之间的距离尽可能地小,而不同类别上的个体间的距离尽可能地大。
? 基本思想:在样品之间定义距离,在变量之间定义相似系数。距离或相似系数代表样品或变量之间的相似程度。
? 例如,在分层聚类中,按相似程度的大小,将样品或变量逐一归类,关系密切的样品或变量聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的样品或变量聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲疏关系的谱系图,再对谱系图进行分析,并按照要求对样品或变量进行分类。 例:利用SPSS对表中显示的某年度20个代表性地区农村居民家庭平均
每人生活消费现金支出情况进行聚类。
? 谱系图
? (六)数据仓库和数据挖掘
数据仓库是“一个面向主题的、集成的随时间变化的非易失性数据的集
合,用于支持管理层的决策过程。
? 联机分析处理:一种在线的验证型工具,它建立在多维视图的基础上,根据已有的模式将直接源自数据仓库的不同信息源的大量相关信息联系起来,给分析人员一个清晰、一致的视图。
? 数据挖掘:一种以预测为目标的挖掘型工具,它建立在各种信息源的基础上,重在发现隐藏在大量原始信息深层次中的对人们有用的模式。被抽取的模式即知识,具备可信、新颖、有效、易于理解的特点,是知识发现的重要途径。 4.4 信息分析的内容
? (一)科学技术信息分析
? 例:我国《国家中长期科学和技术发展规划的制定
? 要不要制定规划、什么时间制定合 适、怎样制定等问题,以及规划要包括哪些内容等都是在进行了充分研究论证的基础上开展 的。关于规划的内容,科技部根据党中央和国务院的决定,列出20个重大研究专题,分别成立了20个战略研究专题研究组,组织了2000余名来自科技界、社科界、企业界和管理界的专家, 进行重大问题的战略性研究。战略研究成果又通过中国科学院、中国工程院和社会科学院“三 院”进行咨询。在充分调查研究、反复论证的基础上,根据专家对未来世界科技发展态势的研 究预测,以及对我国的具体国情的准确判断制定并发布了《国家中长期科学和技术发展规划
(2006- 2020)。
? 中国科学技术信息研究所为《规划》的制定提供了重要的参考依据。中信所的信息分析人员对我国历次科学技术发展规划进行了系统梳理与研究,同时搜集、翻译并整理了美国、俄罗斯、日本、 韩国、印度等国家的科技计划、规划、政策等情况,为《规划》的制定提供了大量参阅资料和研究成果。同时,他们还研究了国外政府在促进创新方面的政策、措施以及具体做法,为《规划》配套政策的制定提供了重要参考,获得了科技部领导的好评。 ? (二)技术经济信息分析
? 例:为重大工程项目立项提供决策支持
? 大型工程和建设项目有3个突出的特点:一是规模大、投资多、时间长;二是涉及的学科专业和技术门类多;三是对国民经济和生态环境的影响深远。因此,凡属这一类的项目,在破土动工前,一定要对它的必要性和可行性进行充分的技术经济论证。在施工过程中,要广泛吸收国外成功的经验和失败的教训,采用合理的设计和先进的技术,以避免人力、物力和时间上的浪费。信息分析对大型工程和建设项目的选址、选择施工方案和技术路线等决策有着重要的作用。
? 提供与决策目标有关的丰富准确的成果资料,是科学决策的重要依据。世界各国在大型建设项目上的决策失误,究其根源,往往是成果资料不完备或不准确所致。像三峡工程这样超世界型的综合利用水利工程·在决策时,更需要丰富而准确的地质、地震、水文、泥沙、防洪、电 力系统、航运、施工、机电设备、移民、生态与环境、投资估算和综合经济评价等方面的资料和研究成果,否则,决策就缺乏坚实的基础 。
? 三峡工程需要关注的问题,如:每年的进库泥沙、工程淹没范围、迁移多少人口、对生态环境的影响、对三峡自然景观和人文景观的影响、国家财力和物力承受程度、投入产出比、资金预算分配、对国民经济的积极影响、会不会造成通货膨胀、国际影响、对库区下游的影响、受袭破坏时的人防安全等。
? 在三峡工程中,专业化的信息机构也做了大量的工作。例如,中国科学院武汉情报中心曾搜集、编译、汇编相关数据,为三峡工程和长江流域生态环境监测和建设服务。这些数据内容涉及:国外大型水坝在建设过程中的水环境变化及其它生态影响、大坝建成后的管理应注意的问题以及国外大型水坝建设与管理过程中值得借鉴的经验和教训。
? (三)市场信息分析
? 如:1985年5月,美国可口可乐公司在没有掌握顾客信息需求的情况下断然推出用新配方生产的低糖芳香型可口可乐。由于味不对口,该产品问世后一直滞销,给该公司造成了巨大的经济损失,并迫使其不得不于当年7月10 日宣布恢复老配方生产可口可乐。这一