龙源期刊网 http://www.qikan.com.cn
大数据环境下电子数据取证技术研究
作者:刘志军 王宁
来源:《科技视界》2019年第36期
【摘 要】大数据时代的到来,电子数据取证对象由独立物理实体转换为云端应用、虚拟主机、IOT等,其给电子数据取证带来了极大的挑战。文章首先阐述了电子数据取证的概念和历史发展;然后分析了大数据环境下电子数据取证面临的挑战,并结合大数据的特点以及电子数据取证特点,探讨了大数据环境下开展电子数据取证技术研究的若干建议。 【关键字】大数据;电子数据;云计算;计算机取证
中图分类号: D63 文献标识码: A 文章编号: 2095-2457(2019)36-0024-003 DOI:10.19694/j.cnki.issn2095-2457.2019.36.011 1 电子数据取证概述
从取证技术的发展来看,有计算机取证技术(ComputerForensic)、数字取证技术(Digital Forensics)、电子取证技术(Electric Forensics)、网络取证技术(Network
Forensics)、计算机网络取证技术(Computer Network Forensics)、Internet取证技术(Internet Forensics)、云取证技术(Cloud Forensics)等术语,其定义的角度各不相同。
2013年修订后的《刑事诉讼法》第48条首次将电子数据纳入法定证据,其后修订的《民事诉讼法》、《行政诉讼法》也依次将电子数据作为独立的证据形态,于是电子数据取证就成了当前学术界和司法实务部门普遍接受和高频使用的技术性名词。何谓电子数据取证呢,通俗点讲,电子数据取证可以看作是使用合法、合理、规范的技术或手段,从计算机或其他数字设备进行电子数据的获取、保存、分析和出示。
电子数据取证成立于20世纪70年代,其发展阶段可以分为:婴儿期(1985-1995年),儿童期(1995-2005年),青春期(2005-2010年),新时期(2010—现在)。在婴儿期阶段,随着个人电脑的普及和Internet网的出现带来了大量的计算机犯罪,在此阶段参与取证的人员缺乏比较系统的专业取证工具,多是自行开发取证工具并经验性地开展取证工作,取证目标主要是大型机、个人计算机、公司的数据记录和计算机辅助欺诈。与此同时,针对参与取证的人
龙源期刊网 http://www.qikan.com.cn
所涉及的专业训练较少等问题,诸如计算机调查专家国际协会(ICAIS)、国际计算机证据组织(IOCE)、美国国防计算机取证实验室(DCFL)、计算机技术专家取证协会(FACT)、在英国警察协会(ACPO)主持下的取证计算组织(FCG)、高科技犯罪调查协会等机构和组织相继成立,为取证从业人员提供经验分享、职业技能培训等[1]。
在儿童期阶段,技术爆炸和internet网的普及应用以及随之而来的犯罪高速发展,取证目标从独立的个人计算机扩大到网络入侵、数据解密等专业化领域,电子数据取证也开始成为专业技术领域,取证工具出现了基于Windows界面取证工具,如Expert Witness、Encase、FTK、iLook、ACES等,基于Linux取证工具,如TSK、SMART、HELEX等,与此同时网络取证技术研究和内存取证的技术研究得到了发展。
在青春期,取证目标更加多样化,取证的对象不仅包括文件系统、网络、也包括手机、MP3、PDA、以及网络社交系统、手机游戏平台、电子邮件、商业业务记录系统等。新时期阶段,云计算、大数据和物联网等为代表的新一代技术扩大了取证对象。许多国家在立法上强调网络隐私的保护,学术界也进行了积极的响应,如相关学术课程的不断涌现,关于电子数据取证技术研究的行业会议不断举办等。 2 大数据环境对电子数据取证的挑战 2.1 大数据环境下电子数据取证框架 图1 大数据环境下的电子数据取证框架
根据数据处理领域和应用场景的不同,大数据处理框架有传统大数据架构、流式架构、Lambda架构、Kappa架构、Unifield架构之分。从管理层次来看,大数据分为存储层、处理层和应用层,其中处理层是对存储层的数据进行数据采集、数据处理、数据分析和数据访问,大数据系统可以看作是在现有主流操作系统环境内,与虚拟化技术相结合的一个数据处理集群,给不同用户提供决策等支持服务的数据系统[2]。基于此,大数据环境下的电子数据取证可以分为应用层取证、系统层取证和物理资源层取证,如图1所示。 2.2 大数据环境下电子数据取证的挑战
计算机、手机、如移动硬盘、U盘、存储卡等移动存储介质一般都是传统电子数据取证对象。在大数据环境下,电子数据取证对象包括云客户端操作、云备份、大数据系统本身、客户端虚拟主机、大数据宿主计算机等,取证对象和取证目标的变化也为电子数据取证带来极大的挑战。从图1的大数据环境下电子数据取证层次框架看,大数据环境下电子数据取证面临着许多挑战,包括但不限于:
2.2.1 应用层取证中面临取证对象的定位和提取难
龙源期刊网 http://www.qikan.com.cn
大数据环境下,很多记录着涉网的操作行为数据从终端设备向云端迁移,例如,涉案人员登陆云端并進行数据操作,或者将数据存储在云端或者网盘中。大数据环境下,用户使用互联网载体习惯也在改变,例如,涉案人员将手机中的聊天信息、图片等数据通过云存储方式备份到网络上等。在应用层取证中,电子数据取证对象也转换为基于大数据架构的各种网盘、云存储和云端操作系统等。
网盘技术、云存储技术是基于虚拟化的,数据存储于不同的数据中心,甚至跨司法管辖范围,在应用层取证中要定位数据和提取电子数据较为困难,电子数据取证调查人员一般需要云服务提供商协助,否则其难以定位到具体物理机器进行取证。在云环境下,由于用户着共享云基础设施或应用,数据存在着混杂存储状况,分离用户数据困难,在收集证据时可能会掺杂无关用户的数据,如何保障无关用户数据的机密性,如何在电子数据提取中仅提取用于事件重构的数据对于电子数据取证人员是一个挑战。 2.2.2 系统层取证中面临数据分析的困难
系统层取证的取证对象主要有系统访问日志、大数据分布式文件系统等。日志是系统层取证中最重要的证据来源之一,但是云服务提供商提供的日志文件数据格式不同,也缺乏统一的日志文件数据格式规范。现有的日志通常也是多用戶数据混杂,包含大量与取证无关的冗余或敏感信息[3]。
大数据分布式文件系统中如一些DFS、 HDFS将分割后的块文件以数据块编号命名,仅从文件名是无法判断文件的类型和归属关系,这就为电子数据取证人员追溯涉案人员与案件的分析判定带来困扰。其次,结构化数据、半结构化数据和非结构化数据并存,有些云计算有着自身特有的数据格式;再次是数据体量大,电子数据取证的数据体量常达到10TB 甚至PB级别,对于传统的电子数据取证分析而言,势必成为不可能完成的任务。 2.2.3 物理资源层取证面临取证对象多样化
大数据时代,一方面随着用户使用互联网载体习惯的改变,取证对象由计算机系统延伸到云端、智能手机、可穿戴设备等多终端设备。另一方面大数据、云计算、嵌入式技术以及传感器技术的发展,IoT中如红外感应器、全球定位系统、射频识别装置等各种信息传感设备,暗网,智能汽车以及其他智能设备的种类和数量不断增多,由于其含有丰富的电子数据,也不断出现新的取证需求。
现有的取证工具产品能较好地提取和分析宿主计算机上残留的用户session、cookie、下载历史、浏览历史、缓存数据等;也能较好地提取移动设备如手机中删除的通信录、短信、SIM卡信息、图片、Webchat和QQ等聊天信息等;甚至提取和分析一些可穿戴电子设备中的电子数据。但是面对无所不在的各类物联网传感器,汽车、摄像头、洗衣机、烤箱等在内的智能设备时,现有的取证工具产品在提取和分析其电子数据显得力不从心。其次,大数据环境中普遍使