云计算与分布式系统期末复习
1.云计算的概念,来源以及与并行计算的关系
云计算的概念从集群、网格和效用计算发展而来。
云是虚拟计算机资源池。云可以处理各种不同的负载,包括批处理式后端作业和交互式用户界面应用。云通过迅速提供虚拟机或物理机允许负载被快速配置和划分。云支持冗余,自恢复,高可扩展编程模型,以允许负载从许多不可避免的硬件/软件错误中恢复。最终,云计算系统可以通过实时监视资源来确保分配在需要时平衡。 来源:数据爆炸促发了云计算的思想。
集群和网格计算并行使用大量计算机可以解决任何规模的问题。效用计算和SaaS(Softwareas a Service)将计算资源作为服务进行按需付费。云计算利用动态资源为终端用户传递大量服务。
云计算是一种高吞吐量计算范式,它通过大的数据中心或服务器
群提供服务。云计算模型使得用户可以随时随地通过他们的互连设备访问共享资源。
云计算避免了大量的数据移动,可以带来更好的网络带宽利用率。而且,机器虚拟化进一步提高了资源利用率,增加了应用程序灵活性降 低了使用虚拟化数据中心资源的总体成本。
云计算使用虚拟化平台,通过按需动态配置硬件、软件和数据集,将弹性资源放在一起,主要思想是使用数据中心中的服务器集群和大规模数据库,将桌面计算移向基于服务的平台,利用其对提供商和用户的低成本和简单性。
云应用的所有计算任务被分配到数据中心的服务器上。这些服务器主
要是虚拟集群的虚拟机,由数据中心资源产生出来。
云平台是通过虚拟化分布的系统。 公有云和私有云都是在互联网上开发的。
公有云构建在互联网之上,任何已付费的用户都可以访问。公有云属于服务
提供商,用户通过订阅即可访问。
私有云构建在局域网内部,属于一个独立的组织。由客户管理,而且其可访
问范围限制在所属客户及其合作者之中。 混合云由公有云和私有云共同构成
公有云促进了标准化,节约了资金投入,为应用程序提供了很好的灵活性;私有云尝试进行定制化,可以提供更高的有效性、弹性、安全性和隐私性;混合云则处于两者中间,在资源共享方面进行了折中。
云的核心是服务器集群(或虚拟机集群)。集群节点用作计算节点,少量的
控制节点用于管理和监视云活动。用户作业的调度需要为用户创建的虚拟集群分配任务。
数据中心和超级计算机在网络需求方面也不相同。超级计算机使用客户设计
的高带宽网络,如胖树或3D环形网络;数据中心网络主要是基于IP的商业网络
云平台设计目标: 可扩展性、虚拟化、有效性和可靠性
2.云平台提供的服务类型
6层的云服务,范围从硬件、网络和配置到基础设施、平台和软件应用
上三层
Iaas(基础设施即服务)Paas(平台即服务) Saas(软件即服务) 硬件即服务(HaaS) 网络即服务(NaaS ) 位置即服务(配置即服务)(LaaS)。
数据中心的虚拟化资源形成互联网云,向付费用户提供硬件,软件,存储,网络和服务以运行他们的应用。
云计算提供了一个虚拟化的按需动态供应硬件,软件和数据集的弹性资源平台.
①基础设施即服务(IaaS):这个模型将用户需要的基础设施(即服务器,存储,网络和数据中心构造)组合在一起。用户可以在使用客户机操作系统的多个虚拟机上配置和运行指定的应用。
②平台即服务(PaaS):这个模型使用户能够在一个虚拟的平台上配置用户制定的应用。PaaS包括中间件,数据库,开发工具和一些运行时支持(如Web 2.0和Java)。
3.软件即服务(SaaS):这是指面向数千付费云用户的初始浏览器的应用软件。SaaS模型应用于业务流程,工业应用,客户关系管理,企业资源计划,人力资源和合作应用。
3.Google的核心技术(……包括默认文件??大小)
谷歌的云计算应用程序的构成要素包括存储大量数据的GFS、为应用程序开发者提供的MapReduce编程框架、用于分布式应用程序锁服务的Chubby和为访问结构化或半结构化数据的BigTable存储服务。
Google MapReduce(Map:对一组数据元素进行某种重复式的处理,Reduce:对Map中间结果进行某种进一步的结果整理)(MapReduce把what need to do 与how to do 分开了)
(设计思想:scale out not up,assume failures are common,moving processing to data,process data sequentially and avoid random access)上升到架构:统一架构,为程序员隐藏系统层细节。
Google GFS google gfs 是一个基于分布式集群的大型分布式文件系统,为MapReduce计算框架提供底层数据存储和数据可靠性支撑。
Master 上保存了GFS文件系统的三种元数据:①命名空间,即整个分布式文件系统的目录结构。②Chunk 与文件名的映射表 3.Chunk副本的位置信息,每个Chunk 默认有3个副本。
GFS中每个数据块划分缺省为64MB。每个数据块会分别在3个不同的地方复制副本;每一个数据块,仅当3个副本都成功时,才认为数据保存成功。每个数据块再划分为64KB的子块,每个子块有一个32位的校验和。
BigTable:GFS是一个文件系统,难以提供对结构化数据的存储和访问管理。为此Google在GFS之上又设计了一个结构化数据存储和访问管理系统-----BigTable,为应用程序提供比单纯文件系统更方便,更高层的数据操作能力。 BigTable对存储在表中的数据不做任何解释,一律视为字符串,具体数据结构的实现由用户自行定义。
BigTable查询模型(row:string,column:string,time:int64)->结果数据字符串。支持查询,插入和删除操作。
4.怎样分析与计算系统的可用性
可用性表示系统对用户可用的时间百分比,即系统正常运行的时间百分比。 可用性分析:
HA(high accessibility)是所有集群,网络,P2P网络和云计算系统所期望的。如