google三篇论文发表在何处

当前大数据的数据量已达PB级别（1PB=1024TB），可以说是庞大无比。同时数据还有结构化（如数字、符号等）、非结构化（如文本、图像、声音、视频等）之分，兼具大量、复杂的特点，使得如何又快又好又便宜得进行大数据的存储，管理和处理变成一个亟待解决的问题。于是分布式计算作为一种低成本的方案被提出来了。原理就是把一组计算机通过网络相互连接组成分散系统，尽管分散系统内的单个计算机的计算能力不强，但是每个计算机只计算一部分数据，多台计算机同时计算，最后将这些计算结果合并得到最终的结果。就整个分散系统而言，处理数据的速度远高于单个计算机，且比集中式计算的大型机要划算的多。为什么是他们，这要从谷歌的三篇论文说起... 2003年到2004年间，Google发表了三篇技术论文，提出了一套分布式计算理论，分别是：但由于Google没有开源，所以其他互联网公司根据Google三篇论文中提到的原理，对照MapReduce搭建了 Hadoop ，对照GFS搭建了 HDFS ，对照BigTable搭建了 HBase. 即：而 Spark 分布式计算是在Hadoop分布式计算的基础上进行的一些架构上的改良。目前也是Hadoop生态圈的成员之一。 Spark与Hadoop最大的不同点在于，Hadoop用硬盘存储数据，而Spark用内存存储数据,所以Spark能提供超过Hadoop100倍的运算速度。但因为内存断电后会丢失数据，所以Spark不能用于处理需要长期保存的数据。 Flink是目前唯一同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架。一般需要实时处理的场景都有他的身影，比如：实时智能推荐、实时复杂事件处理、实时欺诈检测、实时数仓与ETL、实时报表分析等广义的Hadoop不再是单指一个分布式计算系统，而是一套生态系统。那么，这套生态圈是如何产生的呢？在有了Hadoop之类计算系统的基础上，人们希望用更友好的语言来做计算，于是产生了Hive、Pig、SparkSQL等。计算问题解决了，还能在什么地方进一步优化呢？于是人们想到给不同的任务分配资源，于是就有了Yarn、Oozie等。渐渐地，随着各种各样的工具出现，就慢慢演变成一个包含了文件系统、计算框架、调度系统的Hadoop大数据生态圈。附：一些其他的组件示意 Kafka：是一种高吞吐量的分布式发布订阅消息系统，它可以处理各大网站或者App中用户的动作流数据。用户行为数据是后续进行业务分析和优化的重要数据资产，这些数据通常以处理日志和日志聚合的方式解决。 Kafka集群上的消息是有时效性的，可以对发布上来的消息设置一个过期时间，不管有没有被消费，超过过期时间的消息都会被清空。例如，如果过期时间设置为一周，那么消息发布上来一周内，它们都是可以被消费的，如果过了过期时间，这条消息就会被丢弃以释放更多空间。 Oozie：是一个工作流调度系统，统一管理工作流的调度顺序、安排任务的执行时间等，用来管理Hadoop的任务。Oozie集成了Hadoop的MapReduce、Pig、Hive等协议以及Java、Shell脚本等任务，底层仍然是一个MapReduce程序。 ZooKeeper：是Hadoop和HBase的重要组件，是一个分布式开放的应用程序协调服务，主要为应用提供配置维护、域名服务、分布式同步、组服务等一致性服务。 YARN：Hadoop生态有很多工具，为了保证这些工具有序地运行在同一个集群上，需要有一个调度系统进行协调指挥，YARN就是基于此背景诞生的资源统一管理平台。

可按照时间点划分大数据的发展历程。

大数据时代发展的具体历程如下：

2005年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目，后来因其技术的高效性，被Apache Software Foundation公司引入并成为开源应用。

Hadoop本身不是一个产品，而是由多个软件产品组成的一个生态系统，这些软件产品共同实现全面功能和灵活的大数据分析。从技术上看，Hadoop由两项关键服务构成：采用Hadoop分布式文件系统（HDFS）的可靠数据存储服务，以及利用一种叫做MapReduce技术的高性能并行数据处理服务。这两项服务的共同目标是，提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。

2008年末，“大数据”得到部分美国知名计算机科学研究人员的认可，业界组织计算社区联盟 (Computing Community Consortium)，发表了一份有影响力的白皮书《大数据计算：在商务、科学和社会领域创建革命性突破》。它使人们的思维不仅局限于数据处理的机器，并提出：大数据真正重要的是新用途和新见解，而非数据本身。此组织可以说是最早提出大数据概念的机构。

2009年印度政府建立了用于身份识别管理的生物识别数据库，联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。同年，美国政府通过启动网站的方式进一步开放了数据的大门，这个网站向公众提供各种各样的政府数据。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息，这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

2009年，欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性。

2010年2月，肯尼斯库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据，无所不在的数据》。库克尔在报告中提到：“世界上有着无法想象的巨量数字信息，并以极快的速度增长。从经济界到科学界，从政府部门到艺术领域，很多方面都已经感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇：“大数据”。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。

2011年2月，IBM的沃森超级计算机每秒可扫描并分析4TB（约2亿页文字量）的数据量，并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大数据计算的胜利。” 相继在同年5月，全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院（MGI）发布了一份报告——《大数据：创新、竞争和生产力的下一个新领域》，大数据开始备受关注，这也是专业机构第一次全方面的介绍和展望大数据。报告指出，大数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。报告还提到，“大数据”源于数据生产和收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来，产生、传送、分享和访问数据的能力也得到彻底变革。

2011年12 月，工信部发布的物联网十二五规划上，把信息处理技术作为4 项关键技术创新工程之一被提出来，其中包括了海量数据存储、数据挖掘、图像视频智能分析，这都是大数据的重要组成部分。

2012年1月份，瑞士达沃斯召开的世界经济论坛上，大数据是主题之一，会上发布的报告《大数据，大影响》(Big Data, Big Impact) 宣称，数据已经成为一种新的经济资产类别，就像货币或黄金一样。

2012年3月，美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》，这一倡议标志着大数据已经成为重要的时代特征。2012年3月22日，奥巴马政府宣布2亿美元投资大数据领域，是大数据技术从商业行为上升到国家科技战略的分水岭，在次日的电话会议中，政府对数据的定义“未来的新石油”，大数据技术领域的竞争，事关国家安全和未来。并表示，国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力；国家数字主权体现对数据的占有和控制。数字主权将是继边防、海防、空防之后，另一个大国博弈的空间。

2012年4月，美国软件公司Splunk于19日在纳斯达克成功上市，成为第一家上市的大数据处理公司。鉴于美国经济持续低靡、股市持续震荡的大背景，Splunk首日的突出交易表现尤其令人们印象深刻，首日即暴涨了一倍多。Splunk是一家领先的提供大数据监测和分析服务的软件提供商，成立于2003年。Splunk成功上市促进了资本市场对大数据的关注，同时也促使IT厂商加快大数据布局。2012年7月，联合国在纽约发布了一份关于大数据政务的白皮书，总结了各国政府如何利用大数据更好地服务和保护人民。这份白皮书举例说明在一个数据生态系统中，个人、公共部门和私人部门各自的角色、动机和需求：例如通过对价格关注和更好服务的渴望，个人提供数据和众包信息，并对隐私和退出权力提出需求；公共部门出于改善服务，提升效益的目的，提供了诸如统计数据、设备信息，健康指标，及税务和消费信息等，并对隐私和退出权力提出需求；私人部门出于提升客户认知和预测趋势目的，提供汇总数据、消费和使用信息，并对敏感数据所有权和商业模式更加关注。白皮书还指出，人们如今可以使用的极大丰富的数据资源，包括旧数据和新数据，来对社会人口进行前所未有的实时分析。联合国还以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例，表明政府如果能合理分析所掌握的数据资源，将能“与数俱进”，快速应变。在这一年的7月，为挖掘大数据的价值，阿里巴巴集团在管理层设立“首席数据官”一职，负责全面推进“数据分享平台”战略，并推出大型的数据分享平台——“聚石塔”，为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。随后，阿里巴巴董事局主席马云在2012年网商大会上发表演讲，称从2013年1月1日起将转型重塑平台、金融和数据三大业务。马云强调：“假如我们有一个数据预报台，就像为企业装上了一个GPS和雷达，你们出海将会更有把握。”因此，阿里巴巴集团希望通过分享和挖掘海量数据，为国家和中小企业提供价值。此举是国内企业最早把大数据提升到企业管理层高度的一次重大里程碑。阿里巴巴也是最早提出通过数据进行企业数据化运营的企业。

2014年4月，世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告（第13版）》。报告认为，在未来几年中针对各种信息通信技术的政策甚至会显得更加重要。在接下来将对数据保密和网络管制等议题展开积极讨论。全球大数据产业的日趋活跃，技术演进和应用创新的加速发展，使各国政府逐渐认识到大数据在推动经济发展、改善公共服务，增进人民福祉，乃至保障国家安全方面的重大意义。5月份，美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据：抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步，特别是在市场与现有的机构并未以其他方式来支持这种进步的领域；同时，也需要相应的框架、结构与研究，来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。2014年，“大数据”首次出现在当年的《政府工作报告》中。《报告》中指出，要设立新兴产业创业创新平台，在大数据等方面赶超先进，引领未来产业发展。“大数据”旋即成为国内热议词汇。

2015年，国务正式印发《促进大数据发展行动纲要》，《纲要》明确，推动大数据发展和应用，在未来5至10年打造精准治理、多方协作的社会治理新模式，建立运行平稳、安全高效的经济运行新机制，构建以人为本、惠及全民的民生服务新体系，开启大众创业、万众创新的创新驱动新格局，培育高端智能、新兴繁荣的产业发展新生态。标志着大数据正式上升这国家战略。

2016年，大数据“十三五”规划将出台，《规划》已征求了专家意见，并进行了集中讨论和修改。《规划》涉及的内容包括，推动大数据在工业研发、制造、产业链全流程各环节的应用；支持服务业利用大数据建立品牌、精准营销和定制服务等。

大数据的技术：

1. Hadoop

Hadoop诞生于2005年，其最初只是雅虎公司用来解决网页搜索问题的一个项目，后来因其技术的高效性，被Apache Software Foundation公司引入并成为开源应用。Hadoop本身不是一个产品，而是由多个软件产品组成的一个生态系统，这些软件产品共同实现全面功能和灵活的大数据分析。从技术上看，Hadoop由两项关键服务构成：采用Hadoop分布式文件系统（HDFS）的可靠数据存储服务，以及利用一种叫做MapReduce技术的高性能并行数据处理服务。

2. Hive

Hive是一种建立在Hadoop文件系统上的数据仓库架构，并能对存储在HDFS中的数据进行分析和管理。它最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。后来其他公司也开始使用和开发Apache Hive，例如Netflix、亚马逊等。

3. Storm:

Storm是一个分布式计算框架，主要由Clojure编程语言编写。最初是由Nathan Marz及其团队创建于BackType，这家市场营销情报企业于2011年被Twitter收购。之后Twitter将该项目转为开源并推向GitHub平台，最终Storm加入Apache孵化器计划并于2014年9月正式成为Apache旗下的顶级项目之一。

等会让他赶紧染发剂对人体

互联网时代的来临，简易的说是海量信息同极致数学计算融合的结果。除此以外是移动互联、物联网技术造成了大量的数据信息，互联网大数据建筑科学极致地解决了海量信息的搜集、储存、测算、剖析的难题。互联网时代打开人类社会运用数据价值的另一个时期。互联网大数据（BigData）又称之为大量材料，便是数据信息大、数据来源宽阔（系统日志、视频、声频），大到PB级别，目前的架构便是以便处理PB级别的数据信息；到目前为止，人们生产制造的全部印刷耗材的信息量也但是200PB；阿里巴巴、京东商城、苏宁易购基础都沉定了PB级别；等于一家BAT企业（百度搜索、阿里巴巴、腾迅）顶过去全部人们时期生产制造的包装印刷材料互联网大数据便是解决海量信息的，工作中便是储存,清理,查寻,导出来,必须SQL句子和编程工具脚本制作适用互联网大数据一般用于描述一个企业造就的很多非结构型和半非结构化数据，这种数据信息在免费下载到关联型数据库查询用以剖析时候花销过多时间和钱财。数据分析常和云计算技术联络到一起，由于即时的大中型数据剖析必须像MapReduce一样的架构来向数十、百余或乃至千余的电脑上分派工作中。依据《大数据时代》中常说，互联网大数据并不是一个准确的定义，大量的是一种将会的方法。“互联网大数据是大家在规模性数据信息的基本上能够保证的事儿，而这种事儿在小规模纳税人数据信息的基本上是没法进行的。互联网大数据是大家得到新的认知能力、造就新的使用价值的原动力，互联网大数据还为更改销售市场“互联网大数据即一种新式的工作能力：以一种史无前例的方法，根据对海量信息开展剖析，得到有极大使用价值的商品和服务项目，或刻骨铭心的洞悉。

google三篇论文发表

可以只用一行代码来运行MapReduce作业：JobClient.runJon(conf)，Job作业运行时参与的四个实体：

1.JobClient 写代码，配置作业，提交作业。

2.JobTracker:初始化作业，分配作业，协调作业运行。这是一个java程序，主类是JobTracker。

3.TaskTracker：运行作业划分后的任务，即分配数据分配上执行Map或Reduce任务。

4.HDFS：保存作业数据、配置信息等，保存作业结果。

Map/Reduce 作业总体执行流程：

代码编写 ----> 作业配置 ----> 作业提交 ----> Map任务分配和执行 ----> 处理中间结果 ----> Reduce任务分配与执行 ----> 输出结果

而对于每个作业的执行，又包含：

输入准备 ----> 任务执行 ----> 输出结果

作业提交JobClient：

JobClient的runJob方法产生一个Jobclient实例并调用其submitJob方法，然后runJob开始循环吗，并在循环中调用getTaskCompetionEvents方法，获得TaskCompletionEvent实例，每秒轮询作业进度（后面有介绍进度和状态更新），把进度写到控制台，作业完成后显示作业计数器，若失败，则把错误记录到控制台。

submitJob方法作业提交的过程：

1.向JobTracker请求一个新的JobId。

2.检查作业相关路径，如果路径不正确就会返回错误。

3.计算作业输入分片及其划分信息。

4.将作业运行需要的资源（jar文件、配置文件等）复制到Shared HDFS，并

复制多个副本（参数控制，默认值为10）供tasktracker访问，也会将计算的分片复制到HDFS。

5.调用JobTracker对象的submitJob()方法来真正提交作业，告诉JobTracker作业准备执行。

作业的初始化JobTracker：

JobTracker收到submitJob方法调用后，会把调用放入到一个内部队列，由作业调度器（Job scheduler）进行调度并对其初始化。Job初始化即创建一个作业对象。

当作业被调度后，JobTracker会创建一个代表这个作业的JobInProgress对象，并将任务和记录信息封装在这个对象中，以便跟踪任务状态和进程。

初始化过程就是JobInProgress对象的initTasks方法进行初始化的。

初始化步骤：

1.从HDFS中读取作业对应的job.split信息，为后面的初始化做好准备。

2.创建并初始化map和reduce任务。根据数据分片信息中的个数确定map task的个数，然后为每个map task生成一个TaskInProgress对象来处理数据分片，先将其放入nonRunningMapCache,以便JobTracker分配任务的时候使用。接下来根据JobConf中的mapred.reduce.tasks属性利用setNumReduceTasks()方法设置reduce task的数量，然后同map task创建方式。

3.最后就是创建两个初始化task，进行map和reduce的初始化。

任务的分配JobTracker：

消息传递HeartBeat： tasktracker运行一个简单循环定期发送心跳（heartbeat）给JobTracker。由心跳告知JobTracker自己是否存活，同时作为消息通道传递其它信息（请求新task）。作为心跳的一部分，tasktracker会指明自己是否已准备好运行新的任务，如果是，jobtracker会分配它一个任务。

分配任务所属于的作业：在Jobtracker分配任务前需先确定任务所在的作业。后面会介绍到各种作业调度算法，默认是一个FIFO的作业调度。

分配Map和Reduce任务：tasktracker有固定数量的任务槽,一个tasktracker可以同时运行多个Map和Reduce任务，但其准确的数量由tasktracker的核的数量和内存大小决定。默认调度器会先填满Map任务槽，再填Reduce任务槽。jobtracker会选择距离离分片文件最近的tasktracker，最理想情况下，任务是数据本地化（data-local）的,当然也可以是机架本地化（rack-local），如果不是本地化的，那么他们就需要从其他机架上检索数据。Reduce任务分配很简单，jobtracker会简单的从待运行的reduce任务列表中选取下一个来执行，不用考虑数据本地化。

任务的执行TaskTracker：

TaskTracker收到新任务后，就要在本地运行任务了，运行任务的第一步就是通过localizedJob将任务本地化所需要的注入配置、数据、程序等信息进行本地化。

1.本地化数据：从共享文件系统将job.split 、job.jar (在分布式缓存中)复制本地，将job配置信息写入job.xml。

2.新建本地工作目录：tasktracker会加压job.jar文件到本工作目录。

3.调用launchTaskForJob方法发布任务（其中会新建TaskRunner实例运行任务），如果是Map任务就启用MapTaskRunner，对于Reduce就是ReduceTaskRunner。

在这之后，TaskRunner会启用一个新的JVM来运行每个Map/Reduce任务，防止程序原因而导致tasktracker崩溃，但不同任务间重用JVM还是可以的，后续会讲到任务JVM重用。

对于单个Map，任务执行的简单流程是：

1.分配任务执行参数

2.在Child临时文件中添加map任务信息（Child是运行Map和Reduce任务的主进程）

3.配置log文件夹，配置map任务的通信和输出参数

4.读取input split，生成RecordReader读取数据

5.为Map生成MapRunnable,依次从RecordReader中接收数据，并调用Map函数进行处理。

6.最后将map函数的输出调用collect收集到MapOutputBuffer（参数控制其大小）中。

Streaming和Pipes:

Streaming和Pipes都运行特殊的Map和Reduce任务，目的是运行用户提供的可执行程序并与之通信。

Streaming:使用标准输入输出Streaming与进程进行通信。

Pipes:用来监听套接字，会发送一个端口号给C++程序，两者便可建立链接。

进度和状态更新：

一个作业和它的任务都有状态（status），其中包括：运行成功失败状态、Map/Reduce进度、作业计数器值、状态消息。

状态消息与客户端的通信：

1.对于Map任务Progress的追踪：progress是已经处理完的输入所占的比例。

2.对于Reduce：稍复杂，reduce任务分三个阶段（每个阶段占1/3），复制、排序和Reduce处理，若reduce已执行一半的输入的话，那么任务进度便是1/3+1/3+1/6=5/6。

3.任务计数器：任务有一组计数器，负责对任务运行各个事件进行计数。

4.任务进度报告：如果任务报告了进度，便会设置一个标记以表明状态将被发送到tasktracker。有一个独立线程每隔三秒检查一次此标记，如果已设置，则告知tasktracker当前状态。

5.tasktracker进度报告：tasktracker会每隔5秒（这个心跳是由集群大小决定，集群越大时间会越长）发送heartbeat到jobtracker，并且tasktracker运行的所有状态都会在调用中被发送到jobtracker。

6.jobtracker合并各任务报告：产生一个表明所有运行作业机器所含任务状态的全局视图。

前面提到的JobClient就是通过每秒查询JobTracker来接收最新状态，而且客户端JobClient的getJob方法可以得到一个RunningJob的实例，其包含了作业的所以状态信息。

作业的完成：

当jobtracker收到作业最后一个任务已完成的通知后，便把作业状态设置成成功。JobClient查询状态时，便知道任务已成功完成，于是JobClient打印一条消息告知用户，然后从runJob方法返回。

如果jobtracker有相应设置，也会发送一个Http作业通知给客户端，希望收到回调指令的客户端可以通过job.end.notification.url属性来进行设置。

jobtracker情况作业的工作状态，指示tasktracker也清空作业的工作状态，如删除中间输出。

失败

实际情况下，用户的代码存在软件错误进程会崩溃，机器也会产生故障，但Hadoop能很好的应对这些故障并完成作业。

1.任务失败

子任务异常：如Map/Reduce任务中的用户代码抛出异常，子任务JVM进程会在退出前向父进程tasktracker发送错误报告，错误被记录用户日志。tasktracker会将此次task attempt标记为tailed，并释放这个任务槽运行另外一个任务。

子进程JVM突然退出：可能由于JVM bug导致用户代码造成的某些特殊原因导致JVM退出，这种情况下，tasktracker会注意到进程已经退出，并将此次尝试标记为failed。

任务挂起：一旦tasktracker注意一段时间没有收到进度更新，便会将任务标记为failed，JVM子进程将被自动杀死。任务失败间隔时间通常为10分钟，可以以作业或者集群为基础设置过期时间，参数为mapred.task.timeout。注意：如果参数值设置为0，则挂起的任务永远不会释放掉它的任务槽，随着时间的推移会降低整个集群的效率。

任务失败尝试次数：jobtracker得知一个tasktracker失败后，它会重新调度该任务执行，当然，jobtracker会尝试避免重新调度失败过的tasktracker任务。如果一个任务尝试次数超过4次，它将不再被重试。这个值是可以设置的，对于Map任务，参数是mapred.map.max.attempts,对于reduce任务，则由mapred.reduce.max.attempts属性控制。如果次数超过限制，整个作业都会失败。当然，有时我们不希望少数几个任务失败就终止运行的整个作业，因为即使有些任务失败，作业的一些结果可能还是有用的，这种情况下，可以为作业设置在不触发作业失败情况下的允许任务失败的最大百分比，Map任务和Reduce任务可以独立控制，参数为mapred.max.map.failures.percent 和mapred.max.reduce.failures.percent。

任务尝试中止（kill）：任务终止和任务失败不同，task attempt可以中止是因为他是一个推测副本或因为它所处的tasktracker失败，导致jobtracker将它上面的所有task attempt标记为killed。被终止的task attempt不会被计入任务运行尝试次数，因为尝试中止并不是任务的错。

2.tasktracker失败

tasktracker由于崩溃或者运行过慢而失败，他将停止向jobtracker发送心跳（或很少发送心跳）。jobtracker注意已停止发送心跳的tasktracker（过期时间由参数mapred.tasktracker.expiry.interval设置，单位毫秒），并将它从等待调度的tasktracker池中移除。如果是未完成的作业，jobtracker会安排次tasktracker上已经运行成功的Map任务重新运行，因为此时reduce任务已无法访问（中间输出存放在失败的tasktracker的本地文件系统上）。

即使tasktracker没有失败，也有可能被jobtracker列入黑名单。如果tasktracker上面的失败任务数量远远高于集群的平均失败任务次数，他就会被列入黑名单，被列入黑名单的tasktracker可以通过重启从jobtracker黑名单中移除。

3.jobtracker失败

老版本的JobTracker失败属于单点故障，这种情况下作业注定失败。

作业调度：

早期作业调度FIFO：按作业提交顺序先进先出。可以设置优先级，通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法制定优先级（优先级别：VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW）。注意FIFO调度算法不支持抢占（preemption）,所以高优先级作业仍然会被那些已经开始的长时间运行的低优先级作业所阻塞。

Fair Scheduler：目标是让每个用户公平地共享集群能力。当集群存在很多作业时，空闲的任务槽会以”让每个用户共享集群“的方式进行分配。默认每个用户都有自己的作业池。FairScheduler支持抢占，所以，如果一个池在特定的一段时间未得到公平地资源共享，它会终止池中得到过多的资源任务，以便把任务槽让给资源不足的池。FairScheduler是一个后续模块，使用它需要将其jar文件放在Hadoop的类路径下。可以通过参数map.red.jobtracker.taskScheduler属性配置（值为org.apache.hadoop.mapred.FairScheduler）

Capacity Scheduler：

集群由很多队列组成，每个队列都有一个分配能力，这一点与FairScheduler类似，只不过在每个队列内部，作业根据FIFO方式进行调度。本质上说，Capacity Scheduler允许用户或组织为每个用户模拟一个独立使用FIFO的集群。

shuffle和排序：

MapReduce确保每个Reducer的输入都是按键排序的。系统执行排序的过程-将map输出作为输入传给reducer的过程称为shuffle。shuffle属于不断被优化和改进的代码库的一部分，从许多方面来看，shuffle是MapReduce的心脏。

整个shuffle的流程应该是这样：

map结果划分partition 排序sort 分割spill 合并同一划分合并同一划分合并结果排序 reduce处理输出

Map端：

写入缓冲区：Map函数的输出，是由collector处理的，它并不是简单的将结果写到磁盘。它利用缓冲的方式写到内存，并处于效率的考虑进行预排序。每个map都有一个环形的内存缓冲区，用于任务输出，默认缓冲区大小为100MB（由参数io.sort.mb调整），一旦缓冲区内容达到阈值（默认0.8），后台进程边开始把内容写到磁盘（spill），在写磁盘过程中，map输出继续被写到缓冲区，但如果缓冲区被填满，map会阻塞知道写磁盘过程完成。写磁盘将按照轮询方式写到mapred.local.dir属性制定的作业特定子目录中。

写出缓冲区：collect将缓冲区的内容写出时，会调用sortAndSpill函数，这个函数作用主要是创建spill文件，按照key值对数据进行排序，按照划分将数据写入文件，如果配置了combiner类，会先调用combineAndSpill函数再写文件。sortAndSpill每被调用一次，就会写一个spill文件。

合并所有Map的spill文件：TaskTracker会在每个map任务结束后对所有map产生的spill文件进行merge，merge规则是根据分区将各个spill文件中数据同一分区中的数据合并在一起，并写入到一个已分区且排序的map输出文件中。待唯一的已分区且已排序的map输出文件写入最后一条记录后，map端的shuffle阶段就结束了。

在写磁盘前，线程首先根据数据最终要传递到的reducer把数据划分成响应的分区（partition），在每个分区中，后台线程按键进行内排序，如果有一个combiner,它会在排序后的输出上运行。

内存达到溢出写的阈值时，就会新建一个溢出写文件，因为map任务完成其最后一个输出记录之后，会有几个溢出写文件。在任务完成前，溢出写文件会被合并成一个已分区且已排序的输出文件。配置属性io.sort.facor控制一次最多能合并多少流，默认值是10。

如果已经指定combiner,并且写次数至少为3（通过min.mum.spills.for.combine设置）时，则combiner就会在输出文件写到磁盘之前运行。运行combiner的意义在于使map输出更紧凑，舍得写到本地磁盘和传给reducer的数据更少。

写磁盘时压缩：写磁盘时压缩会让写的速度更快，节约磁盘空间，并且减少传给reducer的数据量。默认情况下，输出是不压缩的，但可以通过设置mapred.compress.map.output值为true，就可以启用压缩。使用的压缩库是由mapred.map.output.compression.codec制定。

reducer获得文件分区的工作线程：reducer通过http方式得到输出文件的分区，用于文件分区的工作线程数量由tracker.http.threads属性指定，此设置针对的是每个tasktracker，而不是每个map任务槽。默认值为40，在大型集群上此值可以根据需要而增加。

Reduce端：

复制阶段：reduce会定期向JobTracker获取map的输出位置，一旦拿到输出位置，reduce就会从对应的TaskTracker上复制map输出到本地（如果map输出很小，则会被复制到TaskTracker节点的内存中，否则会被让如磁盘），而不会等到所有map任务结束（当然这个也有参数控制）。

合并阶段：从各个TaskTracker上复制的map输出文件（无论在磁盘还是内存）进行整合，并维持数据原来的顺序。

Reduce阶段：从合并的文件中顺序拿出一条数据进行reduce函数处理，然后将结果输出到本地HDFS。

Map的输出文件位于运行map任务的tasktracker的本地磁盘，现在，tasktracker要为分区文件运行reduce任务。每个任务完成时间可能不同，但是只要有一个任务完成，reduce任务就开始复制其输出，这就是reduce任务的复制阶段（copy phase）。reduce任务有少量复制线程，因此能够并行取得map输出。默认值是5个线程，可以通过mapred.reduce.parallel.copies属性设置。

Reducer如何得知从哪个tasktracker获得map输出：map任务完成后会通知其父tasktracker状态已更新，tasktracker进而通知（通过heart beat）jobtracker。因此，JobTracker就知道map输出和tasktracker之间的映射关系，reducer中的一个线程定期询问jobtracker以便获知map输出位置。由于reducer有可能失败，因此tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们，相反他会等待jobtracker告示它可以删除map输出时才删除，这是作业完成后最后执行的。

如果map输出很小，则会被直接复制到reduce tasktracker的内存缓冲区（大小由mapred.job.shuffle.input.buffer.percent控制，占堆空间的百分比），否则，map输出被复制到磁盘。一旦内存缓冲区达到阈值大小（由mapred.iob.shuffle.merge.percent）

或达到map输出阈值大小（mapred.inmem.threadhold），则合并后溢出写到磁盘中。

随着磁盘上副本增多，后台线程会将他们合并为更大的、排好序的文件。注意：为了合并，压缩的map输出必须在内存中被解压缩。

排序阶段：复制阶段完成后，reduce任务会进入排序阶段，更确切的说是合并阶段，这个阶段将合并map输出，维持其顺序排列。合并是循环进行的，由合并因子决定每次合并的输出文件数量。但让有可能会产生中间文件。

reduce阶段：在最后reduce阶段，会直接把排序好的文件输入reduce函数，不会对中间文件进行再合并，最后的合并即可来自内存，也可来自磁盘。此阶段的输出会直接写到文件系统，一般为hdfs。

细节：这里合并是并非平均合并，比如有40个文件，合并因子为10，我们并不是每趟合并10个，合并四趟。而是第一趟合并4个，后三趟合并10，在最后一趟中4个已合并的文件和余下6个未合并会直接并入reduce。

因为,Google是大数据鼻祖。很多人提起大数据,必然会想起Google 的“三驾马车”(也称谷歌三宝):GFS、MapReduce、BigTable。正所谓三篇论文定大数据之江山,它激发了大数据技术开源时代的到来,百花齐放,争相斗艳,成就了Hadoop的辉煌十载。尤其是近年来,大数据技术的发展,不论是技术的迭代,还是生态圈的繁荣,都远超人们的想象。

因为，Google是大数据鼻祖。很多人提起大数据，必然会想起Google 的“三驾马车”（也称谷歌三宝）：GFS、MapReduce、BigTable。正所谓三篇论文定大数据之江山，它激发了大数据技术开源时代的到来，百花齐放，争相斗艳，成就了Hadoop的辉煌十载。尤其是近年来，大数据技术的发展，不论是技术的迭代，还是生态圈的繁荣，都远超人们的想象。从 Spark 超越 Hadoop 勇攀高峰，到 Flink 横空出世挑战 Spark 成为大数据处理领域一颗耀眼的新星，再到如今 Google 又决心用 Apache Beam 一统天下。大数据开源技术的发展可谓是继往开来，跌宕起伏，波澜壮阔，俨然一副绵绵不断的辉煌画卷。

google发表的三篇论文

第一阶段，运营式系统阶段。在上世纪七八十年代，用户购物时产生的记录一条条输入数据库，当时都是由这些运营系统生成这些数据的。

第二阶段，由用户原创内容阶段。2002年的时候，开始有了博客，后来发展成微博，到后来出现的微信，这些让每个网民都成了自媒体，都可以自己随心所欲地向网络发布相关的信息，这个时候数据产生的速度要远远大于之前的仅仅由运营系统产生的数据。

第三阶段，感知式系统阶段。真正让大数据时代由量变到质变是因为数据产生的方式到了第三个阶段——感知式系统阶段。

感知式系统阶段也就是物联网的大规模普及，物联网的迅速发展让大数据时代最终到来。

大数据是互联网发展到一定阶段的必然产物：

由于互联网在资源整合方面的能力在不断增强，互联网本身必须通过数据来体现出自身的价值，所以从这个角度来看，大数据正在充当互联网价值的体现者。

随着更多的社会资源进行网络化和数据化改造，大数据所能承载的价值也必将不断提到提高，大数据的应用边界也会不断得到拓展，所以在未来的网络化时代，大数据自身不仅能够代表价值，大数据自身更是能够创造价值。

大数据技术发展史：大数据的前世今生

今天我们常说的大数据技术，其实起源于Google在2004年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。

你知道，搜索引擎主要就做两件事情，一个是网页抓取，一个是索引构建，而在这个过程中，有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的，你从介绍中也能看出来，一个文件系统、一个计算框架、一个数据库系统。

现在你听到分布式、大数据之类的词，肯定一点儿也不陌生。但你要知道，在2004年那会儿，整个互联网还处于懵懂时代，Google发布的论文实在是让业界为之一振，大家恍然大悟，原来还可以这么玩。

因为那个时间段，大多数公司的关注点其实还是聚焦在单机上，在思考如何提升单机的性能，寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群，通过分布式的方式将海量数据存储在这个集群上，然后利用集群上的所有机器进行数据计算。这样，Google其实不需要买很多很贵的服务器，它只要把这些普通的机器组织到一起，就非常厉害了。

当时的天才程序员，也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch，阅读了Google的论文后，他非常兴奋，紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。

两年后的2006年，Doug Cutting将这些大数据相关的功能从Nutch中分离了出来，然后启动了一个独立的项目专门开发维护大数据技术，这就是后来赫赫有名的Hadoop，主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。

当我们回顾软件开发的历史，包括我们自己开发的软件，你会发现，有的软件在开发出来以后无人问津或者寥寥数人使用，这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业，每年创造数百亿美元的价值，创造百万计的就业岗位，这些软件曾经是Windows、Linux、Java，而现在这个名单要加上Hadoop的名字。

如果有时间，你可以简单浏览下Hadoop的代码，这个纯用Java编写的软件其实并没有什么高深的技术难点，使用的也都是一些最基础的编程技巧，也没有什么出奇之处，但是它却给社会带来巨大的影响，甚至带动一场深刻的科技革命，推动了人工智能的发展与进步。

我觉得，我们在做软件开发的时候，也可以多思考一下，我们所开发软件的价值点在哪里？真正需要使用软件实现价值的地方在哪里？你应该关注业务、理解业务，有价值导向，用自己的技术为公司创造真正的价值，进而实现自己的人生价值。而不是整天埋头在需求说明文档里，做一个没有思考的代码机器人。

Hadoop发布之后，Yahoo很快就用了起来。大概又过了一年到了2007年，百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。

2008年，Hadoop正式成为Apache的顶级项目，后来Doug Cutting本人也成为了Apache基金会的主席。自此，Hadoop作为软件开发领域的一颗明星冉冉升起。

同年，专门运营Hadoop的商业公司Cloudera成立，Hadoop得到进一步的商业支持。

这个时候，Yahoo的一些人觉得用MapReduce进行大数据编程太麻烦了，于是便开发了Pig。Pig是一种脚本语言，使用类SQL的语法，开发者可以用Pig脚本描述要对大数据集上进行的操作，Pig经过编译后会生成MapReduce程序，然后在Hadoop上运行。

编写Pig脚本虽然比直接MapReduce编程容易，但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算，比如说你可以写个Select语句进行数据查询，然后Hive会把SQL语句转化成MapReduce的计算程序。

这样，熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度，迅速得到开发者和企业的追捧。据说，2011年的时候，Facebook大数据平台上运行的作业90%都来源于Hive。

随后，众多Hadoop周边产品开始出现，大数据生态体系逐渐形成，其中包括：专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop；针对大规模日志进行分布式收集、聚合和传输的Flume；MapReduce工作流调度引擎Oozie等。

在Hadoop早期，MapReduce既是一个执行引擎，又是一个资源调度框架，服务器集群的资源调度管理由MapReduce自己完成。但是这样不利于资源复用，也使得MapReduce非常臃肿。于是一个新项目启动了，将MapReduce执行引擎和资源调度分离开来，这就是Yarn。2012年，Yarn成为一个独立的项目开始运营，随后被各类大数据产品支持，成为大数据平台上最主流的资源调度系统。

同样是在2012年，UC伯克利AMP实验室（Algorithms、Machine和People的缩写）开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差，因为机器学习算法通常需要进行很多次的迭代计算，而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业，带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质，而2012年的时候，内存已经突破容量和成本限制，成为数据运行过程中主要的存储介质。Spark一经推出，立即受到业界的追捧，并逐步替代MapReduce在企业应用中的地位。

一般说来，像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算，因为它们通常针对以“天”为单位产生的数据进行一次计算，然后得到需要的结果，这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据，而是历史数据，所以这类计算也被称为大数据离线计算。

而在大数据领域，还有另外一类应用场景，它们需要对实时产生的大量数据进行即时计算，比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算，相应地，有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。流式计算要处理的数据是实时在线产生的数据，所以这类计算也被称为大数据实时计算。

在典型的大数据的业务场景下，数据业务最通用的做法是，采用批处理的技术处理历史全量数据，采用流式计算处理实时新增数据。而像Flink这样的计算引擎，可以同时支持流式计算和批处理计算。

除了大数据批处理和流处理，NoSQL系统处理的主要也是大规模海量数据的存储与访问，所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆，涌现出HBase、Cassandra等许多优秀的产品，其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

我们回顾软件发展的历史会发现，差不多类似功能的软件，它们出现的时间都非常接近，比如Linux和Windows都是在90年代初出现，Java开发中的各类MVC框架也基本都是同期出现，Android和iOS也是前脚后脚问世。2011年前后，各种NoSQL数据库也是层出不群，我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。

事物发展有自己的潮流和规律，当你身处潮流之中的时候，要紧紧抓住潮流的机会，想办法脱颖而出，即使没有成功，也会更加洞悉时代的脉搏，收获珍贵的知识和经验。而如果潮流已经退去，这个时候再去往这个方向上努力，只会收获迷茫与压抑，对时代、对自己都没有什么帮助。

但是时代的浪潮犹如海滩上的浪花，总是一浪接着一浪，只要你站在海边，身处这个行业之中，下一个浪潮很快又会到来。你需要敏感而又深刻地去观察，略去那些浮躁的泡沫，抓住真正潮流的机会，奋力一搏，不管成败，都不会遗憾。

正所谓在历史前进的逻辑中前进，在时代发展的潮流中发展。通俗的说，就是要在风口中飞翔。

上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成；数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等，内置了主要的机器学习和数据挖掘算法。

此外，大数据要存入分布式文件系统（HDFS），要有序调度MapReduce和Spark作业执行，并能把执行结果写入到各个应用系统的数据库中，还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。

图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系，我将会在专栏后面逐个分析，帮你能够对大数据技术原理和应用算法构建起完整的知识体系，进可以专职从事大数据开发，退可以在自己的应用开发中更好地和大数据集成，掌控自己的项目。

希望对您有所帮助！~

可按照时间点划分大数据的发展历程。

大数据时代发展的具体历程如下：

2009年，欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性。

大数据的技术：

1. Hadoop

2. Hive

3. Storm:

google三大论文发表在哪了

你说的可能是这三个吧：2003年发表了《The Google File System》2004年发表了《MapReduce: Simplified Data Processing on Large Clusters 》2006年发表了《Bigtable: A Distributed Storage System for Structured Data》

等会让他赶紧染发剂对人体

Google已经被大陆屏蔽了你可以去Google香港的服务器

谷歌三大论文发表在何处

大部分论文都在期刊上发表,CN期刊。

少数的是发表到国外的期刊,或者直接是在杂志的官网上线,比如SCI。对于大多数人来说,发表CN期刊就可以了。

期刊，定期出版的刊物。如周刊、旬刊、半月刊、月刊、季刊、半年刊、年刊等。由依法设立的期刊出版单位出版刊物。期刊出版单位出版期刊，必须经新闻出版总署批准，持有国内统一连续出版物号，领取《期刊出版许可证》。

广义上分类

从广义上来讲，期刊的分类，可以分为非正式期刊和正式期刊两种。非正式期刊是指通过行政部门审核领取“内部报刊准印证”作为行业内部交流的期刊(一般只限行业内交流不公开发行)，但也是合法期刊的一种，一般正式期刊都经历过非正式期刊过程。

正式期刊是由国家新闻出版署与国家科委在商定的数额内审批，并编入“国内统一刊号”，办刊申请比较严格，要有一定的办刊实力，正式期刊有独立的办刊方针。

“国内统一刊号”是“国内统一连续出版物号”的简称，即“CN号”，它是新闻出版行政部门分配给连续出版物的代号。“国际刊号”是“国际标准连续出版物号”的简称，即“ISSN号”，我国大部分期刊都配有“ISSN号”。

此外，正像报纸一样，期刊也可以不同的角度分类。有多少个角度就有多少种分类的结果，角度太多则流于繁琐。一般从以下三个角度进行分类：

按学科分类

以《中国图书馆图书分类法.期刊分类表》为代表，将期刊分为五个基本部类：

(1)思想(2)哲学(3)社会科学(4)自然科学(5)综合性刊物。在基本部类中，又分为若干大类，如社会科学分为社会科学总论、政治、军事、经济、文化、科学、教育、体育、语言、文字、文学、艺术、历史、地理。

按内容分类

以《中国大百科全书》新闻出版卷为代表，将期刊分为四大类：

(1)一般期刊，强调知识性与趣味性，读者面广，如我国的《人民画报》、《大众电影》，美国的《时代》、《读者文摘》等;

(2)学术期刊，主要刊载学术论文、研究报告、评论等文章，以专业工作者为主要对象;

(3)行业期刊，主要报道各行各业的产品、市场行情、经营管理进展与动态，如中国的《摩托车信息》、《家具》、日本的《办公室设备与产品》等;

(4)检索期刊，如我国的《全国报刊索引》、《全国新书目》，美国的《化学文摘》等。

按学术地位分类

可分为核心期刊和非核心期刊（通常所说的普刊）两大类。

关于核心期刊

核心期刊，是指在某一学科领域(或若干领域)中最能反映该学科的学术水平，信息量大，利用率高，受到普遍重视的权威性期刊。

国内没办法直接上谷歌的网站你可以搜索下载个E9代理加速器这样就能上Google下载东西了

职称论文三大网站是知网、万方、维普。

1、中国知网

知网一般是中国知网。知网是国家知识基础设施的概念，由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。由清华大学、清华同方发起，始建于1999年6月。

提供CNKI源数据库、外文类、工业类、农业类、医药卫生类、经济类和教育类多种数据库。其中综合性数据库为中国期刊全文数据库、中国博士学位论文数据库、中国优秀硕士学位论文全文数据库、中国重要报纸全文数据库和中国重要会议文论全文数据库。每个数据库都提供初级检索、高级检索和专业检索三种检索功能。高级检索功能最常用。

2、万方

万方数据库是由万方数据公司开发的，涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库；也是和中国知网齐名的中国专业的学术数据库。

其开发公司——万方数据股份有限公司是国内第一家以信息服务为核心的股份制高新技术企业，是在互联网领域，集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。万方期刊集纳了理、工、农、医、人文五大类70多个类目共7600种科技类期刊全文。

3、维普网

维普网，建立于2000年。经过多年的商业运营，维普网已经成为全球著名的中文专业信息服务网站。网站陆续建立了与谷歌学术搜索频道、百度文库、百度百科的战略合作关系。

网站遥遥领先数字出版行业发展水平，数次名列中国出版业网站百强，并在中国图书馆业、情报业网站排名中名列前茅。