谷歌发表三篇论文

可以只用一行代码来运行MapReduce作业：JobClient.runJon(conf)，Job作业运行时参与的四个实体：

1.JobClient 写代码，配置作业，提交作业。

2.JobTracker:初始化作业，分配作业，协调作业运行。这是一个java程序，主类是JobTracker。

3.TaskTracker：运行作业划分后的任务，即分配数据分配上执行Map或Reduce任务。

4.HDFS：保存作业数据、配置信息等，保存作业结果。

Map/Reduce 作业总体执行流程：

代码编写 ----> 作业配置 ----> 作业提交 ----> Map任务分配和执行 ----> 处理中间结果 ----> Reduce任务分配与执行 ----> 输出结果

而对于每个作业的执行，又包含：

输入准备 ----> 任务执行 ----> 输出结果

作业提交JobClient：

JobClient的runJob方法产生一个Jobclient实例并调用其submitJob方法，然后runJob开始循环吗，并在循环中调用getTaskCompetionEvents方法，获得TaskCompletionEvent实例，每秒轮询作业进度（后面有介绍进度和状态更新），把进度写到控制台，作业完成后显示作业计数器，若失败，则把错误记录到控制台。

submitJob方法作业提交的过程：

1.向JobTracker请求一个新的JobId。

2.检查作业相关路径，如果路径不正确就会返回错误。

3.计算作业输入分片及其划分信息。

4.将作业运行需要的资源（jar文件、配置文件等）复制到Shared HDFS，并

复制多个副本（参数控制，默认值为10）供tasktracker访问，也会将计算的分片复制到HDFS。

5.调用JobTracker对象的submitJob()方法来真正提交作业，告诉JobTracker作业准备执行。

作业的初始化JobTracker：

JobTracker收到submitJob方法调用后，会把调用放入到一个内部队列，由作业调度器（Job scheduler）进行调度并对其初始化。Job初始化即创建一个作业对象。

当作业被调度后，JobTracker会创建一个代表这个作业的JobInProgress对象，并将任务和记录信息封装在这个对象中，以便跟踪任务状态和进程。

初始化过程就是JobInProgress对象的initTasks方法进行初始化的。

初始化步骤：

1.从HDFS中读取作业对应的job.split信息，为后面的初始化做好准备。

2.创建并初始化map和reduce任务。根据数据分片信息中的个数确定map task的个数，然后为每个map task生成一个TaskInProgress对象来处理数据分片，先将其放入nonRunningMapCache,以便JobTracker分配任务的时候使用。接下来根据JobConf中的mapred.reduce.tasks属性利用setNumReduceTasks()方法设置reduce task的数量，然后同map task创建方式。

3.最后就是创建两个初始化task，进行map和reduce的初始化。

任务的分配JobTracker：

消息传递HeartBeat： tasktracker运行一个简单循环定期发送心跳（heartbeat）给JobTracker。由心跳告知JobTracker自己是否存活，同时作为消息通道传递其它信息（请求新task）。作为心跳的一部分，tasktracker会指明自己是否已准备好运行新的任务，如果是，jobtracker会分配它一个任务。

分配任务所属于的作业：在Jobtracker分配任务前需先确定任务所在的作业。后面会介绍到各种作业调度算法，默认是一个FIFO的作业调度。

分配Map和Reduce任务：tasktracker有固定数量的任务槽,一个tasktracker可以同时运行多个Map和Reduce任务，但其准确的数量由tasktracker的核的数量和内存大小决定。默认调度器会先填满Map任务槽，再填Reduce任务槽。jobtracker会选择距离离分片文件最近的tasktracker，最理想情况下，任务是数据本地化（data-local）的,当然也可以是机架本地化（rack-local），如果不是本地化的，那么他们就需要从其他机架上检索数据。Reduce任务分配很简单，jobtracker会简单的从待运行的reduce任务列表中选取下一个来执行，不用考虑数据本地化。

任务的执行TaskTracker：

TaskTracker收到新任务后，就要在本地运行任务了，运行任务的第一步就是通过localizedJob将任务本地化所需要的注入配置、数据、程序等信息进行本地化。

1.本地化数据：从共享文件系统将job.split 、job.jar (在分布式缓存中)复制本地，将job配置信息写入job.xml。

2.新建本地工作目录：tasktracker会加压job.jar文件到本工作目录。

3.调用launchTaskForJob方法发布任务（其中会新建TaskRunner实例运行任务），如果是Map任务就启用MapTaskRunner，对于Reduce就是ReduceTaskRunner。

在这之后，TaskRunner会启用一个新的JVM来运行每个Map/Reduce任务，防止程序原因而导致tasktracker崩溃，但不同任务间重用JVM还是可以的，后续会讲到任务JVM重用。

对于单个Map，任务执行的简单流程是：

1.分配任务执行参数

2.在Child临时文件中添加map任务信息（Child是运行Map和Reduce任务的主进程）

3.配置log文件夹，配置map任务的通信和输出参数

4.读取input split，生成RecordReader读取数据

5.为Map生成MapRunnable,依次从RecordReader中接收数据，并调用Map函数进行处理。

6.最后将map函数的输出调用collect收集到MapOutputBuffer（参数控制其大小）中。

Streaming和Pipes:

Streaming和Pipes都运行特殊的Map和Reduce任务，目的是运行用户提供的可执行程序并与之通信。

Streaming:使用标准输入输出Streaming与进程进行通信。

Pipes:用来监听套接字，会发送一个端口号给C++程序，两者便可建立链接。

进度和状态更新：

一个作业和它的任务都有状态（status），其中包括：运行成功失败状态、Map/Reduce进度、作业计数器值、状态消息。

状态消息与客户端的通信：

1.对于Map任务Progress的追踪：progress是已经处理完的输入所占的比例。

2.对于Reduce：稍复杂，reduce任务分三个阶段（每个阶段占1/3），复制、排序和Reduce处理，若reduce已执行一半的输入的话，那么任务进度便是1/3+1/3+1/6=5/6。

3.任务计数器：任务有一组计数器，负责对任务运行各个事件进行计数。

4.任务进度报告：如果任务报告了进度，便会设置一个标记以表明状态将被发送到tasktracker。有一个独立线程每隔三秒检查一次此标记，如果已设置，则告知tasktracker当前状态。

5.tasktracker进度报告：tasktracker会每隔5秒（这个心跳是由集群大小决定，集群越大时间会越长）发送heartbeat到jobtracker，并且tasktracker运行的所有状态都会在调用中被发送到jobtracker。

6.jobtracker合并各任务报告：产生一个表明所有运行作业机器所含任务状态的全局视图。

前面提到的JobClient就是通过每秒查询JobTracker来接收最新状态，而且客户端JobClient的getJob方法可以得到一个RunningJob的实例，其包含了作业的所以状态信息。

作业的完成：

当jobtracker收到作业最后一个任务已完成的通知后，便把作业状态设置成成功。JobClient查询状态时，便知道任务已成功完成，于是JobClient打印一条消息告知用户，然后从runJob方法返回。

如果jobtracker有相应设置，也会发送一个Http作业通知给客户端，希望收到回调指令的客户端可以通过job.end.notification.url属性来进行设置。

jobtracker情况作业的工作状态，指示tasktracker也清空作业的工作状态，如删除中间输出。

失败

实际情况下，用户的代码存在软件错误进程会崩溃，机器也会产生故障，但Hadoop能很好的应对这些故障并完成作业。

1.任务失败

子任务异常：如Map/Reduce任务中的用户代码抛出异常，子任务JVM进程会在退出前向父进程tasktracker发送错误报告，错误被记录用户日志。tasktracker会将此次task attempt标记为tailed，并释放这个任务槽运行另外一个任务。

子进程JVM突然退出：可能由于JVM bug导致用户代码造成的某些特殊原因导致JVM退出，这种情况下，tasktracker会注意到进程已经退出，并将此次尝试标记为failed。

任务挂起：一旦tasktracker注意一段时间没有收到进度更新，便会将任务标记为failed，JVM子进程将被自动杀死。任务失败间隔时间通常为10分钟，可以以作业或者集群为基础设置过期时间，参数为mapred.task.timeout。注意：如果参数值设置为0，则挂起的任务永远不会释放掉它的任务槽，随着时间的推移会降低整个集群的效率。

任务失败尝试次数：jobtracker得知一个tasktracker失败后，它会重新调度该任务执行，当然，jobtracker会尝试避免重新调度失败过的tasktracker任务。如果一个任务尝试次数超过4次，它将不再被重试。这个值是可以设置的，对于Map任务，参数是mapred.map.max.attempts,对于reduce任务，则由mapred.reduce.max.attempts属性控制。如果次数超过限制，整个作业都会失败。当然，有时我们不希望少数几个任务失败就终止运行的整个作业，因为即使有些任务失败，作业的一些结果可能还是有用的，这种情况下，可以为作业设置在不触发作业失败情况下的允许任务失败的最大百分比，Map任务和Reduce任务可以独立控制，参数为mapred.max.map.failures.percent 和mapred.max.reduce.failures.percent。

任务尝试中止（kill）：任务终止和任务失败不同，task attempt可以中止是因为他是一个推测副本或因为它所处的tasktracker失败，导致jobtracker将它上面的所有task attempt标记为killed。被终止的task attempt不会被计入任务运行尝试次数，因为尝试中止并不是任务的错。

2.tasktracker失败

tasktracker由于崩溃或者运行过慢而失败，他将停止向jobtracker发送心跳（或很少发送心跳）。jobtracker注意已停止发送心跳的tasktracker（过期时间由参数mapred.tasktracker.expiry.interval设置，单位毫秒），并将它从等待调度的tasktracker池中移除。如果是未完成的作业，jobtracker会安排次tasktracker上已经运行成功的Map任务重新运行，因为此时reduce任务已无法访问（中间输出存放在失败的tasktracker的本地文件系统上）。

即使tasktracker没有失败，也有可能被jobtracker列入黑名单。如果tasktracker上面的失败任务数量远远高于集群的平均失败任务次数，他就会被列入黑名单，被列入黑名单的tasktracker可以通过重启从jobtracker黑名单中移除。

3.jobtracker失败

老版本的JobTracker失败属于单点故障，这种情况下作业注定失败。

作业调度：

早期作业调度FIFO：按作业提交顺序先进先出。可以设置优先级，通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法制定优先级（优先级别：VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW）。注意FIFO调度算法不支持抢占（preemption）,所以高优先级作业仍然会被那些已经开始的长时间运行的低优先级作业所阻塞。

Fair Scheduler：目标是让每个用户公平地共享集群能力。当集群存在很多作业时，空闲的任务槽会以”让每个用户共享集群“的方式进行分配。默认每个用户都有自己的作业池。FairScheduler支持抢占，所以，如果一个池在特定的一段时间未得到公平地资源共享，它会终止池中得到过多的资源任务，以便把任务槽让给资源不足的池。FairScheduler是一个后续模块，使用它需要将其jar文件放在Hadoop的类路径下。可以通过参数map.red.jobtracker.taskScheduler属性配置（值为org.apache.hadoop.mapred.FairScheduler）

Capacity Scheduler：

集群由很多队列组成，每个队列都有一个分配能力，这一点与FairScheduler类似，只不过在每个队列内部，作业根据FIFO方式进行调度。本质上说，Capacity Scheduler允许用户或组织为每个用户模拟一个独立使用FIFO的集群。

shuffle和排序：

MapReduce确保每个Reducer的输入都是按键排序的。系统执行排序的过程-将map输出作为输入传给reducer的过程称为shuffle。shuffle属于不断被优化和改进的代码库的一部分，从许多方面来看，shuffle是MapReduce的心脏。

整个shuffle的流程应该是这样：

map结果划分partition 排序sort 分割spill 合并同一划分合并同一划分合并结果排序 reduce处理输出

Map端：

写入缓冲区：Map函数的输出，是由collector处理的，它并不是简单的将结果写到磁盘。它利用缓冲的方式写到内存，并处于效率的考虑进行预排序。每个map都有一个环形的内存缓冲区，用于任务输出，默认缓冲区大小为100MB（由参数io.sort.mb调整），一旦缓冲区内容达到阈值（默认0.8），后台进程边开始把内容写到磁盘（spill），在写磁盘过程中，map输出继续被写到缓冲区，但如果缓冲区被填满，map会阻塞知道写磁盘过程完成。写磁盘将按照轮询方式写到mapred.local.dir属性制定的作业特定子目录中。

写出缓冲区：collect将缓冲区的内容写出时，会调用sortAndSpill函数，这个函数作用主要是创建spill文件，按照key值对数据进行排序，按照划分将数据写入文件，如果配置了combiner类，会先调用combineAndSpill函数再写文件。sortAndSpill每被调用一次，就会写一个spill文件。

合并所有Map的spill文件：TaskTracker会在每个map任务结束后对所有map产生的spill文件进行merge，merge规则是根据分区将各个spill文件中数据同一分区中的数据合并在一起，并写入到一个已分区且排序的map输出文件中。待唯一的已分区且已排序的map输出文件写入最后一条记录后，map端的shuffle阶段就结束了。

在写磁盘前，线程首先根据数据最终要传递到的reducer把数据划分成响应的分区（partition），在每个分区中，后台线程按键进行内排序，如果有一个combiner,它会在排序后的输出上运行。

内存达到溢出写的阈值时，就会新建一个溢出写文件，因为map任务完成其最后一个输出记录之后，会有几个溢出写文件。在任务完成前，溢出写文件会被合并成一个已分区且已排序的输出文件。配置属性io.sort.facor控制一次最多能合并多少流，默认值是10。

如果已经指定combiner,并且写次数至少为3（通过min.mum.spills.for.combine设置）时，则combiner就会在输出文件写到磁盘之前运行。运行combiner的意义在于使map输出更紧凑，舍得写到本地磁盘和传给reducer的数据更少。

写磁盘时压缩：写磁盘时压缩会让写的速度更快，节约磁盘空间，并且减少传给reducer的数据量。默认情况下，输出是不压缩的，但可以通过设置mapred.compress.map.output值为true，就可以启用压缩。使用的压缩库是由mapred.map.output.compression.codec制定。

reducer获得文件分区的工作线程：reducer通过http方式得到输出文件的分区，用于文件分区的工作线程数量由tracker.http.threads属性指定，此设置针对的是每个tasktracker，而不是每个map任务槽。默认值为40，在大型集群上此值可以根据需要而增加。

Reduce端：

复制阶段：reduce会定期向JobTracker获取map的输出位置，一旦拿到输出位置，reduce就会从对应的TaskTracker上复制map输出到本地（如果map输出很小，则会被复制到TaskTracker节点的内存中，否则会被让如磁盘），而不会等到所有map任务结束（当然这个也有参数控制）。

合并阶段：从各个TaskTracker上复制的map输出文件（无论在磁盘还是内存）进行整合，并维持数据原来的顺序。

Reduce阶段：从合并的文件中顺序拿出一条数据进行reduce函数处理，然后将结果输出到本地HDFS。

Map的输出文件位于运行map任务的tasktracker的本地磁盘，现在，tasktracker要为分区文件运行reduce任务。每个任务完成时间可能不同，但是只要有一个任务完成，reduce任务就开始复制其输出，这就是reduce任务的复制阶段（copy phase）。reduce任务有少量复制线程，因此能够并行取得map输出。默认值是5个线程，可以通过mapred.reduce.parallel.copies属性设置。

Reducer如何得知从哪个tasktracker获得map输出：map任务完成后会通知其父tasktracker状态已更新，tasktracker进而通知（通过heart beat）jobtracker。因此，JobTracker就知道map输出和tasktracker之间的映射关系，reducer中的一个线程定期询问jobtracker以便获知map输出位置。由于reducer有可能失败，因此tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们，相反他会等待jobtracker告示它可以删除map输出时才删除，这是作业完成后最后执行的。

如果map输出很小，则会被直接复制到reduce tasktracker的内存缓冲区（大小由mapred.job.shuffle.input.buffer.percent控制，占堆空间的百分比），否则，map输出被复制到磁盘。一旦内存缓冲区达到阈值大小（由mapred.iob.shuffle.merge.percent）

或达到map输出阈值大小（mapred.inmem.threadhold），则合并后溢出写到磁盘中。

随着磁盘上副本增多，后台线程会将他们合并为更大的、排好序的文件。注意：为了合并，压缩的map输出必须在内存中被解压缩。

排序阶段：复制阶段完成后，reduce任务会进入排序阶段，更确切的说是合并阶段，这个阶段将合并map输出，维持其顺序排列。合并是循环进行的，由合并因子决定每次合并的输出文件数量。但让有可能会产生中间文件。

reduce阶段：在最后reduce阶段，会直接把排序好的文件输入reduce函数，不会对中间文件进行再合并，最后的合并即可来自内存，也可来自磁盘。此阶段的输出会直接写到文件系统，一般为hdfs。

细节：这里合并是并非平均合并，比如有40个文件，合并因子为10，我们并不是每趟合并10个，合并四趟。而是第一趟合并4个，后三趟合并10，在最后一趟中4个已合并的文件和余下6个未合并会直接并入reduce。

随着大数据分析市场迅速渗透到各行各业，大家对大数据的关注度也越来越高，大数据技术是什么？

1.Hadoop

Hadoop确实是现在着名的大数据技术.

从2003年到2004年，谷歌发表了GFS、Mapreduce和BigTable三篇技术论文(这几篇论文成为云计算、大数据领域发展的重要基础).

当时，由于公司破产在家的程序员DougCutting基于前两篇论文，开发了简化的山寨版GFS——HDFS和基于MapReduce的计算框架.这是Hadoop当初的版本.

之后，Cutting被Yahoo雇佣，依靠Yahoo的资源改善Hadoop，为Apache开源社区做出贡献.

简要说明Hadoop原理:数据分布式存储，运算程序分别发送到各数据节点进行运算(Map)，合并各节点的运算结果(Reduce)，产生结果.

对于移动TB级数据，计算程序一般为KB--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

在其诞生近十年来，Hadoop以其简单、易用、高效、免费、社区支持丰富等特点成为许多企业云计算、大数据实施的优先事项.

2.Storm

Hadoop很好，但有死穴.其一，其运算模式是批处理.这对许多有实时要求的业务没有很好的支持.

当前大数据的数据量已达PB级别（1PB=1024TB），可以说是庞大无比。同时数据还有结构化（如数字、符号等）、非结构化（如文本、图像、声音、视频等）之分，兼具大量、复杂的特点，使得如何又快又好又便宜得进行大数据的存储，管理和处理变成一个亟待解决的问题。于是分布式计算作为一种低成本的方案被提出来了。原理就是把一组计算机通过网络相互连接组成分散系统，尽管分散系统内的单个计算机的计算能力不强，但是每个计算机只计算一部分数据，多台计算机同时计算，最后将这些计算结果合并得到最终的结果。就整个分散系统而言，处理数据的速度远高于单个计算机，且比集中式计算的大型机要划算的多。为什么是他们，这要从谷歌的三篇论文说起... 2003年到2004年间，Google发表了三篇技术论文，提出了一套分布式计算理论，分别是：但由于Google没有开源，所以其他互联网公司根据Google三篇论文中提到的原理，对照MapReduce搭建了 Hadoop ，对照GFS搭建了 HDFS ，对照BigTable搭建了 HBase. 即：而 Spark 分布式计算是在Hadoop分布式计算的基础上进行的一些架构上的改良。目前也是Hadoop生态圈的成员之一。 Spark与Hadoop最大的不同点在于，Hadoop用硬盘存储数据，而Spark用内存存储数据,所以Spark能提供超过Hadoop100倍的运算速度。但因为内存断电后会丢失数据，所以Spark不能用于处理需要长期保存的数据。 Flink是目前唯一同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架。一般需要实时处理的场景都有他的身影，比如：实时智能推荐、实时复杂事件处理、实时欺诈检测、实时数仓与ETL、实时报表分析等广义的Hadoop不再是单指一个分布式计算系统，而是一套生态系统。那么，这套生态圈是如何产生的呢？在有了Hadoop之类计算系统的基础上，人们希望用更友好的语言来做计算，于是产生了Hive、Pig、SparkSQL等。计算问题解决了，还能在什么地方进一步优化呢？于是人们想到给不同的任务分配资源，于是就有了Yarn、Oozie等。渐渐地，随着各种各样的工具出现，就慢慢演变成一个包含了文件系统、计算框架、调度系统的Hadoop大数据生态圈。附：一些其他的组件示意 Kafka：是一种高吞吐量的分布式发布订阅消息系统，它可以处理各大网站或者App中用户的动作流数据。用户行为数据是后续进行业务分析和优化的重要数据资产，这些数据通常以处理日志和日志聚合的方式解决。 Kafka集群上的消息是有时效性的，可以对发布上来的消息设置一个过期时间，不管有没有被消费，超过过期时间的消息都会被清空。例如，如果过期时间设置为一周，那么消息发布上来一周内，它们都是可以被消费的，如果过了过期时间，这条消息就会被丢弃以释放更多空间。 Oozie：是一个工作流调度系统，统一管理工作流的调度顺序、安排任务的执行时间等，用来管理Hadoop的任务。Oozie集成了Hadoop的MapReduce、Pig、Hive等协议以及Java、Shell脚本等任务，底层仍然是一个MapReduce程序。 ZooKeeper：是Hadoop和HBase的重要组件，是一个分布式开放的应用程序协调服务，主要为应用提供配置维护、域名服务、分布式同步、组服务等一致性服务。 YARN：Hadoop生态有很多工具，为了保证这些工具有序地运行在同一个集群上，需要有一个调度系统进行协调指挥，YARN就是基于此背景诞生的资源统一管理平台。

谷歌发表了三篇论文

Gebru的支持者表示，谷歌的政策“实施得不均衡且具有歧视性”。

最近，科技圈的发生了一件大事，知名AI学者之一、人工智能伦理研究员Timnit Gebru被谷歌突然开除，引得一众哗然。

Timnit Gebru毕业于斯坦福大学，师从李飞飞，是 AI行业为数不多的黑人女性领导者之一，在AI伦理领域，Gebru不仅是基础研究者，更是许多年轻学者的榜样。

她最知名的研究是在2018年发现，面部识别软件对黑人女性有高达35%的错误率，而对白人男性几乎完全正确。

然而，因一篇论文不符合谷歌内部评审，Gebru宣称被谷歌单方面辞退。

大约一周前，Gebru对外宣称，因与他人共同撰写了一篇批评谷歌AI系统的研究论文后，自己被谷歌解雇了。

然而，谷歌对外表示，因论文审查不符合谷歌要求，接受Gebru的个人辞职申请。

据外媒报道，这篇论文标题为“On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”（随机鹦鹉的危险：语言模型会太大吗？），由谷歌的内部团队和外部研究人员共同撰写，提出科技公司应该做更多事情，以确保AI写作和语音识别不会加剧歧视。

值得注意的是，论文内容谈到了谷歌BERT（自然语言处理系统）在AI伦理上的负面影响。

一开始，双方的争议点在于审查流程的问题。根据谷歌公司发表论文的流程，Gebru应在两周前提交论文，而不是在最后期限的前一天。

但Gebru的团队对这一评估进行了反驳，称审查政策旨在灵活，大多数人并没有遵循目前谷歌AI负责人Jeff Dean制定的结构。该团队收集的数据显示，绝大多数的审批都发生在截止日期之前，41%的审批发生在截止日期之后。他们写道： “没有硬性要求论文必须在两周内真正通过这个审查。”

同时，Dean认定该论文没有达到标准，因为它 “忽视了太多相关研究” ，从而要求她撤回这篇论文，或者删除谷歌员工的署名。

据《泰晤士报》（the Times）报道，Gebru在撤回该论文之前，曾要求与谷歌进行进一步讨论。Gebru表示，如果谷歌不能解决她的担忧，她将从公司辞职。

随后谷歌告诉Gebru，公司不能满足她的条件，并将立即接受她的辞职。

Dean还表示，Gebru煽动同事不要参与谷歌的DEI(多元化、公平和包容性)项目，他对此感到失望。

不久，Gebru很快就发现已经无法登陆自己的公司账户，这表示她已经被开除了。

离任后，总共有超过1,400名Google员工以及1,800多名其他行业专家签署了一封公开信，以支持Gebru。

信中写道：“格布鲁博士并没有被谷歌誉为杰出的人才和多产的贡献者，而是面临着防御，种族主义，研究审查以及现在的报复性开除。”

为Gebru辩护的前同事和外部行业研究人员们质疑，在这种情况下，谷歌是否武断地更严格地执行了规则。

前Google员工发推文表示“我支持@timnitGebru”。

这件事也加剧了 Google管理层与一些普通员工之间的紧张关系。

在Gebru发布离职推文的同一天，谷歌被美国国家劳动关系委员会（National Labour Relations Board）指控报复，该机构在投诉中称，谷歌通过监视，讯问和解雇维权雇员而违反了美国劳动法。

Gebru的离职，还引起了已经对谷歌在人工智能道德方面的工作感到担忧的人群的反感。去年Google成立了一个AI道德委员会，之后便遭到了该小组人员的抨击。仅一周后，该委员会被解散。

等会让他赶紧染发剂对人体

吴军博士毕业于清华大学计算机系（本科）和电子工程系（硕士），并于1993-1996年在清华任讲师。他于1996年起在美国约翰霍普金斯大学攻读博士，并于2002年获得计算机科学博士学位。在清华和约翰霍普金斯大学期间，吴军博士致力于语音识别、自然语言处理，特别是统计语言模型的研究。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。吴军博士于2002年加入Google公司，现任Google研究院资深研究员。到Google不久，他和三个同事们开创了网络搜索反作弊的研究领域，并因此获得工程奖。2003年，他和两个同事共同成立了中日韩文搜索部门。吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google其间，他领导了许多研发项目，包括许多与中文相关的产品和自然语言处理的项目，并得到了公司首席执行官埃里克.施密特的高度评价。吴军博士在国内外发表过数十篇论文并获得和申请了近十项美国和国际专利。他于2005年起，当选为约翰霍普金斯大学计算机系董事会董事。他是一个还不错的摄影爱好者，一个古典音乐迷，喜欢享受高质量的影视，比如Blu-ray的电影。平时偶尔会修理园子，甚至做点木匠活。每年旅游很多次。当然，还时不时地为Google China Blog写东西。以前读书很多，现在事情太多读得就少了

谷歌发表的三篇论文

简单点来说，就是Hadoop是继承了Google的MapReduce、GFS思想，开发出来的一套框架，后来又交给了Apache作为开源项目。MapReduce诞生于谷歌实验室，MapReduce与GFS、BigTable并称为谷歌的三驾马车，、而Hadoop则是谷歌三驾马车的开源实现。2003年，Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS是google公司为了存储海量搜索数据而设计的专用文件系统。2004年，Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。2004年，Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行分析运算。2005年，Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce升级命名为Hadoop，Yahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop。

链接：

吴军：科技史纲60讲。吴军，计算机科学家、硅谷投资人、著名自然语言处理和搜索专家、谷歌中日韩文搜索算法的主要设计者。畅销书《浪潮之巅》《数学之美》《文明之光》《大学之路》《硅谷之谜》《智能时代》《见识》《态度》作者。

我们总说要铭记历史，但是，在一个较长的历史阶段回望历史事件的影响力，再大的事情都显得微乎其微。从文明开启到未来科技，从5大文明中心到100多个具体发明、理论，吴军带你俯瞰科技演化，理清发明的关系，看懂世界变化规律。

课程目录：

历次技术革命的规律怎么用到当下？

各个文明的竞争，比的到底是什么

世界贸易中的瓷器和真实的历史

信息从哪里来，它和能量怎样互换？

.....

因为，Google是大数据鼻祖。很多人提起大数据，必然会想起Google 的“三驾马车”（也称谷歌三宝）：GFS、MapReduce、BigTable。正所谓三篇论文定大数据之江山，它激发了大数据技术开源时代的到来，百花齐放，争相斗艳，成就了Hadoop的辉煌十载。尤其是近年来，大数据技术的发展，不论是技术的迭代，还是生态圈的繁荣，都远超人们的想象。从 Spark 超越 Hadoop 勇攀高峰，到 Flink 横空出世挑战 Spark 成为大数据处理领域一颗耀眼的新星，再到如今 Google 又决心用 Apache Beam 一统天下。大数据开源技术的发展可谓是继往开来，跌宕起伏，波澜壮阔，俨然一副绵绵不断的辉煌画卷。

dhfs谷歌发表的三篇论文

1897年，J.J.汤姆逊在研究阴极射线的时候，发现了原子中电子的存在。这打破了从古希腊人那里流传下来的“原子不可分割”的理念，明确地向人们展示：原子是可以继续分割的，它有着自己的内部结构。那么，这个结构是怎么样的呢？汤姆逊那时完全缺乏实验证据，他于是展开自己的想象，勾勒出这样的图景：原子呈球状，带正电荷。而带负电荷的电子则一粒粒地“镶嵌”在这个圆球上。这样的一幅画面，也就是史称的“葡萄干布丁”模型，电子就像布丁上的葡萄干一样。但是，1910年，卢瑟福和学生们在他的实验室里进行了一次名留青史的实验。他们用α粒子（带正电的氦核）来轰击一张极薄的金箔，想通过散射来确认那个“葡萄干布丁”的大小和性质。但是，极为不可思议的情况出现了：有少数α粒子的散射角度是如此之大，以致超过90度。对于这个情况，卢瑟福自己描述得非常形象：“这就像你用十五英寸的炮弹向一张纸轰击，结果这炮弹却被反弹了回来，反而击中了你自己一样”。卢瑟福发扬了亚里士多德前辈“吾爱吾师，但吾更爱真理”的优良品格，决定修改汤姆逊的葡萄干布丁模型。他认识到，α粒子被反弹回来，必定是因为它们和金箔原子中某种极为坚硬密实的核心发生了碰撞。这个核心应该是带正电，而且集中了原子的大部分质量。但是，从α粒子只有很少一部分出现大角度散射这一情况来看，那核心占据的地方是很小的，不到原子半径的万分之一。于是，卢瑟福在次年（1911）发表了他的这个新模型。在他描述的原子图象中，有一个占据了绝大部分质量的“原子核”在原子的中心。而在这原子核的四周，带负电的电子则沿着特定的轨道绕着它运行。这很像一个行星系统（比如太阳系），所以这个模型被理所当然地称为“行星系统”模型。在这里，原子核就像是我们的太阳，而电子则是围绕太阳运行的行星们。但是，这个看来完美的模型却有着自身难以克服的严重困难。因为物理学家们很快就指出，带负电的电子绕着带正电的原子核运转，这个体系是不稳定的。两者之间会放射出强烈的电磁辐射，从而导致电子一点点地失去自己的能量。作为代价，它便不得不逐渐缩小运行半径，直到最终“坠毁”在原子核上为止，整个过程用时不过一眨眼的工夫。换句话说，就算世界如同卢瑟福描述的那样，也会在转瞬之间因为原子自身的坍缩而毁于一旦。原子核和电子将不可避免地放出辐射并互相中和，然后把卢瑟福和他的实验室，乃至整个英格兰，整个地球，整个宇宙都变成一团混沌。不过，当然了，虽然理论家们发出如此阴森恐怖的预言，太阳仍然每天按时升起，大家都活得好好的。电子依然快乐地围绕原子打转，没有一点失去能量的预兆。而丹麦的年轻人尼尔斯.玻尔照样安安全全地抵达了曼彻斯特，并开始谱写物理史上属于他的华彩篇章。玻尔没有因为卢瑟福模型的困难而放弃这一理论，毕竟它有着α粒子散射实验的强力支持。相反，玻尔对电磁理论能否作用于原子这一人们从未涉足过的层面，倒是抱有相当的怀疑成分。曼彻斯特的生活显然要比剑桥令玻尔舒心许多，虽然他和卢瑟福两个人的性格是如此不同，后者是个急性子，永远精力旺盛，而他玻尔则像个害羞的大男孩，说一句话都显得口齿不清。但他们显然是绝妙的一个团队，玻尔的天才在卢瑟福这个老板的领导下被充分地激发出来，很快就在历史上激起壮观的波澜。 1912年7月，玻尔完成了他在原子结构方面的第一篇论文，历史学家们后来常常把它称作“曼彻斯特备忘录”。玻尔在其中已经开始试图把量子的概念结合到卢瑟福模型中去，以解决经典电磁力学所无法解释的难题。但是，一切都只不过是刚刚开始而已，在那片还没有前人涉足的处女地上，玻尔只能一步步地摸索前进。没有人告诉他方向应该在哪里，而他的动力也不过是对于卢瑟福模型的坚信和年轻人特有的巨大热情。玻尔当时对原子光谱的问题一无所知，当然也看不到它后来对于原子研究的决定性意义，不过，革命的方向已经确定，已经没有什么能够改变量子论即将崭露头角这个事实了。在浓云密布的天空中，出现了一线微光。虽然后来证明，那只是一颗流星，但是这光芒无疑给已经僵硬而老化的物理世界注入了一种新的生机，一种有着新鲜气息和希望的活力。这光芒点燃了人们手中的火炬，引导他们去寻找真正的永恒的光明。终于，7月24日，玻尔完成了他在英国的学习，动身返回祖国丹麦。在那里，他可爱的未婚妻玛格丽特正在焦急地等待着他，而物理学的未来也即将要向他敞开心扉。在临走前，玻尔把他的论文交给卢瑟福过目，并得到了热切的鼓励。只是，卢瑟福有没有想到，这个青年将在怎样的一个程度上，改变人们对世界的终极看法呢？是的，是的，时机已到。伟大的三部曲即将问世，而真正属于量子的时代，也终于到来。 ********* 饭后闲话：诺贝尔奖得主的幼儿园卢瑟福本人是一位伟大的物理学家，这是无需置疑的。但他同时更是一位伟大的物理导师，他以敏锐的眼光去发现人们的天才，又以伟大的人格去关怀他们，把他们的潜力挖掘出来。在卢瑟福身边的那些助手和学生们，后来绝大多数都出落得非常出色，其中更包括了为数众多的科学大师们。我们熟悉的尼尔斯.玻尔，20世纪最伟大的物理学家之一，1922年诺贝尔物理奖得主，量子论的奠基人和象征。在曼彻斯特跟随过卢瑟福。保罗.狄拉克（Paul Dirac），量子论的创始人之一，同样伟大的科学家，1933年诺贝尔物理奖得主。他的主要成就都是在剑桥卡文迪许实验室做出的（那时卢瑟福接替了J.J.汤姆逊成为这个实验室的主任）。狄拉克获奖的时候才31岁，他对卢瑟福说他不想领这个奖，因为他讨厌在公众中的名声。卢瑟福劝道，如果不领奖的话，那么这个名声可就更响了。中子的发现者，詹姆斯.查德威克（James Chadwick）在曼彻斯特花了两年时间在卢瑟福的实验室里。他于1935年获得诺贝尔物理奖。布莱克特（Patrick M. S. Blackett）在一次大战后辞去了海军上尉的职务，进入剑桥跟随卢瑟福学习物理。他后来改进了威尔逊云室，并在宇宙线和核物理方面作出了巨大的贡献，为此获得了1948年的诺贝尔物理奖。 1932年，沃尔顿（E.T.S Walton）和考克劳夫特（John Cockcroft）在卢瑟福的卡文迪许实验室里建造了强大的加速器，并以此来研究原子核的内部结构。这两位卢瑟福的弟子在1951年分享了诺贝尔物理奖金。这个名单可以继续开下去，一直到长得令人无法忍受为止：英国人索迪（Frederick Soddy），1921年诺贝尔化学奖。瑞典人赫维西（Georg von Hevesy），1943年诺贝尔化学奖。德国人哈恩（Otto Hahn），1944年诺贝尔化学奖。英国人鲍威尔（Cecil Frank Powell），1950年诺贝尔物理奖。美国人贝特（Hans Bethe），1967年诺贝尔物理奖。苏联人卡皮查（P.L.Kapitsa），1978年诺贝尔化学奖。除去一些稍微疏远一点的case，卢瑟福一生至少培养了10位诺贝尔奖得主（还不算他自己本人）。当然，在他的学生中还有一些没有得到诺奖，但同样出色的名字，比如汉斯.盖革（Hans Geiger，他后来以发明了盖革计数器而著名）、亨利.莫斯里（Henry Mosley，一个被誉为有着无限天才的年轻人，可惜死在了一战的战场上）、恩内斯特.马斯登（Ernest Marsden，他和盖革一起做了α粒子散射实验，后来被封为爵士）……等等，等等。卢瑟福的实验室被后人称为“诺贝尔奖得主的幼儿园”。他的头像出现在新西兰货币的最大面值——100元上面，作为国家对他最崇高的敬意和纪念。五 1912年8月1日，玻尔和玛格丽特在离哥本哈根不远的一个小镇上结婚，随后他们前往英国展开蜜月。当然，有一个人是万万不能忘记拜访的，那就是玻尔家最好的朋友之一，卢瑟福教授。虽然是在蜜月期，原子和量子的图景仍然没有从玻尔的脑海中消失。他和卢瑟福就此再一次认真地交换了看法，并加深了自己的信念。回到丹麦后，他便以百分之二百的热情投入到这一工作中去。揭开原子内部的奥秘，这一梦想具有太大的诱惑力，令玻尔完全无法抗拒。为了能使大家跟得上我们史话的步伐，我们还是再次描述一下当时玻尔面临的处境。卢瑟福的实验展示了一个全新的原子面貌：有一个致密的核心处在原子的中央，而电子则绕着这个中心运行，像是围绕着太阳的行星。然而，这个模型面临着严重的理论困难，因为经典电磁理论预言，这样的体系将会无可避免地释放出辐射能量，并最终导致体系的崩溃。换句话说，卢瑟福的原子是不可能稳定存在超过1秒钟的。玻尔面临着选择，要么放弃卢瑟福模型，要么放弃麦克斯韦和他的伟大理论。玻尔勇气十足地选择了放弃后者。他以一种深刻的洞察力预见到，在原子这样小的层次上，经典理论将不再成立，新的革命性思想必须被引入，这个思想就是普朗克的量子以及他的h常数。应当说这是一个相当困难的任务。如何推翻麦氏理论还在其次，关键是新理论要能够完美地解释原子的一切行为。玻尔在哥本哈根埋头苦干的那个年头，门捷列夫的元素周期律已经被发现了很久，化学键理论也已经被牢固地建立。种种迹象都表明在原子内部，有一种潜在的规律支配着它们的行为，并形成某种特定的模式。原子世界像一座蕴藏了无穷财宝的金字塔，但如何找到进入其内部的通道，却是一个让人挠头不已的难题。然而，像当年的贝尔佐尼一样，玻尔也有着一个探险家所具备的最宝贵的素质：洞察力和直觉，这使得他能够抓住那个不起眼，但却是唯一的，稍纵即逝的线索，从而打开那扇通往全新世界的大门。1913年初，年轻的丹麦人汉森（Hans Marius Hansen）请教玻尔，在他那量子化的原子模型里如何解释原子的光谱线问题。对于这个问题，玻尔之前并没有太多地考虑过，原子光谱对他来说是陌生和复杂的，成千条谱线和种种奇怪的效应在他看来太杂乱无章，似乎不能从中得出什么有用的信息。然而汉森告诉玻尔，这里面其实是有规律的，比如巴尔末公式就是。他敦促玻尔关心一下巴尔末的工作。突然间，就像伊翁（Ion）发现了藏在箱子里的绘着戈耳工的麻布，一切都豁然开朗。山重水复疑无路，柳暗花明又一村。在谁也没有想到的地方，量子得到了决定性的突破。1954年，玻尔回忆道：当我一看见巴尔末的公式，一切就都清楚不过了。要从头回顾光谱学的发展，又得从伟大的本生和基尔霍夫说起，而那势必又是一篇规模宏大的文字。鉴于篇幅，我们只需要简单地了解一下这方面的背景知识，因为本史话原来也没有打算把方方面面都事无巨细地描述完全。概括来说，当时的人们已经知道，任何元素在被加热时都会释放出含有特定波长的光线，比如我们从中学的焰色实验中知道，钠盐放射出明亮的黄光，钾盐则呈紫色，锂是红色，铜是绿色……等等。将这些光线通过分光镜投射到屏幕上，便得到光谱线。各种元素在光谱里一览无余：钠总是表现为一对黄线，锂产生一条明亮的红线和一条较暗的橙线，钾则是一条紫线。总而言之，任何元素都产生特定的唯一谱线。但是，这些谱线呈现什么规律以及为什么会有这些规律，却是一个大难题。拿氢原子的谱线来说吧，这是最简单的原子谱线了。它就呈现为一组线段，每一条线都代表了一个特定的波长。比如在可见光区间内，氢原子的光谱线依次为：656，484，434，410，397，388，383，380……纳米。这些数据无疑不是杂乱无章的，1885年，瑞士的一位数学教师巴尔末（Johann Balmer）发现了其中的规律，并总结了一个公式来表示这些波长之间的关系，这就是著名的巴尔末公式。将它的原始形式稍微变换一下，用波长的倒数来表示，则显得更加简单明了： ν＝R（1/2^2 - 1/n^2）其中的R是一个常数，称为里德伯（Rydberg）常数，n是大于2的正整数（3，4，5……等等）。在很长一段时间里，这是一个十分有用的经验公式。但没有人可以说明，这个公式背后的意义是什么，以及如何从基本理论将它推导出来。但是在玻尔眼里，这无疑是一个晴天霹雳，它像一个火花，瞬间点燃了玻尔的灵感，所有的疑惑在那一刻变得顺理成章了，玻尔知道，隐藏在原子里的秘密，终于向他嫣然展开笑颜。我们来看一下巴耳末公式，这里面用到了一个变量n，那是大于2的任何正整数。n可以等于3，可以等于4，但不能等于3.5，这无疑是一种量子化的表述。玻尔深呼了一口气，他的大脑在急速地运转，原子只能放射出波长符合某种量子规律的辐射，这说明了什么呢？我们回忆一下从普朗克引出的那个经典量子公式：E = hν。频率（波长）是能量的量度，原子只释放特定波长的辐射，说明在原子内部，它只能以特定的量吸收或发射能量。而原子怎么会吸收或者释放能量的呢？这在当时已经有了一定的认识，比如斯塔克（J.Stark）就提出，光谱的谱线是由电子在不同势能的位置之间移动而放射出来的，英国人尼科尔森（J.W.Nicholson）也有着类似的想法。玻尔对这些工作无疑都是了解的。一个大胆的想法在玻尔的脑中浮现出来：原子内部只能释放特定量的能量，说明电子只能在特定的“势能位置”之间转换。也就是说，电子只能按照某些“确定的”轨道运行，这些轨道，必须符合一定的势能条件，从而使得电子在这些轨道间跃迁时，只能释放出符合巴耳末公式的能量来。我们可以这样来打比方。如果你在中学里好好地听讲过物理课，你应该知道势能的转化。一个体重100公斤的人从1米高的台阶上跳下来，他/她会获得1000焦耳的能量，当然，这些能量会转化为落下时的动能。但如果情况是这样的，我们通过某种方法得知，一个体重100公斤的人跳下了若干级高度相同的台阶后，总共释放出了1000焦耳的能量，那么我们关于每一级台阶的高度可以说些什么呢？明显而直接的计算就是，这个人总共下落了1米，这就为我们台阶的高度加上了一个严格的限制。如果在平时，我们会承认，一个台阶可以有任意的高度，完全看建造者的兴趣而已。但如果加上了我们的这个条件，每一级台阶的高度就不再是任意的了。我们可以假设，总共只有一级台阶，那么它的高度就是1米。或者这个人总共跳了两级台阶，那么每级台阶的高度是0.5米。如果跳了3次，那么每级就是1/3米。如果你是间谍片的爱好者，那么大概你会推测每级台阶高1/39米。但是无论如何，我们不可能得到这样的结论，即每级台阶高0.6米。道理是明显的：高0.6米的台阶不符合我们的观测（总共释放了1000焦耳能量）。如果只有一级这样的台阶，那么它带来的能量就不够，如果有两级，那么总高度就达到了1.2米，导致释放的能量超过了观测值。如果要符合我们的观测，那么必须假定总共有一又三分之二级台阶，而这无疑是荒谬的，因为小孩子都知道，台阶只能有整数级。在这里，台阶数“必须”是整数，就是我们的量子化条件。这个条件就限制了每级台阶的高度只能是1米，或者1/2米，而不能是这其间的任何一个数字。原子和电子的故事在道理上基本和这个差不多。我们还记得，在卢瑟福模型里，电子像行星一样绕着原子核打转。当电子离核最近的时候，它的能量最低，可以看成是在“平地”上的状态。但是，一旦电子获得了特定的能量，它就获得了动力，向上“攀登”一个或几个台阶，到达一个新的轨道。当然，如果没有了能量的补充，它又将从那个高处的轨道上掉落下来，一直回到“平地”状态为止，同时把当初的能量再次以辐射的形式释放出来。关键是，我们现在知道，在这一过程中，电子只能释放或吸收特定的能量（由光谱的巴尔末公式给出），而不是连续不断的。玻尔做出了合理的推断：这说明电子所攀登的“台阶”，它们必须符合一定的高度条件，而不能像经典理论所假设的那样，是连续而任意的。连续性被破坏，量子化条件必须成为原子理论的主宰。我们不得不再一次用到量子公式E = hν，还请各位多多包涵。史蒂芬.霍金在他那畅销书《时间简史》的Acknowledgements里面说，插入任何一个数学公式都会使作品的销量减半，所以他考虑再三，只用了一个公式E = mc2。我们的史话本是戏作，也不考虑那么多，但就算列出公式，也不强求各位看客理解其数学意义。唯有这个E = hν，笔者觉得还是有必要清楚它的含义，这对于整部史话的理解也是有好处的，从科学意义上来说，它也决不亚于爱因斯坦的那个E = mc2。所以还是不厌其烦地重复一下这个方程的描述：E代表能量，h是普朗克常数，ν是频率。回到正题，玻尔现在清楚了，氢原子的光谱线代表了电子从一个特定的台阶跳跃到另外一个台阶所释放的能量。因为观测到的光谱线是量子化的，所以电子的“台阶”（或者轨道）必定也是量子化的，它不能连续而取任意值，而必须分成“底楼”，“一楼”，“二楼”等，在两层“楼”之间，是电子的禁区，它不可能出现在那里。正如一个人不能悬在两级台阶之间漂浮一样。如果现在电子在“三楼”，它的能量用W3表示，那么当这个电子突发奇想，决定跳到“一楼”（能量W1）的期间，它便释放出了W3-W1的能量。我们要求大家记住的那个公式再一次发挥作用，W3-W1 = hν。所以这一举动的直接结果就是，一条频率为ν的谱线出现在该原子的光谱上。玻尔所有的这些思想，转化成理论推导和数学表达，并以三篇论文的形式最终发表。这三篇论文（或者也可以说，一篇大论文的三个部分），分别题名为《论原子和分子的构造》（On the Constitution of Atoms and Molecules），《单原子核体系》（Systems Containing Only a Single Nucleus）和《多原子核体系》（Systems Containing Several Nuclei），于1913年3月到9月陆续寄给了远在曼彻斯特的卢瑟福，并由后者推荐发表在《哲学杂志》（Philosophical Magazine）上。这就是在量子物理历史上划时代的文献，亦即伟大的“三部曲”。这确确实实是一个新时代的到来。如果把量子力学的发展史分为三部分，1900年的普朗克宣告了量子的诞生，那么1913年的玻尔则宣告了它进入了青年时代。一个完整的关于量子的理论体系第一次被建造起来，虽然我们将会看到，这个体系还留有浓重的旧世界的痕迹，但它的意义却是无论如何不能低估的。量子第一次使全世界震惊于它的力量，虽然它的意识还有一半仍在沉睡中，虽然它自己仍然置身于旧的物理大厦之内，但它的怒吼已经无疑地使整个旧世界摇摇欲坠，并动摇了延绵几百年的经典物理根基。神话中的巨人已经开始苏醒，那些藏在古老城堡里的贵族们，颤抖吧！

如图所示：

对于某元素原子的核外电子排布情况，先确定该原子的核外电子数（即原子序数、质子数、核电荷数），如26号元素铁，其原子核外总共有26个电子，然后将这26个电子从能量最低的1s亚层依次往能量较高的亚层上排布，只有前面的亚层填满后。

铁在生活中分布较广，占地壳含量的4.75%，仅次于氧、硅、铝，位居地壳含量第四。纯铁是柔韧而延展性较好的银白色金属，用于制发电机和电动机的铁芯，铁及其化合物还用于制磁铁、药物、墨水、颜料、磨料。

扩展资料

原子的核外电子排布与轨道表示式、原子结构示意图的关系：原子的核外电子排布式与轨道表示式描述的内容是完全相同的。

相对而言，轨道表示式要更加详细一些，它既能明确表示出原子的核外电子排布在哪些电子层、电子亚层上，还能表示出这些电子是处于自旋相同还是自旋相反的状态，而核外电子排布式不具备后一项功能。

原子结构示意图中可以看出电子在原子核外分层排布的情况，但它并没有指明电子分布在哪些亚层上，也没有指明每个电子的自旋情况，其优点在于可以直接看出原子的核电荷数（或核外电子总数）。

参考资料来源：百度百科-铁

根据电子分布的最低能量原理，排布的核外电子将尽可能优先占据能级较低的轨道，l.pauling根据大量的光谱实验总结出多多电子原子个轨道能级从低到高的近似顺序：1s；2s、2p；3s、3p；4s、3d、4p；铁原子的电子层结构1s2；2s22p6；3s23p63d6；4s2。所以次外层位14个

hadoop谷歌发表的三篇论文

Hadoop[1-2]由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子 hadoop logo项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

Hadoop由 Apache Software Foundation（阿帕奇软件基金会）公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。 2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。总结：是由谷歌发表的博客而启发灵感，由apache主持落地研发的。

什么是大数据：（1.）大数据是指在一定时间内无法用常规软件对其内容进行抓取，管理和处理的数据集合，简而言之就是数据量非常大，大到无法用常规工具进行处理，如关系型数据库，数据仓库等。这里“大”是一个什么量级呢？如在阿里巴巴每天处理数据达到20PB（即20971520GB）.2.大数据的特点：（1.）体量巨大。按目前的发展趋势来看，大数据的体量已经到达PB级甚至EB级。（2.）大数据的数据类型多样，以非结构化数据为主，如网络杂志，音频，视屏，图片，地理位置信息，交易数据，社交数据等。（3.）价值密度低。有价值的数据仅占到总数据的一小部分。比如一段视屏中，仅有几秒的信息是有价值的。（4.）产生和要求处理速度快。这是大数据区与传统数据挖掘最显著的特征。3.除此之外还有其他处理系统可以处理大数据。Hadoop （开源）Spark（开源）Storm（开源）MongoDB（开源）IBM PureDate（商用）Oracle Exadata（商用）SAP Hana（商用）Teradata AsterData（商用）EMC GreenPlum（商用）HP Vertica（商用）注：这里我们只介绍Hadoop。二：Hadoop体系结构Hadoop来源：Hadoop源于Google在2003到2004年公布的关于GFS（Google File System），MapReduce和BigTable的三篇论文，创始人Doug Cutting。Hadoop现在是Apache基金会顶级项目，“Hadoop”一个虚构的名字。由Doug Cutting的孩子为其黄色玩具大象所命名。Hadoop的核心：（1.）HDFS和MapReduce是Hadoop的两大核心。通过HDFS来实现对分布式储存的底层支持，达到高速并行读写与大容量的储存扩展。（2.）通过MapReduce实现对分布式任务进行处理程序支持，保证高速分区处理数据。3.Hadoop子项目：（1.）HDFS：分布式文件系统，整个Hadoop体系的基石。（2.）MapReduce/YARN：并行编程模型。YARN是第二代的MapReduce框架，从Hadoop 0.23.01版本后，MapReduce被重构，通常也称为MapReduce V2，老MapReduce也称为 MapReduce V1。（3.）Hive：建立在Hadoop上的数据仓库，提供类似SQL语音的查询方式，查询Hadoop中的数据，（5.）HBase:全称Hadoop Database，Hadoop的分布式的，面向列的数据库，来源于Google的关于BigTable的论文，主要用于随机访问，实时读写的大数据。（6.）ZooKeeper：是一个为分布式应用所设计的协调服务，主要为用户提供同步，配置管理，分组和命名等服务，减轻分布式应用程序所承担的协调任务。还有其它特别多其它项目这里不做一一解释了。三：安装Hadoop运行环境用户创建：（1.）创建Hadoop用户组，输入命令：groupadd hadoop（2.）创建hduser用户，输入命令：useradd –p hadoop hduser（3.）设置hduser的密码，输入命令：passwd hduser按提示输入两次密码（4.）为hduser用户添加权限，输入命令：#修改权限chmod 777 /etc/sudoers#编辑sudoersGedit /etc/sudoers#还原默认权限chmod 440 /etc/sudoers先修改sudoers 文件权限，并在文本编辑窗口中查找到行“root ALL=（ALL）”，紧跟后面更新加行“hduser ALL=（ALL） ALL”，将hduser添加到sudoers。添加完成后切记还原默认权限，否则系统将不允许使用sudo命令。（5.）设置好后重启虚拟机，输入命令：Sudo reboot重启后切换到hduser用户登录安装JDK（1.）下载jdk-7u67-linux-x64.rpm,并进入下载目录。（2.）运行安装命令:Sudo rpm –ivh jdk-7u67-linux-x64.rpm完成后查看安装路径，输入命令：Rpm –qa jdk –l记住该路径，（3.）配置环境变量，输入命令：Sudo gedit /etc/profile打开profile文件在文件最下面加入如下内容export JAVA_HOME=/usr/java/jdk.7.0.67export CLASSPATH=$ JAVA_HOME/lib:$ CLASSPATHexport PATH=$ JAVA_HOME/bin:$PATH保存后关闭文件，然后输入命令使环境变量生效：Source /etc/profile（4.）验证JDK，输入命令：Java –version若出现正确的版本则安装成功。配置本机SSH免密码登录：（1.）使用ssh-keygen 生成私钥与公钥文件，输入命令：ssh-keygen –t rsa（2.）私钥留在本机，公钥发给其它主机（现在是localhost）。输入命令：ssh-copy-id localhost（3.）使用公钥来登录输入命令：ssh localhost配置其它主机SSH免密登录（1.）克隆两次。在VMware左侧栏中选中虚拟机右击，在弹出的快捷键菜单中选中管理---克隆命令。在克隆类型时选中“创建完整克隆”，单击“下一步”，按钮直到完成。（2.）分别启动并进入三台虚拟机，使用ifconfig查询个主机IP地址。（3.）修改每台主机的hostname及hosts文件。步骤1：修改hostname，分别在各主机中输入命令。Sudo gedit /etc/sysconfig/network步骤2：修改hosts文件：sudo gedit /etc/hosts步骤3：修改三台虚拟机的IP第一台对应node1虚拟机的IP：192.168.1.130第二台对应node2虚拟机的IP：192.168.1.131第三台对应node3虚拟机的IP：192.168.1.132（4.）由于已经在node1上生成过密钥对，所有现在只要在node1上输入命令：ssh-copy-id node2ssh-copy-id node3这样就可以将node1的公钥发布到node2，node3。（5.）测试SSH,在node1上输入命令：ssh node2#退出登录exitssh node3exit四：Hadoop完全分布式安装1. Hadoop有三种运行方式：（1.）单机模式：无须配置，Hadoop被视为一个非分布式模式运行的独立Java进程（2.）伪分布式：只有一个节点的集群，这个节点即是Master（主节点，主服务器）也是Slave（从节点，从服务器），可在此单节点上以不同的java进程模拟分布式中的各类节点（3.）完全分布式：对于Hadoop,不同的系统会有不同的节点划分方式。2.安装Hadoop（1.）获取Hadoop压缩包hadoop-2.6.0.tar.gz,下载后可以使用VMWare Tools通过共享文件夹，或者使用Xftp工具传到node1。进入node1 将压缩包解压到/home/hduser目录下，输入命令：#进入HOME目录即：“/home/hduser”cd ~tar –zxvf hadoop-2.6.0.tar.gz（2.）重命名hadoop输入命令：mv hadoop-2.6.0 hadoop（3.）配置Hadoop环境变量，输入命令：Sudo gedit /etc/profile将以下脚本加到profile内：#hadoopexport HADOOP_HOME=/home/hduser/hadoopexport PATH=$HADOOP_HOME/bin:$PATH保存关闭，最后输入命令使配置生效source /etc/profile注：node2，和node3都要按照以上配置进行配置。3.配置Hadoop（1.）hadoop-env.sh文件用于指定JDK路径。输入命令：[hduser@node1 ~]$ cd ~/hadoop/etc/hadoop[hduser@node1 hadoop]$ gedit hadoop-env.sh然后增加如下内容指定jDK路径。export JAVA_HOME=/usr/java/jdk1.7.0_67（2.）打开指定JDK路径,输入命令：export JAVA_HOME=/usr/java/jdk1.7.0_67（4.）core-site.xml:该文件是Hadoop全局配置，打开并在元素中增加配置属性如下：fs.defaultFshdfs://node1:9000hadoop.tmp.dirfile:/home/hduser/hadoop/tmp这里给出了两个常用的配置属性，fs.defaultFS表示客户端连接HDFS时，默认路径前缀，9000是HDFS工作的端口。Hadoop.tmp.dir如不指定会保存到系统的默认临时文件目录/tmp中。（5.）hdfs-site.xml:该文件是hdfs的配置。打开并在元素中增加配置属性。（6.）mapred-site.xml:该文件是MapReduce的配置，可从模板文件mapred-site.xml.template中复制打开并在元素中增加配置。（7.）yarn-site.xml:如果在mapred-site.xml配置了使用YARN框架，那么YARN框架就使用此文件中的配置，打开并在元素中增加配置属性。（8.）复制这七个命令到node2,node3。输入命令如下：scp –r /home/hduser/hadoop/etc/hadoop/ hduser@node2:/home/hduser/hadoop/etc/scp –r /home/hduser/hadoop/etc/hadoop/ hduser@node3:/home/hduser/hadoop/etc/4.验证：下面验证hadoop是否正确（1.）在Master主机（node1）上格式化NameNode。输入命令：[hduser@node1 ~]$ cd ~/hadoop[hduser@node1 hadoop]$ bin/hdfs namenode –format（2）关闭node1,node2 ,node3,系统防火墙并重启虚拟机。输入命令：service iptables stopsudo chkconfig iptables offreboot（3.）输入以下启动HDFS：[hduser@node1 ~]$ cd ~/hadoop（4.）启动所有[hduser@node1 hadoop]$ sbin/start-all.sh（5.）查看集群状态：[hduser@node1 hadoop]$ bin/hdfs dfsadmin –report（6.）在浏览器中查看hdfs运行状态，网址：（7.）停止Hadoop。输入命令：[hduser@node1 hadoop]$ sbin/stop-all.sh五：Hadoop相关的shell操作（1.）在操作系统中/home/hduser/file目录下创建file1.txt,file2.txt可使用图形界面创建。file1.txt输入内容：Hello World hi HADOOPfile2.txt输入内容Hello World hi CHIAN（2.）启动hdfs后创建目录/input2[hduser@node1 hadoop]$ bin/hadoop fs –mkdir /input2（3.）将file1.txt.file2.txt保存到hdfs中:[hduser@node1 hadoop]$ bin/hadoop fs –put -/file/file*.txt /input2/（4.）[hduser@node1 hadoop]$ bin/hadoop fs –ls /input2