按照正式的定义,Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。分布式计算是一个宽泛并且不断变化的领域,但Hadoop与众不同之处在于以下几点。

   方便——Hadoop运行在由一般商用机器构成的大型集群上,或者如亚马逊弹性计算云(EC2)等云计算服务之上。

   健壮——Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁地出现失效。它可以从容地处理大多数此类故障。

   可扩展——Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。

   简单——Hadoop允许用户快速编写出高效的并行代码。

  Hadoop的方便和简单让其在编写和运行大型分布式程序方面占尽优势。即使是在校的大学生也可以快速、廉价地建立自己的Hadoop集群。另一方面,它的健壮性和可扩展性又使它胜任雅虎和Facebook最严苛的工作。这些特性使Hadoop在学术界和工业界都大受欢迎。

  图1-1解释了如何与Hadoop集群交互。Hadoop集群是用网络连接在同一地点的一组通用机器。数据存储和处理都发生在这个机器“云”中 。不同的用户可以从独立的客户端提交计算“作业”到Hadoop,这些客户端可以是远离Hadoop集群的个人台式机。

  并非所有分布式系统的构建都如图1-1所示的一样。下面,我们简要介绍一下其他分布式系统,以便更好地展现Hadoop所依据的设计理念。

enter image description here

摘自:《 》

下一篇: