Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。
Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。
-
HDFS:全称为Hadoop分布式文件系统(Hadoop Distributed File System),提供了高吞吐量的访问应用程序数据。
-
Hadoop YARN:Hadoop集群资源管理框架(Yet Another Resource Negotiator),用于作业调度和集群资源管理。
-
Hadoop MapReduce:基于YARN的大数据集的并行处理系统。
-
Hadoop Common:支持其他Hadoop模块的通用功能,包括序列化、Java RPC和持久化数据结构等。
-
Ambari:是一个部署、管理和监视Apache Hadoop集群的开源框架。
-
Hbase:可扩展的分布式列式数据库,支持大表的结构化存储。
-
Hive:分布式数据仓库系统,提供基于类SQL的查询语言。
-
Mathout:机器学习和数据挖掘领域经典算法的实现。
-
Pig:一个高级数据流语言和执行环境,用来检索海量数据集。
-
Spark:一个快速和通用的计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持多种应用,包括ETL、机器学习、数据流处理和图形计算。
-
Sqoop:在关系型数据库与Hadoop系统之间进行数据传输的工具。
-
Tez:是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduce/Pig/Hive等系统的底层数据处理引擎,它天生融入Hadoop2.0的资源管理平台YARN。
-
Zookeeper:提供Hadoop集群高性能的分布式的协调服务。
干系人登记册
项目名称: 准备日期:
姓 名 | 职 位 | 角 色 | 联系信息 | 需 求 | 期 望 | 影 响 | 分 类 |