什么是大数据

大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据主要解决，海量数据的采集、存储和分析计算问题。

大数据4V特征：

Hadoop是什么

Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎。
2001年年底Lucene成为Apache基金会的一个子项目。
对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量数据速度慢。
学习和模仿Google解决这些问题的办法：微型版Nutch。
可以说Google是Hadoop的思想之源。
Google在大数据方面的三篇论文：
1. GFS -> HDFS
2. Map-Reduce -> MR
3. BigTable -> HBase
2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
2005年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年3月，Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代来临。
名字来源于Doug Cutting儿子的玩具大象。

Hadoop3.x的细节优化

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

节点类型分为三类：

NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。

Yet Another Resource Negotiator简称YARN，另一种资源协调者，是Hadoop的资源管理器。

共有4个部分：

MapReduce将计算过程分为两个阶段：Map和Reduce。