什么是大数据
大数据(Big Data
):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据主要解决,海量数据的采集、存储和分析计算问题。
大数据4V特征:
- Volume(量大):存储量大,计算量大
- Variety(多样):来源多,格式多
- Velocity(快速):数据增长速度快,处理速度要求快
- Value(价值):价值密度低,和数据总量的大小成反比
我们的虚拟机从安装开始,到最后安装好所有的软件包和相应的版本,是需要耗费很长时间的,在实际的集群中操作时我们需要一台机器一台机器的安装,这个没办法。但是现在我们是在自己的电脑中模拟集群的环境,就没有必要一台机器一台机器的安装了,我们安装好一台后,直接克隆该机器即可。
RPM(RedHat Package Manager)
,RedHat
软件包管理工具,类似windows
里面的setup.exe
是Linux
这系列操作系统里面的打包安装工具,它虽然是RedHat
的标志,但理念是通用的。
RPM
包的名称格式Apache-1.3.23-11.i386.rpm
apache
软件名称1.3.23-11
软件的版本号,主版本和此版本i386
是软件所运行的硬件平台,Intel 32位
微处理器的统称rpm
文件扩展名,代表RPM
包在使用RPM
进行软件包管理时,一般会使用以下三个操作:
rpm -qa
)rpm -e [软件包名称]
)rpm -ivh [rpm安装包]
)