大数据Hadoop330Cent - 竹笋 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2023/3/6 19:12:00

简介

最近在接触大数据相关的项目，项目需求：Hadoop3.3.0数据库+CentOs7环境部署，本着自以为很简单的心态开始部署，结果由于网上教程过于老旧，再加上各位大佬发的帖子基本一知半解，导致部署过程中查找资料不下20篇，踩过的坑不计其数，本着技术共享的心态特将此次实际部署过程完整的发布出来，以便大家少走弯路，保证如果细心看完之后能够通过本篇文章一站式部署成功，不用在东奔西走去搜集各种资料和踩坑。

想要完全掌握一个新架构，就需要知其然再知其所以然，这样以便日后进行修改和维护，所以本文将从零开始直至完全部署完毕，细节和重点将给各位画出来。

一、Hadoop数据库是什么？

Hadoop数据库是一个分布式框架数据库，属于非关系型数据库（更详细的请自行科普）

二、Hadoop分布式数据库和关系型数据库区别

1、关系型数据库特点：结构化存储，一对多的层次型特性，数据类型基于字符串。表现形式类似于Execel表，数据以每个Excel表的样式存储在数据库中。

2、非关系型数据库特点：

非关系型数据库通常以字典数据类型存储，没有对应关系表。Hadoop数据库利用namenode字段记录文件被分散存储的属性值，利用datenode字段存储文件分散路径，表现形式类似于Windows系统注册表和系统文件的对应关系。

三、Hadoop特性

Hadoop就是为了解决海量数据的存储与运算问题，它所存储的数据类型是消息和文件，消息用来记录文件的存放属性，文件会被分布存储到各个Hadoop文件系统中，并且在整个群集中形成多个副本。

Hadoop数据库分为多个功能，这些功能在一个安装包中，每台服务器安装其中一个功能，进行多台安装。

通常用一台namenode，用来存放文件属性，多台datanode用来存放文件块。Hadoop分布式数据库读写原理。

四、Hadoop运行环境

Linux系统，JavaJDK8以上开发环境组件。

五、Hadoop分布式数据库读写原理

1、由接口收发数据

2、由分布式调度平台将任务分为存储分布式和运算分布式进行任务下发。

3、存储任务：目标数据会分分割成若干个小份，以文件的形式散落在各个Hadoop分布式文件系统中，并且每个小块会在整个群集中存储多个副本，当需要取出时进行文件聚合。

4、运算任务:一个任务会被分发到多台服务器中并行计算，快速计算出结果。

六、Hadoop基本架构

namenode字段:用来记录消息，也就是分布式文件块大小，分割成几个块等。

datanode:用来存储文件路径和文件。

七、Hadoop交互方式介绍

Hadoop交互分为命令行模式和交互式界面：

1、命令行模式:Hadoop通过Linux终端方式连接，操作命令和Linux系统命令相差不多。

2、界面交互:可以通过web浏览器方式访问Hadoop节点服务器。

八、Hadoop最小化部署配置要求

最小化部署:需要2台服务器，双核CPU、2G内存。

九、环境部署前的准备工作

1、准备工作：

（1）准备Linux服务器：虚拟机或物理机都行，用来搭建Hadoop分布式数据库。

（2）下载JDK8。

（3）下载Hadoop3.3.0forLinux安装包。

（4）推荐到