Hadoop集群怎么搭建及如何进行Python操作-快上网网站建设公司

Hadoop集群怎么搭建及如何进行Python操作

这期内容当中小编将会给大家带来有关Hadoop集群怎么搭建及如何进行Python操作，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

察哈尔右翼后网站制作公司哪家好，找成都创新互联公司！从网页设计、网站建设、微信开发、APP开发、响应式网站设计等网站项目制作，到程序开发，运营维护。成都创新互联公司自2013年创立以来到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选成都创新互联公司。

最近项目中在做千亿大数据存储检索需求，要把10T的文本数据进行解析处理存入数据库进行实时检索，文件的存储成为一个首要处理的问题，使用了多种存储方式，都不是很满足要求，最后使用 HDFS 分布式文件存储系统发现效率、管理等各方面都挺不错，就研究了一下搭建使用方式，特此记录文档

环境

Hadoop集群怎么搭建及如何进行Python操作

修改主机名

# 按照上面环境配置修改每个机器的hostname vi /etc/hostname  # 使用hostname命令使其生效，就不用重启了 hostname xxxx

修改hosts文件

vi /etc/hosts  192.168.143.130 master 192.168.143.131 slave1 192.168.143.132 slave2 192.168.143.133 slave3 192.168.143.134 slave4

配置免密登录

ssh-keygen -t rsa  ssh-copy-id -i ~/.ssh/id_rsa.pub master ssh-copy-id -i ~/.ssh/id_rsa.pub slave1 ssh-copy-id -i ~/.ssh/id_rsa.pub slave2 ssh-copy-id -i ~/.ssh/id_rsa.pub slave3 ssh-copy-id -i ~/.ssh/id_rsa.pub slave4

安装JDK(每台机器)

apt-get install -y openjdk-8-jre-headless openjdk-8-jdk

配置环境变量

在/etc/profile文件最后添加如下内容：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools/jar export HADOOP_HOME=/usr/hadoop-3.3.0/ export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native" export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

使环境变量生效

source /etc/profile

创建目录(每天机器)

创建目录的时候要注意，先通过df -h命令查看本机上的磁盘空间，确定好数据存储的磁盘，然后创建以下三个目录，在下面的配置文件hdfs-site.xml中修改对应的目录配置即可

mkdir -p /home/hadoop/dfs/name mkdir -p /home/hadoop/dfs/data mkdir -p /home/hadoop/temp

安装配置Hadoop

下载Hadoop安装包

http://archive.apache.org/dist/hadoop/core/stable/hadoop-3.3.0.tar.gz

# 解压后拷贝到/usr目录下 tar -xzvf hadoop-3.3.0.tar.gz mv hadoop-3.3.0 /usr

配置Hadoop

配置文件在

/usr/hadoop-3.3.0/etc/hadoop目录下

hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root

core-site.xml

        fs.defaultFS     hdfs://master:9000           hadoop.http.staticuser.user     root           dfs.permissions.enabled     false

hdfs-site.xml配置多个文件存储目录，使用逗号隔开即可

        dfs.namenode.name.dir     /home/hadoop/dfs/name           dfs.dataname.data.dir     /home/hadoop/dfs/data,/usr1/hadoop/dfs/data           dfs.replication     2

mapred-site.xml

        mapreduce.framework.name     yarn

yarn-site.xml

        yarn.resourcemanager.hostname     master           yarn.resourcemanager.webapp.address     master:8088           yarn.nodemanager.aux-services     mapreduce_shuffle

workers

这里配置的就是DataNode的存储机器，不建议用master作为存储，如果存满了集群就不能用了

slave1 slave2 slave3 slave4

将master上的/usr/hadoop-3.3.9拷贝到其他机器即可

scp /usr/hadoop-3.3.0 slave1:/usr scp /usr/hadoop-3.3.0 slave2:/usr scp /usr/hadoop-3.3.0 slave3:/usr scp /usr/hadoop-3.3.0 slave4:/usr

格式化HDFS目录（在master机器）

hdfs namenode-format

启动Hadoop

在master机器上执行就可以了，执行完以后可以使用jps命令在所有机器上查看进程状态

cd /usr/hadoop-3.3.0/sbin ./start-all.sh

查看进程状态

在master和slave上分别执行jps命令

查看是否成功

在浏览器上打开下面的网页，看能否正常访问

# Hadoop集群信息 http://192.168.143.130:8088/cluster  # HDFS地址 http://192.168.143.130:9870/dfshealth.html  # DataNode地址 http://192.168.143.130:9864/datanode.html  # NodeManager地址 http://192.168.143.130:8042/node  # SecondaryNameNode http://192.168.143.130:9868/status.html

测试文件上传（master）

hdfs dfs -mkdir /test hdfs dfs -put start-dfs.sh /test

HDFS操作命令

创建文件夹

hdfs dfs -mkdir /myTask

创建多层文件

hdfs dfs -mkdir -p /myTask/input

上传文件

hdfs dfs -put /opt/wordcount.txt /myTask

查看总目录下的文件和文件夹

hdfs dfs -ls /

查看myTask目录下的wordcount.txt文件内容

hdfs dfs -cat /myTask/wordcount.txt

删除文件或文件夹

hdfs dfs -rm -r /myTask/wordcount.txt

下载文件到本地

hdfs dfs -get /myTask/wordcount.txt /opt

Python操作hdfs

python操作hdfs时，如果要进行上传下载文件，必须在执行代码的机器上配置hosts文件，原因是hdfs的namenode和datanode注册后是以hostname进行记录的，如果不配置直接进行上传下载操作，那么将会采用hostname进行操作，因此需要在本机上配置hdfs集群机器IP和hostname的对应配置。例如我在本机上进行操作，必须配置如下：

C:\Windows\System32\drivers\etc\hosts  192.168.143.130 master 192.168.143.131 slave1 192.168.143.132 slave2 192.168.143.133 slave3 192.168.143.134 slave4

安装库

pip install hdfs

操作

连接

from hdfs.client import Client client = Client("http://192.168.143.130:9870")

创建目录

client.makedirs(hdfs_path)

删除文件

client.delete(hdfs_path)

上传文件

client.download(hdfs_path, local_path)

获取目录下文件列表

client.list(hdfs_path)

HDFS 文件存储集群的优点是：配置要求低、易于扩展、效率比较高、非常适合大批量文件存储，而且可以提供 web 管理页面，提供非常好的第三方库。在进行 web 开发时，作为文件和图片存储库也是非常好的选择。

上述就是小编为大家分享的Hadoop集群怎么搭建及如何进行Python操作了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注创新互联行业资讯频道。

分享名称：Hadoop集群怎么搭建及如何进行Python操作
转载源于：http://cdkjz.cn/article/ippcog.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Hadoop集群怎么搭建及如何进行Python操作

修改主机名

修改hosts文件

配置免密登录

安装JDK(每台机器)

配置环境变量

创建目录(每天机器)

安装配置Hadoop

配置Hadoop

格式化HDFS目录（在master机器）

启动Hadoop

查看进程状态

查看是否成功

HDFS操作命令

Python操作hdfs

安装库

操作

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Hadoop集群怎么搭建及如何进行Python操作

修改主机名

修改hosts文件

配置免密登录

安装JDK(每台机器)

配置环境变量

创建目录(每天机器)

安装配置Hadoop

配置Hadoop

格式化HDFS目录（在master机器）

启动Hadoop

查看进程状态

查看是否成功

HDFS操作命令

Python操作hdfs

安装库

操作

相关资讯

最好的zblog主题 zblog好看主题

怎么系统的学习sap操作的简单介绍

linux命令查询手册 linux 查询命令用法

zblog备份数据库位置 zblog用户中心

帝国cms文章怎么添加 帝国cms怎么上传图片

帝国cms修改导航 帝国cms更换编辑器

linux命令获取内存等 linux获取内存使用率

中文分词代码java java分词工具类

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

帝国cms文章怎么添加帝国cms怎么上传图片

帝国cms修改导航帝国cms更换编辑器

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接