13年开始接触hadoop,这是自学的积累。很惭愧,没有企业开发经验。谨此希望对刚接触hadoop的朋友有所帮助
注意文中的各软件版本。
以下是目录。
不定时更新。
---------------------------------------------
关于本书:
Hadoop介绍:
1.Hadoop项目组成:
1)hadoopCommon:
2)HDSF:
3)MapReduce:
4)其它:
2.Hadoop系统构成:
namenode:主控节点
secondarynamenode:辅助节点
jobtracker:下发任务(拆分数据)
tacktracker:执行任务(接收数据)
datanode:数据存储
一.Hadoop环境搭建-配置VirtualBox虚拟机和Ubuntu:
1.为虚拟机安装增强功能:
2.为Ubuntu初始化root用户:
3.修改用户(如果需要):
1)修改用户密码:
2)在当前用户下修改用户名:
3)注销当前用户,使用root登陆:
4)注销root用户,使用新用户名登陆:
4.配置hostname和hosts:
1)HOSTNAME
2)HOSTS
3)重启系统。
5.安装OpenSSH:
1)安装openssh-client:
2)安装openssh-server:
3)安装ssh-all:
4)修改OpenSSH配置(跳过):
5)创建密钥的空密码文件:
6)配置.ssh目录权限(跳过):
7)创建自动验证密码文件:
8)设置authorized_keys权限(跳过):
9)测试ssh无密码登陆:
6.安装JDK:
1)安装bin文件:
2)配置jdk到环境变量:
3)重载配置文件,使之立即生效:
4)测试jdk:
7.安装Hadoop:
1)解压文件:
2)配置hadoop到环境变量:
3)重载系统配置文件,使之立即生效:
二.Hadoop的伪分布式集群配置:
1.配置%hadoop%/conf/hadoop-env.sh中的JDK:
2.配置%hadoop%/conf/core-site.xml中的HDFS:
3.配置%hadoop%/conf/hdfs-site.xml中的HDFS:
4.配置%hadoop%/conf/mapred-site.xml中的JobTracker:
5.格式化HDFS:
错误1:
错误2:
成功:
6.启动Hadoop:
1)使用start-all.sh启动Hadoop:
2)查看当前java进程:
3)停止Hadoop:
4)从网页浏览Hadoop状态:
三.Hadoop的分布式集群架设:
1.创建模板系统:
1)解压jdk、hadoop,配置bin到环境变量:
2)配置%hadoop%/conf/hadoop-env.sh:
3)安装openssh,尚不配置无密码登陆:
4)配置网卡静态IP、hostname、hosts:
5)赋予当前用户对hadoop安装目录可写的权限:
6)关闭防火墙:
2.根据模板系统复制出dg1、dg2、dg3虚拟系统:
1)使用dg1创建主控机(namenode、secondarynamenode、jobtracker
(1)配置网卡静态IP:
(2)配置hostname:
(3)配置hosts:
(4)配置hadoop:
(5)创建无密码公共密钥:
2)使用dg2、dg3创建服附属机(datanode、tasktracker节点所在):
(1)配置网卡静态IP:
(2)配置hostname:
(3)配置hosts:
(4)配置hadoop:
(5)拷贝主控服务器的无密码公共密钥:
3.启动集群:
1)在主控机(master)格式化HDFS:
2)在主控机启动Hadoop:
3)验证1:
4)验证2:
5)验证3:
4.从Ubuntu中的eclipse访问hadoop分布式集群:
5.从Win7中的eclipse访问hadoop分布式集群:
四.Hadoop-使用Shell操作HDFS:
1.Hadoop操作:
1)查看Hadoop版本:
2)自动开启Hadoop:
3)手动开启Hadoop:
2.HDFS操作:
1)查看HDFS上的文件:
2)向HDFS上传文件:
3)从HDFS下载文件:
4)删除HDFS上的文件:
5)HDFS的更多命令:
3.使用MapReduce操作HDFS示例-统计字符
1)在HDFS上执行jar程序:
2)查看统计结果:
五.Hadoop-使用Java操作HDFS
1.在Ubuntu中装配eclipse:
1)解压eclipse:
(1)解压程序文件:
(2)在Ubuntu桌面点鼠标右键,创建启动器:
(3)在“命令”选择eclipse执行文件:
2)安装hadoop开发插件:
3)执行快捷方式:
4)配置Hadoop视图:
(1)window->preferences->HadoopMap/Reduce,
(2)打开Hadoop视图,
(3)新建HadoopLocation连接,
(4)配置主机、端口,
(5)完成:
5)创建项目:
2.在eclipse中使用JavaAPI:
1)HDFS操作-查:
(1)遍历HDFS文件,基于hadoop-0.20.2:
(2)RunonHadoop:
(3)遍历HDFS文件,基于Hadoop-1.1.2一:
(4)遍历HDFS文件,基于Hadoop-1.1.2二:
(5)判断HDFS中指定名称的目录或文件:
(6)查看HDFS文件的最后修改时间:
(7)查看HDFS中指定文件的状态:
(8)读取HDFS中txt文件的内容:
2)HDFS操作-增:
(1)上传文件到HDFS,基于hadoop-0.20.2:
(2)上传文件到HDFS,基于hadoop-1.1.2一:
(3)上传文件到HDFS,基于hadoop-1.1.2二:
(4)在HDFS中创建目录和文件:
3)HDFS操作-改:
(1)重命名文件:
(2)删除文件:
4)WorldCount示例:
报错:找不到HttpMethod:
3.在win7中配置eclipse:
1)设置Ubuntu静态IP:
(1)配置网卡参数到interfaces文件:
(2)重启网卡:
2)配置Ubuntu的hosts:
3)配置VirtualBox虚拟机的网络连接:
4)配置Win7的hosts:
5)在Win7的eclipse中配置Map/Reduce连接:
(1)基本模式:
(2)高级模式(可选):
(3)错误:
6)修改Ubuntu中Hadoop的配置:
(1)%hadoop%/conf/core-site.xml:
(2)%hadoop%/conf/mapred-site.xml:
(3)重新格式化HDFS:
(4)Ubuntu中eclipse的配置:
7)运行Win7的eclipse:
(1)Ubuntu中的状况:
(2)Win7中的状况:
8)修改Win7的用户:
(1)修改Administrator为hm:
(2)修改用户组:
(3)重启eclipse:
(4)修改Win7用户方式二:创建hm用户:
4.在Win7中使用JavaAPI:
1)查询:
(1)方式一-指定HDFS的URI:
(2)方式二-指定HDFS的配置文件:
(3)判断HDFS中指定名称的目录或文件:
(4)查看HDFS文件的最后修改时间:
(5)查看HDFS中指定文件的状态:
(6)读取HDFS中txt文件的内容:
2)上传:
(1)从Win7上传文件到Ubuntu的HDFS:
(2)从Win7在Ubuntu的HDFS远程创建目录和文件:
3)修改:
(1)重命名文件:
(2)删除文件:
4)WordCount示例:
(1)代码:
(2)RunonHadoop:
(3)成功RunonHadoop:
六.Hadoop的MapReduce并行运算模型:
1.
2.
3.
4.MapReduce常用算法
1)计数
(1)数据准备
(2)代码
(3)结果
2)排序
(1)数据准备
(2)代码
(3)结果
3)去重
4)过滤
5)TopN
(1)数值最大
(2)数值前5大
(3)数量最大
6)单表关联
7)双表关联
七.Hadoop的YARN并行计算框架:
1.
2.
3.
八.HBase-基于列的分布式数据库:
1.分布式环境搭建
1)在master主控机安装HBase
(1)解压
(2)配置环境变量
(3)修改%HBASE%/conf/hbase-env.sh
(4)修改$HBASE_HOME/conf/hbase-site.xml
(5)$HBASE_HOME/conf/regionservers文件增加
2)把HBase复制到slave从属机
3)启动HBase集群
4)停止HBase集群
2.HBaseShell
1)建表create
2)列出全部表list
3)表描述describe
4)删除表disable,drop
5)插入条目put
6)展示全表scan
7)查询条目get
8)更新条目put
9)删除条目delete
10)统计参数
3.JavaAPI
1)创建一张表
2)添加一条记录
3)读取指定行记录
4)显示所有数据
5)更新条目
6)删除单元格
7)删除整行
8)删除表单
九.Hive-数据仓库:
1.分布式环境搭建
2.Hive的安装与配置
3.Hive体系结构
4.Hive命令行
5.HiveQL详解
6.Hive函数
7.Hive高级编程
8.HiveJDBC
9.Hive参数介绍
10.Hive优化
11.Hive原理
十.Avro-数据序列化框架:
1.
2.
3.
十一.Pig-大数据分析评估平台:
1.
2.
3.
十二.Chukwa-大数据监控分析系统:
1.
2.
3.
十三.Mahout-机器学习的实现:
1.
2.
3.
十四.ZooKeeper-分布式系统协调框架:
1.
2.
3.
十五.Sqoop-与关系型数据库对接:
1.
2.
3.
十六.Hadoop和Spring的结合:
1.
2.
3.
十七.手动制作hadoop-eclipse-plugin插件
1.环境准备:
1)VirtualBox虚拟机:
(1)安装扩展:
(2)开启网络:
(3)安装Ubuntu:
2)安装jdk,配置环境变量:
3)安装ant:
(1)安装m4:
(2)安装autoconf:
(3)安装automake:
(4)安装libtool:
(5)安装ant:
4)安装eclipse:
5)解压hadoop:
2.配置hadoop:
1)设置用户的操作权限:
2)%hadoop%/src/contrib/eclipse-plugin/build.xml
(1)取消ivy-download:
(2)添加将要打包到plugin中的第三方jar包列表:
3)%hadoop%/src/contrib/build-contrib.xml:
(1)添加hadoop的version和eclipse的eclipse.home属性:
(2)取消ivy-download:
4)编辑{HADOOP_HOME}/build.xml:
(1)修改hadoop版本号:
(2)取消ivy-download:
5)修改%hadoop%/src/contrib/eclipse-plugin/META-INF/MANIFEST.MF:
3.执行ANT:
1)进入到%hadoop%/执行antcompile
2)进入到%hadoop%/build/contrib/eclipse-plugin/执行ant
十八.项目示例:
1.
2.
3.
---------------------------------------------------------------------------------
下载:
Hadoop上路v1.2.pdf
欢迎探讨交流。
本文由崔维友 威格灵 cuiweiyou vigiles cuiweiyou 原创,转载请注明出处:http://www.gaohaiyan.com/1112.html
承接App定制、企业web站点、办公系统软件 设计开发,外包项目,毕设