云/大数据   作品      Hadoop上路v1.2-20150417   

13年开始接触hadoop,这是自学的积累。很惭愧,没有企业开发经验。谨此希望对刚接触hadoop的朋友有所帮助

注意文中的各软件版本。
以下是目录。
不定时更新。
---------------------------------------------
关于本书:
Hadoop介绍:
  1.Hadoop项目组成:
    1)hadoopCommon:
    2)HDSF:
    3)MapReduce:
    4)其它:
  2.Hadoop系统构成:
    namenode:主控节点
    secondarynamenode:辅助节点
    jobtracker:下发任务(拆分数据)
    tacktracker:执行任务(接收数据)
    datanode:数据存储
一.Hadoop环境搭建-配置VirtualBox虚拟机和Ubuntu:
  1.为虚拟机安装增强功能:
  2.为Ubuntu初始化root用户:
  3.修改用户(如果需要):
    1)修改用户密码:
    2)在当前用户下修改用户名:
    3)注销当前用户,使用root登陆:
    4)注销root用户,使用新用户名登陆:
  4.配置hostname和hosts:
    1)HOSTNAME
    2)HOSTS
    3)重启系统。
  5.安装OpenSSH:
    1)安装openssh-client:
    2)安装openssh-server:
    3)安装ssh-all:
    4)修改OpenSSH配置(跳过):
    5)创建密钥的空密码文件:
    6)配置.ssh目录权限(跳过):
    7)创建自动验证密码文件:
    8)设置authorized_keys权限(跳过):
    9)测试ssh无密码登陆:
  6.安装JDK:
    1)安装bin文件:
    2)配置jdk到环境变量:
    3)重载配置文件,使之立即生效:
    4)测试jdk:
  7.安装Hadoop:
    1)解压文件:
    2)配置hadoop到环境变量:
    3)重载系统配置文件,使之立即生效:
二.Hadoop的伪分布式集群配置:
  1.配置%hadoop%/conf/hadoop-env.sh中的JDK:
  2.配置%hadoop%/conf/core-site.xml中的HDFS:
  3.配置%hadoop%/conf/hdfs-site.xml中的HDFS:
  4.配置%hadoop%/conf/mapred-site.xml中的JobTracker:
  5.格式化HDFS:
    错误1:
    错误2:
    成功:
  6.启动Hadoop:
    1)使用start-all.sh启动Hadoop:
    2)查看当前java进程:
    3)停止Hadoop:
    4)从网页浏览Hadoop状态:
三.Hadoop的分布式集群架设:
  1.创建模板系统:
    1)解压jdk、hadoop,配置bin到环境变量:
    2)配置%hadoop%/conf/hadoop-env.sh:
    3)安装openssh,尚不配置无密码登陆:
    4)配置网卡静态IP、hostname、hosts:
    5)赋予当前用户对hadoop安装目录可写的权限:
    6)关闭防火墙:
  2.根据模板系统复制出dg1、dg2、dg3虚拟系统:
    1)使用dg1创建主控机(namenode、secondarynamenode、jobtracker
      (1)配置网卡静态IP:
      (2)配置hostname:
      (3)配置hosts:
      (4)配置hadoop:
      (5)创建无密码公共密钥:
    2)使用dg2、dg3创建服附属机(datanode、tasktracker节点所在):
      (1)配置网卡静态IP:
      (2)配置hostname:
      (3)配置hosts:
      (4)配置hadoop:
      (5)拷贝主控服务器的无密码公共密钥:
  3.启动集群:
    1)在主控机(master)格式化HDFS:
    2)在主控机启动Hadoop:
    3)验证1:
    4)验证2:
    5)验证3:
  4.从Ubuntu中的eclipse访问hadoop分布式集群:
  5.从Win7中的eclipse访问hadoop分布式集群:
四.Hadoop-使用Shell操作HDFS:
  1.Hadoop操作:
    1)查看Hadoop版本:
    2)自动开启Hadoop:
    3)手动开启Hadoop:
  2.HDFS操作:
    1)查看HDFS上的文件:
    2)向HDFS上传文件:
    3)从HDFS下载文件:
    4)删除HDFS上的文件:
    5)HDFS的更多命令:
  3.使用MapReduce操作HDFS示例-统计字符
    1)在HDFS上执行jar程序:
    2)查看统计结果:  
五.Hadoop-使用Java操作HDFS  
  1.在Ubuntu中装配eclipse:  
    1)解压eclipse:  
      (1)解压程序文件:  
      (2)在Ubuntu桌面点鼠标右键,创建启动器:  
      (3)在“命令”选择eclipse执行文件:  
    2)安装hadoop开发插件:  
    3)执行快捷方式:  
    4)配置Hadoop视图:  
      (1)window->preferences->HadoopMap/Reduce,  
      (2)打开Hadoop视图,  
      (3)新建HadoopLocation连接,  
      (4)配置主机、端口,  
      (5)完成:  
    5)创建项目:  
  2.在eclipse中使用JavaAPI:  
    1)HDFS操作-查:  
      (1)遍历HDFS文件,基于hadoop-0.20.2:  
      (2)RunonHadoop:  
      (3)遍历HDFS文件,基于Hadoop-1.1.2一:  
      (4)遍历HDFS文件,基于Hadoop-1.1.2二:  
      (5)判断HDFS中指定名称的目录或文件:  
      (6)查看HDFS文件的最后修改时间:  
      (7)查看HDFS中指定文件的状态:  
      (8)读取HDFS中txt文件的内容:  
    2)HDFS操作-增:  
      (1)上传文件到HDFS,基于hadoop-0.20.2:  
      (2)上传文件到HDFS,基于hadoop-1.1.2一:  
      (3)上传文件到HDFS,基于hadoop-1.1.2二:  
      (4)在HDFS中创建目录和文件:  
    3)HDFS操作-改:  
      (1)重命名文件:  
      (2)删除文件:  
    4)WorldCount示例:  
      报错:找不到HttpMethod:  
  3.在win7中配置eclipse:  
    1)设置Ubuntu静态IP:  
      (1)配置网卡参数到interfaces文件:  
      (2)重启网卡:  
    2)配置Ubuntu的hosts:  
    3)配置VirtualBox虚拟机的网络连接:  
    4)配置Win7的hosts:  
    5)在Win7的eclipse中配置Map/Reduce连接:  
      (1)基本模式:  
      (2)高级模式(可选):  
      (3)错误:  
    6)修改Ubuntu中Hadoop的配置:  
      (1)%hadoop%/conf/core-site.xml:  
      (2)%hadoop%/conf/mapred-site.xml:  
      (3)重新格式化HDFS:  
      (4)Ubuntu中eclipse的配置:  
    7)运行Win7的eclipse:  
      (1)Ubuntu中的状况:  
      (2)Win7中的状况:  
    8)修改Win7的用户:  
      (1)修改Administrator为hm:  
      (2)修改用户组:  
      (3)重启eclipse:  
      (4)修改Win7用户方式二:创建hm用户:  
  4.在Win7中使用JavaAPI:  
    1)查询:  
      (1)方式一-指定HDFS的URI:  
      (2)方式二-指定HDFS的配置文件:  
      (3)判断HDFS中指定名称的目录或文件:  
      (4)查看HDFS文件的最后修改时间:  
      (5)查看HDFS中指定文件的状态:  
      (6)读取HDFS中txt文件的内容:  
    2)上传:  
      (1)从Win7上传文件到Ubuntu的HDFS:  
      (2)从Win7在Ubuntu的HDFS远程创建目录和文件:  
    3)修改:  
      (1)重命名文件:  
      (2)删除文件:  
    4)WordCount示例:  
      (1)代码:  
      (2)RunonHadoop:  
      (3)成功RunonHadoop:  
六.Hadoop的MapReduce并行运算模型:  
  1.  
  2.  
  3.  
  4.MapReduce常用算法  
    1)计数  
      (1)数据准备  
      (2)代码  
      (3)结果  
    2)排序  
      (1)数据准备  
      (2)代码  
      (3)结果  
    3)去重  
    4)过滤  
    5)TopN  
      (1)数值最大  
      (2)数值前5大  
      (3)数量最大  
    6)单表关联  
    7)双表关联  
七.Hadoop的YARN并行计算框架:  
  1.  
  2.  
  3.  
八.HBase-基于列的分布式数据库:  
  1.分布式环境搭建  
    1)在master主控机安装HBase  
      (1)解压  
      (2)配置环境变量  
      (3)修改%HBASE%/conf/hbase-env.sh  
      (4)修改$HBASE_HOME/conf/hbase-site.xml  
      (5)$HBASE_HOME/conf/regionservers文件增加  
    2)把HBase复制到slave从属机  
    3)启动HBase集群  
    4)停止HBase集群  
  2.HBaseShell  
    1)建表create  
    2)列出全部表list  
    3)表描述describe  
    4)删除表disable,drop  
    5)插入条目put  
    6)展示全表scan  
    7)查询条目get  
    8)更新条目put  
    9)删除条目delete  
    10)统计参数  
  3.JavaAPI  
    1)创建一张表  
    2)添加一条记录  
    3)读取指定行记录  
    4)显示所有数据  
    5)更新条目  
    6)删除单元格  
    7)删除整行  
    8)删除表单  
九.Hive-数据仓库:  
  1.分布式环境搭建  
  2.Hive的安装与配置  
  3.Hive体系结构  
  4.Hive命令行  
  5.HiveQL详解  
  6.Hive函数  
  7.Hive高级编程  
  8.HiveJDBC  
  9.Hive参数介绍  
  10.Hive优化  
  11.Hive原理  
十.Avro-数据序列化框架:  
  1.  
  2.  
  3.  
十一.Pig-大数据分析评估平台:  
  1.  
  2.  
  3.  
十二.Chukwa-大数据监控分析系统:  
  1.  
  2.  
  3.  
十三.Mahout-机器学习的实现:  
  1.  
  2.  
  3.  
十四.ZooKeeper-分布式系统协调框架:  
  1.  
  2.  
  3.  
十五.Sqoop-与关系型数据库对接:  
  1.  
  2.  
  3.  
十六.Hadoop和Spring的结合:  
  1.  
  2.  
  3.  
十七.手动制作hadoop-eclipse-plugin插件  
  1.环境准备:  
    1)VirtualBox虚拟机:  
      (1)安装扩展:  
      (2)开启网络:  
      (3)安装Ubuntu:  
    2)安装jdk,配置环境变量:  
    3)安装ant:  
      (1)安装m4:  
      (2)安装autoconf:  
      (3)安装automake:  
      (4)安装libtool:  
      (5)安装ant:  
    4)安装eclipse:  
    5)解压hadoop:  
  2.配置hadoop:  
    1)设置用户的操作权限:  
    2)%hadoop%/src/contrib/eclipse-plugin/build.xml  
      (1)取消ivy-download:  
      (2)添加将要打包到plugin中的第三方jar包列表:  
    3)%hadoop%/src/contrib/build-contrib.xml:  
      (1)添加hadoop的version和eclipse的eclipse.home属性:  
      (2)取消ivy-download:  
    4)编辑{HADOOP_HOME}/build.xml:  
      (1)修改hadoop版本号:  
      (2)取消ivy-download:  
    5)修改%hadoop%/src/contrib/eclipse-plugin/META-INF/MANIFEST.MF:
  3.执行ANT:  
    1)进入到%hadoop%/执行antcompile  
    2)进入到%hadoop%/build/contrib/eclipse-plugin/执行ant  
十八.项目示例:  
  1.  
  2.  
  3.
---------------------------------------------------------------------------------
下载:
Hadoop上路v1.2.pdf
欢迎探讨交流。

承接App定制、企业web站点、办公系统软件 设计开发,外包项目,毕设