Hadoop上路v1.2-20150417

云/大数据作品 Hadoop上路v1.2-20150417

13年开始接触hadoop，这是自学的积累。很惭愧，没有企业开发经验。谨此希望对刚接触hadoop的朋友有所帮助

注意文中的各软件版本。
以下是目录。
不定时更新。
---------------------------------------------
关于本书：
Hadoop介绍：
　　1.Hadoop项目组成：
　　　　1）hadoopCommon:
　　　　2）HDSF:
　　　　3）MapReduce:
　　　　4）其它：
　　2.Hadoop系统构成：
　　　　namenode：主控节点
　　　　secondarynamenode：辅助节点
　　　　jobtracker：下发任务（拆分数据）
　　　　tacktracker：执行任务（接收数据）
　　　　datanode：数据存储
一．Hadoop环境搭建-配置VirtualBox虚拟机和Ubuntu：
　　1.为虚拟机安装增强功能：
　　2.为Ubuntu初始化root用户：
　　3.修改用户（如果需要）：
　　　　1）修改用户密码：
　　　　2）在当前用户下修改用户名：
　　　　3）注销当前用户，使用root登陆：
　　　　4）注销root用户，使用新用户名登陆：
　　4.配置hostname和hosts：
　　　　1）HOSTNAME
　　　　2）HOSTS
　　　　3）重启系统。
　　5.安装OpenSSH：
　　　　1）安装openssh-client：
　　　　2）安装openssh-server：
　　　　3）安装ssh-all：
　　　　4）修改OpenSSH配置（跳过）：
　　　　5）创建密钥的空密码文件：
　　　　6）配置.ssh目录权限（跳过）：
　　　　7）创建自动验证密码文件：
　　　　8）设置authorized_keys权限（跳过）：
　　　　9）测试ssh无密码登陆：
　　6.安装JDK：
　　　　1）安装bin文件：
　　　　2）配置jdk到环境变量：
　　　　3）重载配置文件，使之立即生效：
　　　　4）测试jdk：
　　7.安装Hadoop：
　　　　1）解压文件：
　　　　2）配置hadoop到环境变量：
　　　　3）重载系统配置文件，使之立即生效：
二．Hadoop的伪分布式集群配置：
　　1.配置%hadoop%/conf/hadoop-env.sh中的JDK：
　　2.配置%hadoop%/conf/core-site.xml中的HDFS：
　　3.配置%hadoop%/conf/hdfs-site.xml中的HDFS：
　　4.配置%hadoop%/conf/mapred-site.xml中的JobTracker：
　　5.格式化HDFS：
　　　　错误1：
　　　　错误2：
　　　　成功：
　　6.启动Hadoop：
　　　　1）使用start-all.sh启动Hadoop：
　　　　2）查看当前java进程：
　　　　3）停止Hadoop：
　　　　4）从网页浏览Hadoop状态：
三．Hadoop的分布式集群架设：
　　1.创建模板系统：
　　　　1）解压jdk、hadoop，配置bin到环境变量：
　　　　2）配置%hadoop%/conf/hadoop-env.sh：
　　　　3）安装openssh，尚不配置无密码登陆：
　　　　4）配置网卡静态IP、hostname、hosts：
　　　　5）赋予当前用户对hadoop安装目录可写的权限：
　　　　6）关闭防火墙：
　　2.根据模板系统复制出dg1、dg2、dg3虚拟系统：
　　　　1）使用dg1创建主控机（namenode、secondarynamenode、jobtracker
　　　　　　（1）配置网卡静态IP：
　　　　　　（2）配置hostname：
　　　　　　（3）配置hosts：
　　　　　　（4）配置hadoop：
　　　　　　（5）创建无密码公共密钥：
　　　　2）使用dg2、dg3创建服附属机（datanode、tasktracker节点所在）：
　　　　　　（1）配置网卡静态IP：
　　　　　　（2）配置hostname：
　　　　　　（3）配置hosts：
　　　　　　（4）配置hadoop：
　　　　　　（5）拷贝主控服务器的无密码公共密钥：
　　3.启动集群：
　　　　1）在主控机（master）格式化HDFS：
　　　　2）在主控机启动Hadoop：
　　　　3）验证1：
　　　　4）验证2：
　　　　5）验证3：
　　4.从Ubuntu中的eclipse访问hadoop分布式集群：
　　5.从Win7中的eclipse访问hadoop分布式集群：
四．Hadoop-使用Shell操作HDFS：
　　1.Hadoop操作：
　　　　1）查看Hadoop版本：
　　　　2）自动开启Hadoop：
　　　　3）手动开启Hadoop：
　　2.HDFS操作：
　　　　1）查看HDFS上的文件：
　　　　2）向HDFS上传文件：
　　　　3）从HDFS下载文件：
　　　　4）删除HDFS上的文件：
　　　　5）HDFS的更多命令：
　　3.使用MapReduce操作HDFS示例-统计字符
　　　　1）在HDFS上执行jar程序：
　　　　2）查看统计结果：　　
五．Hadoop-使用Java操作HDFS　　
　　1.在Ubuntu中装配eclipse：　　
　　　　1）解压eclipse：　　
　　　　　　（1）解压程序文件：　　
　　　　　　（2）在Ubuntu桌面点鼠标右键，创建启动器：　　
　　　　　　（3）在“命令”选择eclipse执行文件：　　
　　　　2）安装hadoop开发插件：　　
　　　　3）执行快捷方式：　　
　　　　4）配置Hadoop视图：　　
　　　　　　（1）window->preferences->HadoopMap/Reduce，　　
　　　　　　（2）打开Hadoop视图，　　
　　　　　　（3）新建HadoopLocation连接，　　
　　　　　　（4）配置主机、端口，　　
　　　　　　（5）完成：　　
　　　　5）创建项目：　　
　　2.在eclipse中使用JavaAPI：　　
　　　　1）HDFS操作-查：　　
　　　　　　（1）遍历HDFS文件，基于hadoop-0.20.2：　　
　　　　　　（2）RunonHadoop：　　
　　　　　　（3）遍历HDFS文件，基于Hadoop-1.1.2一：　　
　　　　　　（4）遍历HDFS文件，基于Hadoop-1.1.2二：　　
　　　　　　（5）判断HDFS中指定名称的目录或文件：　　
　　　　　　（6）查看HDFS文件的最后修改时间：　　
　　　　　　（7）查看HDFS中指定文件的状态：　　
　　　　　　（8）读取HDFS中txt文件的内容：　　
　　　　2）HDFS操作-增：　　
　　　　　　（1）上传文件到HDFS，基于hadoop-0.20.2：　　
　　　　　　（2）上传文件到HDFS，基于hadoop-1.1.2一：　　
　　　　　　（3）上传文件到HDFS，基于hadoop-1.1.2二：　　
　　　　　　（4）在HDFS中创建目录和文件：　　
　　　　3）HDFS操作-改：　　
　　　　　　（1）重命名文件：　　
　　　　　　（2）删除文件：　　
　　　　4）WorldCount示例：　　
　　　　　　报错：找不到HttpMethod：　　
　　3.在win7中配置eclipse：　　
　　　　1）设置Ubuntu静态IP：　　
　　　　　　（1）配置网卡参数到interfaces文件：　　
　　　　　　（2）重启网卡：　　
　　　　2）配置Ubuntu的hosts：　　
　　　　3）配置VirtualBox虚拟机的网络连接：　　
　　　　4）配置Win7的hosts：　　
　　　　5）在Win7的eclipse中配置Map/Reduce连接：　　
　　　　　　（1）基本模式：　　
　　　　　　（2）高级模式（可选）：　　
　　　　　　（3）错误：　　
　　　　6）修改Ubuntu中Hadoop的配置：　　
　　　　　　（1）%hadoop%/conf/core-site.xml：　　
　　　　　　（2）%hadoop%/conf/mapred-site.xml：　　
　　　　　　（3）重新格式化HDFS：　　
　　　　　　（4）Ubuntu中eclipse的配置：　　
　　　　7）运行Win7的eclipse：　　
　　　　　　（1）Ubuntu中的状况：　　
　　　　　　（2）Win7中的状况：　　
　　　　8）修改Win7的用户：　　
　　　　　　（1）修改Administrator为hm：　　
　　　　　　（2）修改用户组：　　
　　　　　　（3）重启eclipse：　　
　　　　　　（4）修改Win7用户方式二：创建hm用户：　　
　　4.在Win7中使用JavaAPI：　　
　　　　1）查询：　　
　　　　　　（1）方式一-指定HDFS的URI：　　
　　　　　　（2）方式二-指定HDFS的配置文件：　　
　　　　　　（3）判断HDFS中指定名称的目录或文件：　　
　　　　　　（4）查看HDFS文件的最后修改时间：　　
　　　　　　（5）查看HDFS中指定文件的状态：　　
　　　　　　（6）读取HDFS中txt文件的内容：　　
　　　　2）上传：　　
　　　　　　（1）从Win7上传文件到Ubuntu的HDFS：　　
　　　　　　（2）从Win7在Ubuntu的HDFS远程创建目录和文件：　　
　　　　3）修改：　　
　　　　　　（1）重命名文件：　　
　　　　　　（2）删除文件：　　
　　　　4）WordCount示例：　　
　　　　　　（1）代码：　　
　　　　　　（2）RunonHadoop：　　
　　　　　　（3）成功RunonHadoop：　　
六．Hadoop的MapReduce并行运算模型：　　
　　1.　　
　　2.　　
　　3.　　
　　4.MapReduce常用算法　　
　　　　1）计数　　
　　　　　　（1）数据准备　　
　　　　　　（2）代码　　
　　　　　　（3）结果　　
　　　　2）排序　　
　　　　　　（1）数据准备　　
　　　　　　（2）代码　　
　　　　　　（3）结果　　
　　　　3）去重　　
　　　　4）过滤　　
　　　　5）TopN　　
　　　　　　（1）数值最大　　
　　　　　　（2）数值前5大　　
　　　　　　（3）数量最大　　
　　　　6）单表关联　　
　　　　7）双表关联　　
七．Hadoop的YARN并行计算框架：　　
　　1.　　
　　2.　　
　　3.　　
八．HBase-基于列的分布式数据库：　　
　　1.分布式环境搭建　　
　　　　1）在master主控机安装HBase　　
　　　　　　（1）解压　　
　　　　　　（2）配置环境变量　　
　　　　　　（3）修改%HBASE%/conf/hbase-env.sh　　
　　　　　　（4）修改$HBASE_HOME/conf/hbase-site.xml　　
　　　　　　（5）$HBASE_HOME/conf/regionservers文件增加　　
　　　　2）把HBase复制到slave从属机　　
　　　　3）启动HBase集群　　
　　　　4）停止HBase集群　　
　　2.HBaseShell　　
　　　　1）建表create　　
　　　　2）列出全部表list　　
　　　　3）表描述describe　　
　　　　4）删除表disable,drop　　
　　　　5）插入条目put　　
　　　　6）展示全表scan　　
　　　　7）查询条目get　　
　　　　8）更新条目put　　
　　　　9）删除条目delete　　
　　　　10）统计参数　　
　　3.JavaAPI　　
　　　　1）创建一张表　　
　　　　2）添加一条记录　　
　　　　3）读取指定行记录　　
　　　　4）显示所有数据　　
　　　　5）更新条目　　
　　　　6）删除单元格　　
　　　　7）删除整行　　
　　　　8）删除表单　　
九．Hive-数据仓库：　　
　　1.分布式环境搭建　　
　　2.Hive的安装与配置　　
　　3.Hive体系结构　　
　　4.Hive命令行　　
　　5.HiveQL详解　　
　　6.Hive函数　　
　　7.Hive高级编程　　
　　8.HiveJDBC　　
　　9.Hive参数介绍　　
　　10.Hive优化　　
　　11.Hive原理　　
十．Avro-数据序列化框架：　　
　　1.　　
　　2.　　
　　3.　　
十一．Pig-大数据分析评估平台：　　
　　1.　　
　　2.　　
　　3.　　
十二．Chukwa-大数据监控分析系统：　　
　　1.　　
　　2.　　
　　3.　　
十三．Mahout-机器学习的实现：　　
　　1.　　
　　2.　　
　　3.　　
十四．ZooKeeper-分布式系统协调框架：　　
　　1.　　
　　2.　　
　　3.　　
十五．Sqoop-与关系型数据库对接：　　
　　1.　　
　　2.　　
　　3.　　
十六．Hadoop和Spring的结合：　　
　　1.　　
　　2.　　
　　3.　　
十七．手动制作hadoop-eclipse-plugin插件　　
　　1.环境准备：　　
　　　　1）VirtualBox虚拟机：　　
　　　　　　(1）安装扩展：　　
　　　　　　(2）开启网络：　　
　　　　　　(3）安装Ubuntu：　　
　　　　2）安装jdk，配置环境变量：　　
　　　　3）安装ant：　　
　　　　　　（1）安装m4：　　
　　　　　　（2）安装autoconf：　　
　　　　　　（3）安装automake：　　
　　　　　　（4）安装libtool：　　
　　　　　　（5）安装ant：　　
　　　　4）安装eclipse：　　
　　　　5）解压hadoop：　　
　　2.配置hadoop：　　
　　　　1）设置用户的操作权限：　　
　　　　2）%hadoop%/src/contrib/eclipse-plugin/build.xml　　
　　　　　　（1）取消ivy-download：　　
　　　　　　（2）添加将要打包到plugin中的第三方jar包列表：　　
　　　　3）%hadoop%/src/contrib/build-contrib.xml：　　
　　　　　　（1）添加hadoop的version和eclipse的eclipse.home属性：　　
　　　　　　（2）取消ivy-download：　　
　　　　4）编辑{HADOOP_HOME}/build.xml：　　
　　　　　　（1）修改hadoop版本号：　　
　　　　　　（2）取消ivy-download：　　
　　　　5）修改%hadoop%/src/contrib/eclipse-plugin/META-INF/MANIFEST.MF：
　　3.执行ANT：　　
　　　　1）进入到%hadoop%/执行antcompile　　
　　　　2）进入到%hadoop%/build/contrib/eclipse-plugin/执行ant　　
十八．项目示例：　　
　　1.　　
　　2.　　
　　3.
---------------------------------------------------------------------------------
下载：
Hadoop上路v1.2.pdf
欢迎探讨交流。

声明

本文由 cuiweiyou 原创，转载请注明出处：http://www.gaohaiyan.com/1112.html

承接App定制、企业web站点、办公系统软件设计开发，外包项目，毕设