标签:: Hadoop

Hadoop学习笔记-基础知识-20170118

1.Hadoop历史Hadoop最早起源于Nutch,,Nutch是一个开源的搜索引擎,由Doug Cutting在2002年的时候开发完成,原本Nutch的目标是为了构建一个大型的搜索引擎,涵盖网页爬取、索引、查询等一些功能,但随着网页爬取的数量不断增加,此时对于存储和索引就形成了比较严重的瓶颈问题。此时,Google发表了三篇论文:GFS,MapReduce,BigTable,这三篇论文堪称大数据领域的开篇巨作,也由此拉开了至今为止都非常火热的大数据应用。

Hadoop2.5.1完全分布式集群部署

1 部署所需软件 操作系统:rhel-server-5.4-x86_64-dvd.iso JDK:jdk-7u79-linux-x64.tar.gz Hadoop:hadoop-2.5.1.tar.gz 远程连接工具:Xmanager Enterprise 虚拟机:vmware 开发工具:eclipse

Hadoop-windows下搭建hadoop,Hive,HBase

1.搭建Hadoop 安装JDK1.8并设置环境变量 JAVA_HOME。 下载hadoop2.7.2 ,解压到D盘,路径为D:\winbigdata\hadoop2.7.2(注:如何不是根目录,不要带空格) 添加环境变量HADOOP_HOME=D:\winbigdata\hadoop2.7.2\ ,将D:\winbigdata\hadoop2.7.2\bin和D:\winbigdata\hadoop2.7.2\sbin添加到path中。 下载hadooponwindows,下载地址https://github.com/sardetushar/hadooponwindows 删除hadoop下的etc和bin。将hadooponwindows里的etc和bin拷贝到D:\winbigdata\hadoop2.7.2\下。 修改etc/hadoop/core-site.xml

Hadoop2-hdfs-垃圾箱简介

hdfs为每一个用户创建一个回收站:目录: /user/用户名/.Trash/ 每一个被用户通过shell删除的文件/目录在系统回收站中都有一个周期,周期过后hdfs会自动将这些数据彻底删除周期内 可以被用户恢复。