炼数成金 大数据Hadoop
订阅

Hadoop

Hadoop中 key键的排序比较器类
Hadoop中 key键的排序比较器类
排序是MapReduce的核心技术,尽管应用程序本身不需要对数据排序,但可以使用MapReduce的排序功能来组织数据。默认情况下,MapReduce根据输入记录的键对数据排序。键的排列顺序是由RawComparator控制的,规则如下: ...
Hadoop关于处理大量小文件的问题和解决方法
Hadoop关于处理大量小文件的问题和解决方法
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。 任 ...
图解shell命令运行Hadoop1.2的WordCount例子
图解shell命令运行Hadoop1.2的WordCount例子
在 hadoop1.2.x的版本中,直接运行自带的WordCount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还 是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译 ...
Hadoop计算中的Shuffle过程
Hadoop计算中的Shuffle过程
Shuffle 过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看 完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapRed ...
利用ganglia调优hadoop
利用ganglia调优hadoop
本文提供一种方法在对hadoop调优的时候从整个资源利用方面入手进行调优.
图解Hadoop1.2.1容量调度器的配置
图解Hadoop1.2.1容量调度器的配置
资源 调度器是Hadoop集群中一个比较重要的模块,最初的hadoop资源调度器是基于队列形式的FIFO调度的,这种模式在大规模集群的时候,资源分配并 不是很合理,比如一个后提交的任务,但想要它先执行怎么办,而在FIFO模 ...
Hadoop能力测试图谱
Hadoop能力测试图谱
一张关于Hadoop技术框架的图,基本上涉及到Hadoop当前应用的主要领域,可用于测试自我hadoop相关能力。
配置hadoop伪分布模式
配置hadoop伪分布模式
使用的linux mint 15 64bit,hadoop使用的是1.2.1版本。 1、设置ssh 安装ssh相关软件包: sudo apt-get install openssh-client openssh-server 然后使用下面两个命令之一启动/关闭sshd: sudo /etc/init.d/ssh ...
SQL on Hadoop的最新进展及7项相关技术分享
SQL on Hadoop的最新进展及7项相关技术分享
本文从技术架构和最新进展的角度分析了7种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、 Hdapt/HadoopDB、Hawq/Greenplum。
Hadoop部署在RedHat Linux 5上常见错误及解决方案
Hadoop部署在RedHat Linux 5上常见错误及解决方案
本文提供了Hadoop部署在RedHat Linux 5上几种常见错误及解决方案
Pivotal为Hadoop提供内存数据处理能力
Pivotal为Hadoop提供内存数据处理能力
汇集大数据、PaaS和敏捷开发业务的Pivotal公司宣布,将通过Pivotal GemFire XD为Hadoop提供内存交易存储。
Hadoop集群(第10期)_MySQL关系数据库
从这几天对MapReduce的了解,发现其实Hadoop对关系型数据库的处理还不是很强,主要是Hadoop和关系型数据做的事不是同一类型,各有所特长。下面几期我们将对Hadoop里的HBase和Hive进行全面了解
Hadoop DBOutputFormat的使用
Hadoop DBOutputFormat的使用
最近在研究数据在HDFS和关系型数据库之间的迁移,主要使用了两种方式:一是,按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入;二是采用JDBC的方式进行导入。MapReduce默认提供了DBInputForm ...
用Hadoop构建电影推荐系统
用Hadoop构建电影推荐系统
Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热,个性时代已经到来。
Hadoop DBOutputFormat的使用
Hadoop DBOutputFormat的使用
最近在研究数据在HDFS和关系型数据库之间的迁移,主要使用了两种方式:一是,按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入;二是采用JDBC的方式进行导入。MapReduce默认提供了DBInputForm ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-12-13 09:24 , Processed in 0.104862 second(s), 16 queries .