炼数成金 大数据Hadoop
订阅

Hadoop

Hadoop计算中的Shuffle过程
Hadoop计算中的Shuffle过程
Shuffle 过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看 完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapRed ...
利用ganglia调优hadoop
利用ganglia调优hadoop
本文提供一种方法在对hadoop调优的时候从整个资源利用方面入手进行调优.
图解Hadoop1.2.1容量调度器的配置
图解Hadoop1.2.1容量调度器的配置
资源 调度器是Hadoop集群中一个比较重要的模块,最初的hadoop资源调度器是基于队列形式的FIFO调度的,这种模式在大规模集群的时候,资源分配并 不是很合理,比如一个后提交的任务,但想要它先执行怎么办,而在FIFO模 ...
Hadoop能力测试图谱
Hadoop能力测试图谱
一张关于Hadoop技术框架的图,基本上涉及到Hadoop当前应用的主要领域,可用于测试自我hadoop相关能力。
配置hadoop伪分布模式
配置hadoop伪分布模式
使用的linux mint 15 64bit,hadoop使用的是1.2.1版本。 1、设置ssh 安装ssh相关软件包: sudo apt-get install openssh-client openssh-server 然后使用下面两个命令之一启动/关闭sshd: sudo /etc/init.d/ssh ...
SQL on Hadoop的最新进展及7项相关技术分享
SQL on Hadoop的最新进展及7项相关技术分享
本文从技术架构和最新进展的角度分析了7种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、 Hdapt/HadoopDB、Hawq/Greenplum。
Hadoop部署在RedHat Linux 5上常见错误及解决方案
Hadoop部署在RedHat Linux 5上常见错误及解决方案
本文提供了Hadoop部署在RedHat Linux 5上几种常见错误及解决方案
Pivotal为Hadoop提供内存数据处理能力
Pivotal为Hadoop提供内存数据处理能力
汇集大数据、PaaS和敏捷开发业务的Pivotal公司宣布,将通过Pivotal GemFire XD为Hadoop提供内存交易存储。
Hadoop集群(第10期)_MySQL关系数据库
从这几天对MapReduce的了解,发现其实Hadoop对关系型数据库的处理还不是很强,主要是Hadoop和关系型数据做的事不是同一类型,各有所特长。下面几期我们将对Hadoop里的HBase和Hive进行全面了解
Hadoop DBOutputFormat的使用
Hadoop DBOutputFormat的使用
最近在研究数据在HDFS和关系型数据库之间的迁移,主要使用了两种方式:一是,按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入;二是采用JDBC的方式进行导入。MapReduce默认提供了DBInputForm ...
用Hadoop构建电影推荐系统
用Hadoop构建电影推荐系统
Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热,个性时代已经到来。
Hadoop DBOutputFormat的使用
Hadoop DBOutputFormat的使用
最近在研究数据在HDFS和关系型数据库之间的迁移,主要使用了两种方式:一是,按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入;二是采用JDBC的方式进行导入。MapReduce默认提供了DBInputForm ...
利用hadoop mapreduce 做数据排序
利用hadoop mapreduce 做数据排序
由于hadoop在reduce之后就不能对结果做什么了,所以只能分为两个job完成,第一个job统计次数,第二个job对第一个job的结果排序。 第一个job的就是hadoop最简单的例子countwords,我要说的是用hadoop对结果排序
Hadoop编程调用HDFS
Hadoop编程调用HDFS
HDFS 全称Hadoop分步文件系统(Hadoop Distributed File System),是Hadoop的核心部分之一。要实现MapReduce的分步式算法时,数据必需提前放在HDFS上。因此,对于HDFS的操作就变得 非常重要。Hadoop的命令行,提供了一 ...
Hadoop历史版本安装
Hadoop历史版本安装
从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无 一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

社区热帖

     

    GMT+8, 2018-10-23 15:10 , Processed in 0.096123 second(s), 16 queries .