炼数成金 大数据Hadoop
订阅

Hadoop

hadoop学习笔记-HDFS原理
hadoop学习笔记-HDFS原理
文章内容摘自书籍,互联网的博客的一些集合和个人的理解。 HDFS原理 hadoop提供了可靠的共享存储和分析的系统,HDFS实现存储,MapReduce实现分析处理,这两部分是hadoop的核心,由于HDFS是为了高数据吞吐量而优化的 ...
Hadoop MapReduce Task Log 无法查看syslog问题
Hadoop MapReduce Task Log 无法查看syslog问题
现象: 由于多个map task共用一个JVM,所以只输出了一组log文件 datanode01:/data/hadoop-x.x.x/logs/userlogs$ ls -R.:attempt_201211220735_0001_m_000000_0 attempt_201211220735_0001_m_000002_0 attempt_201211 ...
用Hadoop,还是不用Hadoop?
用Hadoop,还是不用Hadoop?
当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!实际上Hadoop被设计和建造出来,是用来解决一系列特定问题的。对某些问题来说,Hadoop可能会是一不合适的解决方案。 关键是要 ...
Hadoop虚拟化的性能对比和调优经验
Hadoop虚拟化的性能对比和调优经验
Hadoop和其他消耗不同类型资源的应用一起部署共享数据中心可以提高总体资源利用率;  ·灵活的虚拟机操作使得用户可以动态的根据数据中心资源创建、扩展自己的Hadoop集群,也可以缩小当前集群、释放资源支持其他应用 ...
Hadoop中小规模集群的并行计算缺陷
Hadoop中小规模集群的并行计算缺陷
注:写这篇文章的初衷是因为Hadoop炒得有点太热,很多用户现有数据规模并不适用于Hadoop,但迫于扩容压力和去IOE(Hadoop的廉价扩展 的确非常有吸引力)而尝试。尝试永远是件正确的事儿,但有时候不用太突进,可以调 ...
Hadoop中 key键的排序比较器类
Hadoop中 key键的排序比较器类
排序是MapReduce的核心技术,尽管应用程序本身不需要对数据排序,但可以使用MapReduce的排序功能来组织数据。默认情况下,MapReduce根据输入记录的键对数据排序。键的排列顺序是由RawComparator控制的,规则如下: ...
Hadoop关于处理大量小文件的问题和解决方法
Hadoop关于处理大量小文件的问题和解决方法
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。 任 ...
图解shell命令运行Hadoop1.2的WordCount例子
图解shell命令运行Hadoop1.2的WordCount例子
在 hadoop1.2.x的版本中,直接运行自带的WordCount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还 是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译 ...
Hadoop计算中的Shuffle过程
Hadoop计算中的Shuffle过程
Shuffle 过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看 完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapRed ...
利用ganglia调优hadoop
利用ganglia调优hadoop
本文提供一种方法在对hadoop调优的时候从整个资源利用方面入手进行调优.
图解Hadoop1.2.1容量调度器的配置
图解Hadoop1.2.1容量调度器的配置
资源 调度器是Hadoop集群中一个比较重要的模块,最初的hadoop资源调度器是基于队列形式的FIFO调度的,这种模式在大规模集群的时候,资源分配并 不是很合理,比如一个后提交的任务,但想要它先执行怎么办,而在FIFO模 ...
Hadoop能力测试图谱
Hadoop能力测试图谱
一张关于Hadoop技术框架的图,基本上涉及到Hadoop当前应用的主要领域,可用于测试自我hadoop相关能力。
配置hadoop伪分布模式
配置hadoop伪分布模式
使用的linux mint 15 64bit,hadoop使用的是1.2.1版本。 1、设置ssh 安装ssh相关软件包: sudo apt-get install openssh-client openssh-server 然后使用下面两个命令之一启动/关闭sshd: sudo /etc/init.d/ssh ...
SQL on Hadoop的最新进展及7项相关技术分享
SQL on Hadoop的最新进展及7项相关技术分享
本文从技术架构和最新进展的角度分析了7种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Stinger、Impala、Shark/Spark、Phoenix、 Hdapt/HadoopDB、Hawq/Greenplum。
Hadoop部署在RedHat Linux 5上常见错误及解决方案
Hadoop部署在RedHat Linux 5上常见错误及解决方案
本文提供了Hadoop部署在RedHat Linux 5上几种常见错误及解决方案

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-11-12 13:55 , Processed in 0.157532 second(s), 16 queries .