炼数成金 大数据Hadoop
订阅

Hadoop

利用Mahout实现在Hadoop上运行K-Means算法
利用Mahout实现在Hadoop上运行K-Means算法
K-Means算法是基于分划分的最基本的聚类算法,是学习机器学习、数据挖掘等技术的最基本的 知识,所以掌握其运行原理是很重要的。
大数据安全: Hadoop安全模型的演进
大数据安全: Hadoop安全模型的演进
本文译者:吴海星 敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代,很多组织都在从各种源头收集数据,进行分析,并基于对海量数据集的分析做出决 策,因此这一过程中的安全问题变得愈发重要。与此 ...
Hadoop在电信大数据业务系统中的应用
Hadoop在电信大数据业务系统中的应用
2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构 ...
Hadoop解析序列文件并可视化输出
Hadoop解析序列文件并可视化输出
Hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 在进行mahout算法分析的时候有时会遇到算法最后的输出文件是序列文件的情况下,这样就不能直接通过HDFS文件系统看到最终的结果了(乱码, 因为是序列文件)。以前编写过一 ...
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解
本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 h ...
用集算器实现Hadoop内存计算
用集算器实现Hadoop内存计算
Hadoop运算效率不高是个不争的事实,这主要是由于Hadoop是使用MapReduce作为底层计算框架的,而MapReduce基本都是外存计 算。外存计算就需要通过频繁读写外存文件来实现计算和数据的交换,由于文件IO的读写效率比内存 ...
hadoop 关闭进程时报错no 进程 to stop
hadoop 关闭进程时报错no 进程  to stop
前两天和朋友李天王吃饭的时候,聊到了一个hadoop的运维的很简单问题,感觉很有意思,以前也没有注意过,现在加以重现和整理。 感谢李天王的分享。。。。 翻看了yarn-deamon.sh stop部分的脚本: Java代码 (stop)i ...
hadoop学习笔记-HDFS原理
hadoop学习笔记-HDFS原理
文章内容摘自书籍,互联网的博客的一些集合和个人的理解。 HDFS原理 hadoop提供了可靠的共享存储和分析的系统,HDFS实现存储,MapReduce实现分析处理,这两部分是hadoop的核心,由于HDFS是为了高数据吞吐量而优化的 ...
Hadoop MapReduce Task Log 无法查看syslog问题
Hadoop MapReduce Task Log 无法查看syslog问题
现象: 由于多个map task共用一个JVM,所以只输出了一组log文件 datanode01:/data/hadoop-x.x.x/logs/userlogs$ ls -R.:attempt_201211220735_0001_m_000000_0 attempt_201211220735_0001_m_000002_0 attempt_201211 ...
用Hadoop,还是不用Hadoop?
用Hadoop,还是不用Hadoop?
当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!实际上Hadoop被设计和建造出来,是用来解决一系列特定问题的。对某些问题来说,Hadoop可能会是一不合适的解决方案。 关键是要 ...
Hadoop虚拟化的性能对比和调优经验
Hadoop虚拟化的性能对比和调优经验
Hadoop和其他消耗不同类型资源的应用一起部署共享数据中心可以提高总体资源利用率;  ·灵活的虚拟机操作使得用户可以动态的根据数据中心资源创建、扩展自己的Hadoop集群,也可以缩小当前集群、释放资源支持其他应用 ...
Hadoop中小规模集群的并行计算缺陷
Hadoop中小规模集群的并行计算缺陷
注:写这篇文章的初衷是因为Hadoop炒得有点太热,很多用户现有数据规模并不适用于Hadoop,但迫于扩容压力和去IOE(Hadoop的廉价扩展 的确非常有吸引力)而尝试。尝试永远是件正确的事儿,但有时候不用太突进,可以调 ...
Hadoop中 key键的排序比较器类
Hadoop中 key键的排序比较器类
排序是MapReduce的核心技术,尽管应用程序本身不需要对数据排序,但可以使用MapReduce的排序功能来组织数据。默认情况下,MapReduce根据输入记录的键对数据排序。键的排列顺序是由RawComparator控制的,规则如下: ...
Hadoop关于处理大量小文件的问题和解决方法
Hadoop关于处理大量小文件的问题和解决方法
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。 任 ...
图解shell命令运行Hadoop1.2的WordCount例子
图解shell命令运行Hadoop1.2的WordCount例子
在 hadoop1.2.x的版本中,直接运行自带的WordCount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还 是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

社区热帖

     

    GMT+8, 2018-10-23 15:06 , Processed in 0.134191 second(s), 16 queries .