炼数成金 大数据Hadoop
订阅

Hadoop

Hadoop的实时分析之路
Hadoop的实时分析之路
本文重点讨论了Hadoop在实时分析方面的障碍和努力。很多应用案例不得不把数据放到Hadoop上,很多最终用户都希望在Hadoop上添加实时分析。
当Hadoop遇上DNA遗传科学
当Hadoop遇上DNA遗传科学
对于Ancestry.com(家谱网)的 技术总监Scott Sorensen来说,大数据其实并不陌生。长久以来,Sorensen和他的同事都在使用Apache Hadoop以及其他的开源工具来进行数据处理和分析。然而想要将Hadoop架构与DBA数据处理联 ...
使用Hadoop-RDMA加速大数据处理
使用Hadoop-RDMA加速大数据处理
BDTC 2013中国大数据技术大会首日全体大会上,俄亥俄州立大学计算机系教授Dhabaleswar K. Panda发表了题为《使用Hadoop-RDMA加速大数据处理》的演讲。他从高性能计算网络开始了自己的讲话,期间着重强调MPI部分的作用 ...
利用Mahout实现在Hadoop上运行K-Means算法
利用Mahout实现在Hadoop上运行K-Means算法
K-Means算法是基于分划分的最基本的聚类算法,是学习机器学习、数据挖掘等技术的最基本的 知识,所以掌握其运行原理是很重要的。
大数据安全: Hadoop安全模型的演进
大数据安全: Hadoop安全模型的演进
本文译者:吴海星 敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代,很多组织都在从各种源头收集数据,进行分析,并基于对海量数据集的分析做出决 策,因此这一过程中的安全问题变得愈发重要。与此 ...
Hadoop在电信大数据业务系统中的应用
Hadoop在电信大数据业务系统中的应用
2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构 ...
Hadoop解析序列文件并可视化输出
Hadoop解析序列文件并可视化输出
Hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 在进行mahout算法分析的时候有时会遇到算法最后的输出文件是序列文件的情况下,这样就不能直接通过HDFS文件系统看到最终的结果了(乱码, 因为是序列文件)。以前编写过一 ...
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解
本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 h ...
用集算器实现Hadoop内存计算
用集算器实现Hadoop内存计算
Hadoop运算效率不高是个不争的事实,这主要是由于Hadoop是使用MapReduce作为底层计算框架的,而MapReduce基本都是外存计 算。外存计算就需要通过频繁读写外存文件来实现计算和数据的交换,由于文件IO的读写效率比内存 ...
hadoop 关闭进程时报错no 进程 to stop
hadoop 关闭进程时报错no 进程  to stop
前两天和朋友李天王吃饭的时候,聊到了一个hadoop的运维的很简单问题,感觉很有意思,以前也没有注意过,现在加以重现和整理。 感谢李天王的分享。。。。 翻看了yarn-deamon.sh stop部分的脚本: Java代码 (stop)i ...
hadoop学习笔记-HDFS原理
hadoop学习笔记-HDFS原理
文章内容摘自书籍,互联网的博客的一些集合和个人的理解。 HDFS原理 hadoop提供了可靠的共享存储和分析的系统,HDFS实现存储,MapReduce实现分析处理,这两部分是hadoop的核心,由于HDFS是为了高数据吞吐量而优化的 ...
Hadoop MapReduce Task Log 无法查看syslog问题
Hadoop MapReduce Task Log 无法查看syslog问题
现象: 由于多个map task共用一个JVM,所以只输出了一组log文件 datanode01:/data/hadoop-x.x.x/logs/userlogs$ ls -R.:attempt_201211220735_0001_m_000000_0 attempt_201211220735_0001_m_000002_0 attempt_201211 ...
用Hadoop,还是不用Hadoop?
用Hadoop,还是不用Hadoop?
当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!实际上Hadoop被设计和建造出来,是用来解决一系列特定问题的。对某些问题来说,Hadoop可能会是一不合适的解决方案。 关键是要 ...
Hadoop虚拟化的性能对比和调优经验
Hadoop虚拟化的性能对比和调优经验
Hadoop和其他消耗不同类型资源的应用一起部署共享数据中心可以提高总体资源利用率;  ·灵活的虚拟机操作使得用户可以动态的根据数据中心资源创建、扩展自己的Hadoop集群,也可以缩小当前集群、释放资源支持其他应用 ...
Hadoop中小规模集群的并行计算缺陷
Hadoop中小规模集群的并行计算缺陷
注:写这篇文章的初衷是因为Hadoop炒得有点太热,很多用户现有数据规模并不适用于Hadoop,但迫于扩容压力和去IOE(Hadoop的廉价扩展 的确非常有吸引力)而尝试。尝试永远是件正确的事儿,但有时候不用太突进,可以调 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-1-24 03:42 , Processed in 0.139569 second(s), 16 queries .