炼数成金 大数据Hadoop
订阅

Hadoop

利用hadoop mapreduce 做数据排序
利用hadoop mapreduce 做数据排序
由于hadoop在reduce之后就不能对结果做什么了,所以只能分为两个job完成,第一个job统计次数,第二个job对第一个job的结果排序。 第一个job的就是hadoop最简单的例子countwords,我要说的是用hadoop对结果排序
Hadoop编程调用HDFS
Hadoop编程调用HDFS
HDFS 全称Hadoop分步文件系统(Hadoop Distributed File System),是Hadoop的核心部分之一。要实现MapReduce的分步式算法时,数据必需提前放在HDFS上。因此,对于HDFS的操作就变得 非常重要。Hadoop的命令行,提供了一 ...
Hadoop历史版本安装
Hadoop历史版本安装
从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无 一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在 ...
为你的 Hadoop 集群选择合适的硬件
为你的 Hadoop 集群选择合适的硬件
尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。
Mahout学习路线图
Mahout学习路线图
Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。
Hadoop家族学习路线图
Hadoop家族学习路线图
使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到 ...
用 Hadoop 进行分布式数据处理(进阶)
用 Hadoop 进行分布式数据处理(进阶)
Hadoop 分布式计算架构的真正实力在于其分布性。换句话说,向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行
hadoop+hive使用中遇到的问题汇总
hadoop+hive使用中遇到的问题汇总
问题排查方式 一个为一般的错误,查看错误输出,按照关键字google,另一个为异常错误(如namenode、datanode莫名其妙挂了):查看hadoop($HADOOP_HOME/logs)或hive日志
让Hadoop跑在云端系列文章 之 克隆虚拟机增加Hadoop节点
让Hadoop跑在云端系列文章 之 克隆虚拟机增加Hadoop节点
让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive ...
Hadoop完全分布式集群部署
Hadoop完全分布式集群部署
本次试验环境为Win7上用VMware搭建三个虚拟机环境,系统为Red Hat Enterprise 5。
使用Hadoop做数据分析前的十个替代准备
使用Hadoop做数据分析前的十个替代准备
Hadoop是一个大规模可伸缩的数据存储平台,被用作许多大数据项目的基础。Hadoop很强大,但是它有一个很陡峭的学习曲线,需要公司在时间和其他资源上作大量的投资。
实战:如何在Linux上安装与配置Hadoop
实战:如何在Linux上安装与配置Hadoop
Hadoop最早是为了在Linux平台上使用而开发的,但是Hadoop在UNIX、Windows和Mac OS X系统上也运行良好。不过,在Windows上运行Hadoop稍显复杂,首先必须安装Cygwin以模拟Linux环境,然后才能安装Hadoop。  在Unix上 ...
Hadoop分布式数据库HBase的数据管理
Hadoop分布式数据库HBase的数据管理
HBase是一个类似Bigtable的分布式数据库,它的大部分特性和Bigtable一样,是一个稀疏的、长期存储的(存在硬盘上)、多维度的排序映射表。这张表的索引是行关键字、列关键字和时间戳。每个值是一个不解释的字符数组,数 ...
原创Hadoop基础题库
原创Hadoop基础题库
原本想出至少50题hadoop, HDFS, MapReduce, Zookeeper相关的基础题,现在暂时不进行了,把已经出的20多道题都奉上。暂时没有了出题的动力,可能觉得这东西出成题也没啥意义。总之权当巩固,各位权当消遣着瞧瞧。//Ha ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-12-13 09:27 , Processed in 0.893326 second(s), 16 queries .