炼数成金 大数据Hadoop
订阅

Hadoop

Pivotal为Hadoop提供内存数据处理能力
Pivotal为Hadoop提供内存数据处理能力
汇集大数据、PaaS和敏捷开发业务的Pivotal公司宣布,将通过Pivotal GemFire XD为Hadoop提供内存交易存储。
Hadoop集群(第10期)_MySQL关系数据库
从这几天对MapReduce的了解,发现其实Hadoop对关系型数据库的处理还不是很强,主要是Hadoop和关系型数据做的事不是同一类型,各有所特长。下面几期我们将对Hadoop里的HBase和Hive进行全面了解
Hadoop DBOutputFormat的使用
Hadoop DBOutputFormat的使用
最近在研究数据在HDFS和关系型数据库之间的迁移,主要使用了两种方式:一是,按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入;二是采用JDBC的方式进行导入。MapReduce默认提供了DBInputForm ...
用Hadoop构建电影推荐系统
用Hadoop构建电影推荐系统
Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热,个性时代已经到来。
Hadoop DBOutputFormat的使用
Hadoop DBOutputFormat的使用
最近在研究数据在HDFS和关系型数据库之间的迁移,主要使用了两种方式:一是,按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入;二是采用JDBC的方式进行导入。MapReduce默认提供了DBInputForm ...
利用hadoop mapreduce 做数据排序
利用hadoop mapreduce 做数据排序
由于hadoop在reduce之后就不能对结果做什么了,所以只能分为两个job完成,第一个job统计次数,第二个job对第一个job的结果排序。 第一个job的就是hadoop最简单的例子countwords,我要说的是用hadoop对结果排序
Hadoop编程调用HDFS
Hadoop编程调用HDFS
HDFS 全称Hadoop分步文件系统(Hadoop Distributed File System),是Hadoop的核心部分之一。要实现MapReduce的分步式算法时,数据必需提前放在HDFS上。因此,对于HDFS的操作就变得 非常重要。Hadoop的命令行,提供了一 ...
Hadoop历史版本安装
Hadoop历史版本安装
从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无 一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在 ...
为你的 Hadoop 集群选择合适的硬件
为你的 Hadoop 集群选择合适的硬件
尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。
Mahout学习路线图
Mahout学习路线图
Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。
Hadoop家族学习路线图
Hadoop家族学习路线图
使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到 ...
用 Hadoop 进行分布式数据处理(进阶)
用 Hadoop 进行分布式数据处理(进阶)
Hadoop 分布式计算架构的真正实力在于其分布性。换句话说,向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行
hadoop+hive使用中遇到的问题汇总
hadoop+hive使用中遇到的问题汇总
问题排查方式 一个为一般的错误,查看错误输出,按照关键字google,另一个为异常错误(如namenode、datanode莫名其妙挂了):查看hadoop($HADOOP_HOME/logs)或hive日志
让Hadoop跑在云端系列文章 之 克隆虚拟机增加Hadoop节点
让Hadoop跑在云端系列文章 之 克隆虚拟机增加Hadoop节点
让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-11-12 13:55 , Processed in 0.120639 second(s), 16 queries .