炼数成金 大数据Hadoop
订阅

Hadoop

Hadoop之父Doug Cutting勾勒大数据平台的未来
Hadoop之父Doug Cutting勾勒大数据平台的未来
Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架。Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼Apache Hadoop项目创始人(同时也是Cloudera公司首席架 ...
Hadoop Job Tuning
Hadoop Job Tuning
Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人 ...
Hadoop中的三种调度算法
Hadoop中的三种调度算法
Hadoop 中的调度Hadoop 是一个通用系统,可以对一组分散的节点上的数据进行高性能处理。这样的定义也说明,Hadoop 是一个多任务系统,它可以同时为多个用户、多个作业处理多个数据集。这种多处理的能力也意味着 Hado ...
利用Hadoop保障大数据安全的九个技巧
利用Hadoop保障大数据安全的九个技巧
当企业转变为数据驱动的机器时,其潜力是巨大的:企业所拥有的数据可能成为获得竞争优势的关键。因此,企业的数据和基础设施的安全也变得比以往任何时候都重要。 在许多情况下,企业或组织都可能得到Forrester所说的 ...
Hadoop并行计算原理与分布式并发编程
Hadoop并行计算原理与分布式并发编程
我们通常说的分布式系统其实是分布式软件系统,即支持分布式处理的软件系统,它是在通信网络互联的多处理机体系结构上执行任务的,包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布 ...
Hadoop在企业中运行的6种标配
Hadoop在企业中运行的6种标配
咨询顾问公司Ovum的高级分析师Tony Baer最近发表了一篇博客,深入探讨了EMC的Hadoop策略,作为大数据时代下的“标配”技术,一方面客户的需求迫在眉睫,另一方面市场中越来越多的软件或者服务提供商都为用户提供了相 ...
开源八预言:桌面linux将死Hadoop要火
开源八预言:桌面linux将死Hadoop要火
近两年,在IT圈中开源这个词已经变得越来越常见,人人开口闭口谈云计算OpenStack、大数据Hadoop、手机Android,开源Linux。开发者、运维人员和IT媒体们也开始关注Eucalyptus、OpenStack、Hadoop、Ubuntu这些开源项目 ...
Hadoop 回收站trash设置
Hadoop 回收站trash设置
Hadoop 回收站trash设置$ vi core-site.xml ?xml version=1.0??xml-stylesheet type=text/xsl href=configuration.xsl?!-- Put site-specific property overrides in this file. --configurationpropertynamefs.defa ...
【呕心沥血版】 完全分布式模式hadoop集群安装与配置
【呕心沥血版】 完全分布式模式hadoop集群安装与配置
终于成功了感谢天 感谢地 感谢大老虎 感谢海兄sun折磨了我好几天 完全分布式模式下hadoop安装与配置终于安装好了,下面我把步骤一一写出来 一、实验环境1.安装环境简介物理笔记本:i52.27GHz (4 CPU)4G内存320GB硬盘 ...
跟我在linux 配置hadoop集群
跟我在linux 配置hadoop集群
以选择三台做实验,一台做NameNode,master 和jobTracker,另外两台做DataNode,slave,taskTracker 创建用户:为了操作的简便,在所有机器上创建相同用户名和相同密码的用户。本例创建了相同的用户hadoop。 use ...
hadoop源码分析系列(七)——org.apache.hadoop.hdfs包完结篇——dataNode详解及总结
hadoop源码分析系列(七)——org.apache.hadoop.hdfs包完结篇——dataNode详解及总结
hdfs分析的最后一篇首先进行一下dataNode(以下简称dn)的源码分析,然后总结下对hdfs包的设计模式的一点看法: DataNode既可以看做是一个类,也可以认为是一个进程,还可以认为是一台服务器,总之他的主要作用就是 ...
hadoop源码分析系列(六)——org.apache.hadoop.hdfs包之nameNode篇
hadoop源码分析系列(六)——org.apache.hadoop.hdfs包之nameNode篇
概述: nameNode主要负责管理hdfs中的namespace和inode信息,namenode维护了一个两个关键的列表 1、文件与块的映射(namespace) 2、块于节点的映射(inodes) namespace的信息存储在磁盘文件中,inode的信息每次 ...
hadoop源码分析系列(五)——org.apache.hadoop.hdfs包之balancer篇
hadoop源码分析系列(五)——org.apache.hadoop.hdfs包之balancer篇
首先说明下均衡器相关的原理知识: hadoop默认的复本布局策略是在发起请求的客户端存放一个复本,如果这个客户端在集群以外,那就选择一个不是太忙,存储不是太满的节点来存放,第二个复本放在与第一个复本相同的机 ...
hadoop源码分析系列(四)——org.apache.hadoop.hdfs包之协议篇
hadoop源码分析系列(四)——org.apache.hadoop.hdfs包之协议篇
hdfs包是hadoop HDFS的主要实现,首先分析下协议包,这个包定义了hdfs在不同节点中的通信协议,对于协议的分析有助于后面的章节对于hdfs服务端、客户端通信的深入理解,按照惯例,首先看一下这个包中几个孤立的类: ...
hadoop源码分析系列(三)——org.apache.hadoop.fs包 ----(下)
hadoop源码分析系列(三)——org.apache.hadoop.fs包 ----(下)
上一遍分析了fs子包中的源码,这一篇主要分析fs包下的类的源码 首先分析下这个包中较为孤立的类 抽象类FSOutputSummer类是OutputStream类的子类,主要作用是在调用底层的output输出流之前先生成数据的校验和, ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

社区热帖

     

    GMT+8, 2018-10-23 16:24 , Processed in 0.157340 second(s), 16 queries .