炼数成金 大数据Hadoop
订阅

Hadoop

SQL on Hadoop在快手大数据平台的实践与优化
SQL on Hadoop在快手大数据平台的实践与优化
SQL on Hadoop,顾名思义它是基于Hadoop生态的一个SQL引擎架构,我们其实常常听到Hive、SparkSQL、Presto、Impala架构,接下来,我会简单的描述一下常用的架构情况。HIVE,一个数据仓库系统。它将数据结构映射到存储 ...
2019 年,Hadoop 还是数据处理的可选方案吗?
2019 年,Hadoop 还是数据处理的可选方案吗?
Apache Hadoop 是提供“可靠的、可扩展的、分布式计算”的开源框架, 它基于 Google 2003 年发布的白皮书 “MapReduce:针对大数据的简化数据处理”(点击获取),在 2006 问世。接下来,越来越多的工具(如 Yahoo ...
谁在“谋杀” Hadoop?
谁在“谋杀” Hadoop?
在 Hadoop 的发展史上,有三家公司不得不提,分别是 Cloudera、Hortonworks 和 MapR。Cloudera 是第一家 Hadoop 商业化公司,成立于 2008 年 8 月,创始人来自 Google、FaceBook 和 Yahoo!,其首席架构师 Doug Cutti ...
HBase在人工智能场景的使用
HBase在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储 ...
通过BulkLoad快速将海量数据导入到Hbase
通过BulkLoad快速将海量数据导入到Hbase
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所 ...
一文理解 Apache Hadoop 机架感知
一文理解 Apache Hadoop 机架感知
分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之 ...
Hadoop真的要死了吗?
Hadoop真的要死了吗?
10 月 3 日,Hortonworks 宣布将与其主要竞争对手 Cloudera 合作创建一家年收入约为 7.3 亿美元、拥有 2,500 名客户、市场估值达 52 亿美元的公司,这令很多人感到意外。Splice Machine 首席执行官 Monte Zweben 表 ...
一文理解 Apache Hadoop 机架感知
一文理解 Apache Hadoop 机架感知
分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之 ...
Hadoop和大数据最炫目的60款顶级开源工具
Hadoop和大数据最炫目的60款顶级开源工具
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测, ...
在 OpenStack 上部署 Hadoop
在 OpenStack 上部署 Hadoop
现在,数据随处生成,数据量呈指数增长。来自 Web 服务器、应用程序服务器、数据库服务器的数据以用户信息、日志文件和系统状态信息的形式提供。大量的数据也由物联网设备产生,如传感器、车辆、工业设备等。从科学 ...
Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
4月6日,Apache Hadoop 3.1.0 正式发布了,Apache Hadoop 3.1.0 是2018年 Hadoop-3.x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在正式环境下使用 ...
HDFS 副本存放磁盘选择策略详解
HDFS 副本存放磁盘选择策略详解
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的 ...
打赢数据安全攻坚战,从Hadoop-security治理说起!
打赢数据安全攻坚战,从Hadoop-security治理说起!
对企业而言,做好Hadoop这个企业级最大的数据仓库的数据安全是重中之重,面临许多挑战,但遗憾的是目前大部分公司做的还不够完善,有的甚至形同虚设。我最近正在实践Hadoop Security领域,希望能整理出一个体系,并 ...
原创翻译 | Hadoop和企业信息管理:利用大数据的解决方案
原创翻译 | Hadoop和企业信息管理:利用大数据的解决方案
过去几年,大数据在全球商业环境中的重要性已得到坚定的确认。2017年看起来是ApacheHadoopimplementation(在开源开发和更多的商业选择方面)在企业层面上,由于企业信息管理(EIM)仍然需要更多改进的大数据解决方案。 ...
Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
今天凌晨 Apache Hadoop 3.0.0 GA 版本正式发布,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!这个版本是 Apache Hadoop 3.0.0 的第一个稳定版本,有很多重大的改进,比如支持 EC、支持多于2个的NameNodes、 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-7-18 02:54 , Processed in 0.083411 second(s), 16 queries .