解析disql

王丽兵

2017-07-25 10:03:35  

介绍hadoop c++的拓展

王丽兵

近日,由中科院计算所主办的“hadoop 中国2010云计算大会”在北京召开,今年已是第四届举办。包括百度、淘宝和中移动在内的诸多企业都展示了基于hadoop的应用。在本次大会上百度的肖康做了主题演讲,一下为演讲的ppt节选。     #p#hce usage#e#       #p#hce reference#e#    

2017-07-25 10:03:35  

yahoo!基于hadoop的应用

王丽兵

近日,由中科院计算所主办的“hadoop 中国2010云计算大会”在北京召开,今年已是第四届举办。包括百度、淘宝和中移动在内的诸多企业都展示了基于hadoop的应用。在本次大会上yahoo!的milind bhandarkar做了主题演讲,一下为演讲的ppt节选。             #p#search assist#e#       

2017-07-25 10:03:35  

百度高级架构师马如悦:我的hadoop 2.0

谭茂

当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器,所以当集群计算资源紧缺,又有空闲的机器可用时,集群管理员很容易想到给集群加机器来解决这个问题,因为集群的计算槽位增多了,jobtracker能调度的槽位也多了,集群里能并行的map数和reduce数也增多了。 但是,当集群规模扩大到一定程度,比如3000台,再往上加机器,用户会发现,计算作业没有增多,本

2017-07-25 10:03:35  

structure big data揭示hadoop未来

joejoe0332

导读:关于新版hadoop的新闻和流言充斥着整个structure big data会议。在以mapreduce为主题的小组讨论上,datastax宣布了brisk,这款产品基于hadoop构建,但是它却使用了cassandra而不是默认的hdfs作为文件系统来存储... 关于新版hadoop的新闻和流言充斥着整个structure big data会议。在以mapreduce为主题的小组讨论上,datastax宣布了brisk,这款产品基于hadoop构建,但是它却使用了cassan

2017-07-25 10:03:35  

为解决扩展性瓶颈雅虎计划重构hadoop-mapreduce

过客

最近雅虎开发者博客发了一篇介绍hadoop重构计划的文章。因为他们发现当集群的规模达到4000台机器的时候,hadoop遭遇到扩展性的瓶颈,目前他们正准备开始对hadoop进行重构。 mapreduce面临的瓶颈 从集群大小和工作量中观察到的趋势是,mapreduce的jobtracker需要彻底改革,以解决其可扩展性,内存消耗,线程模型,可靠性和 性能的几个缺陷。mapreduce在过去5年框架不断的修复过程中发现成本在不断增加。目前hadoop各个模块的紧耦合使得在现有设计的基

2017-07-25 10:03:35  

cloudera宣布加入apache软件基金会

谭茂

[csdn原创]日前,数据管理和服务提供商cloudera宣布正式成为apache软件基金会(asf)赞助商。 “自1999年以来,apache软件基金会为开源生态系统做出了巨大的贡献”,cloudera首席执行官mike olson表示,“早期的hadoop项目依靠apache的基础设施和管理,取得了极大地进步,cloudera现在很高兴地加入到了这个组织当中。” 据了解,在此以前,cloudera一直在为hadoop技术提供各种支

2017-07-25 10:03:35  

专家指出dryad可靠性不足短期恐难以撼动hadoop

布丁

微软的hpc开发团队日前公开了dryad测试版,这意味着微软开始向windows hpc server用户提供一个能够进行海量数据处理的工具。 其实,微软推出dryad的目的很简单,让开发者们能够在windows或者.net平台上编写大规模的并行应用程序。  dryad在微软软体系结构中的位置 dryad也并非微软的新产品,dryad和dryadlinq早在微软收购powerset之前就已经存在,目前推出的,只不过是商业版。微软于2007年首度揭晓了关于技术的研究成果,并于

2017-07-25 10:03:35  

hadoop分布式文件系统:架构和设计要点

庄周梦蝶

一、前提和设计目标 1、硬件错误是常态,而非异常情况,hdfs可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是hdfs的核心架构目标。 2、跑在hdfs上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。 3、hdfs以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至t字节,一个单一hdfs实例应该能支撑数以千万计的文件。 4、 hdfs应用对文件要

2017-07-25 10:03:35  

hive架构介绍

badxy

导读:javaeye博客博主badxy撰写了一篇介绍hive架构的文章,文章主要介绍了hive的主要部件。 全文如下: hive的主要部件是: ui 用户提交查询和其他的操作。当前系统有一个命令行的接口和基于web的的gui driver 接受query的组件,该组件实现session的概念,以处理和提供基于jdbc/odbc执行以及颉取的api。 编译器 该组件分析query,在不同的查询块和查询表达式上进行语义分析,并最终通过从metastore中查找表与分区的元信息生成执行计划

2017-07-25 10:03:35  

注册表之hive

李智

1.hive结构 首先,要明白的是注册表是由多个hive文件组成. 而一个hive是由许多bin组成,一个bin是由很多cell组成. 而cell可以有好几种类型.比如 key cell(cm_key_node) value cell(cm_key_value) subbkey-list cell,value-list cell等 当新的数据要扩张一个hive时,总是按照block的粒度(4kb)来增加,一个hive的第一个块是base block.包含了有关该hive的全局信息.参考

2017-07-25 10:03:35  

mapreduce:一个重大的倒退

李智

这篇文章是由databasecolumn的几个数据库大牛写的,简要的介绍了mapreduce以及将其与现代数据库管理系统进行了对比,并指出了一些不足之处。本文纯属学习性翻译,从多方面来了解mapreduce,不代表完全赞同原文的观点。请读者也辩证的看。 一月八号,一个数据库专栏的读者询问我们关于对新的分布式数据库研究成果的意见。我们在这结合mapreduce谈谈我们的看法。现在是讨论这个问题的不错的时机,因为最近媒体上到处充斥着新的革命所谓“云计算”的信息。这种

2017-07-25 10:03:35  

mapreduce--是否该结束免费?

孟岩

微软著名的c++大师herb sutter在2005年初的时候曾经写过一篇重量级的文章:“the free lunch is over: a fundamental turn toward concurrency in software”,预言oo之后软件开发将要面临的又一次重大变革-并行计算。 摩尔定律统制下的软件开发时代有一个非常有意思的现象:“andy giveth, and bill taketh away.”。不管cpu的主频有

2017-07-25 10:03:35  

hdfs退服节点的方法

王旭

目前版本的dfsadmin的帮助信息是没写清楚的,已经file了一个bug了,正确的方法如下: 1.将dfs.hosts置为当前的slaves,文件名用完整路径,注意,列表中的节点主机名要用大名,即uname -n可以得到的那个。 2.将slaves中要被退服的节点的全名列表放在另一个文件里,如slaves.ex,使用dfs.host.exclude参数指向这个文件的完整路径 3.运行命令bin/hadoop dfsadmin -refreshnodes 4.web界面或bin/had

2017-07-25 10:03:35  

hbase vs cassandra:我们迁移系统的原因

Dominic Williams

我的团队近来正在忙于一个全新的产品——即将发布的网络游戏www.fightmymonster.com。这让我们得以奢侈地去构建一个全新的nosql数据库,也就是说,我们可以把恐怖的mysql sharding和昂贵的可伸缩性抛在脑后了。最近有很多人一直在问,为什么我们要把注意力从hbase上转移到cassandra上去。我确认,确实有这样的变化,实际上我们基本上已经把代码移植到了cassandra上了,这里我将给出解释。 为了那些不熟悉nosql的读者,后面的其

2017-07-25 10:03:35  

hadoop hbase单机环境简单配置教程

Mazhe

hadoop是apache的一个项目,它是一个实现了mapreduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,hadoop框架包含了分布式存储系统hdfs(hadoop distributed file system),其存储和数据结构很类似google的gfs。 hbase是hadoop的子项目,它是基于hadoop hdfs分布存储系统的一个google bigtable开源实现(最近看了bigtable的paper,很受鼓舞和

2017-07-25 10:03:35  

使用fabric部署hadoop和hbase

李智

fabric是一个自动化的通过ssh在多台机器上批量执行程序的框架。利用事先编辑好的项目配置文件,可以实现项目的自动部署和维护。整个操作都在本地的当前目录进行,非常方便。 fabric的思想可能是借鉴自capistrano:一个为rails设计的自动部署框架,目前已经被很多ruby非ruby的项目采用,包括hypertable这样的java项目。 这样的工具天然适合集群的管理和部署,因此我把我为公司集群写的fabfile.py文件帖了上来。由于4节点的hadoop集群的配置到处都是,因

2017-07-25 10:03:35  

hbase的安装、配置、管理与编程

俗人大小

环境准备 需要环境: pc-1 suse linux 9  10.192.1.1 pc-2 suse linux 9  10.192.1.2 pc-3 suse linux 9  10.192.1.3 pc-4 suse linux 9  10.192.1.4 其中,pc-1做namenode节点,pc-2、pc-3和pc-4做datanode节点。 并且已经安装成功hadoop-0.20.1及以上版本。 安装包准备 需要安装包: zookeep

2017-07-25 10:03:35  

hadoop hdfs配置

网海过客

环境: jdk1.6 hadoop-2.20.1 fuse-2.8.1 jdk1.6下载地址 hadoop-2.20.1下载地址http://www.apache.org/dyn/closer.cgi/hadoop/core/ fuse-2.8.1下载地址http://sourceforge.net/projects/fuse/files/fuse-2.x/ namenode 192.168.1.11 centos 5.3 hostname master-

2017-07-25 10:03:35  

基于hive的日志数据统计实战

李智

一、hive简介 hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。    它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 hql (类 sql )语言对这些数据进行自动化管理和处理。我们可以把 hive 中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在 hdfs 中的。 hive 经过对语句进行解析和转换,最终生成一系列基于 hadoop 的 m

2017-07-25 10:03:35  

中国古代文学 Global world news developer online documents developer online toolset Global E-commerce Global world images