搜索
当前位置:首页 > 智能应用 > 云计算 > 罗李:基于Hadoop数据服务平台

罗李:基于Hadoop数据服务平台

作者: 2018-09-19 22:48:50 浏览:162

2013年4月26日-27日,由51CTO传媒集团旗下WOT(World Of Tech)品牌主办的2013大数据全球技术峰会在北京富力万丽酒店召开。本次峰会将围绕大数据基础架构与上层应用的生态系统,解决大规模数据引发的问题,探索大数据基础的解决方案,激发数据挖掘带来的竞争力,让数据发出声音。51CTO作为本次峰会的主办方,将全程视频、图文直播报道这场数据的盛宴,更多内容请点击专题:2013大数据全球技术峰会。

2013大数据全球技术峰会专题

来自于阿里巴巴集团分布式团队成员罗李与在场观众分享,阿里的大数据发展经历几个阶段。

首先是单机版。但是面临着容量问题,一台机器放不下怎么办?同时单机的性能也不能达到要求。

之后阿里用了市面上流行的分布式数据库方案,容量和计算能力比单机版翻了好几倍,当时满足淘宝和阿里巴巴业务的发展。但发展到一定程度后,这种方式的问题初见端倪,首先容量有限制,作为一款商业软件,它的价格不菲,按照容量收费导致软件越用越贵。同时在大数据场景下,系统的稳定性也不是特别好。

再后来阿里内部有一些部门开始使用Hadoop,08年时阿里拥有7-8个大大小小的Hadoop集群,从十几台到一两百台,基本用于处理离线数据处理。但各个集群都各自为政独立发展,却又有千丝万缕的联系,虽相互依赖,但集群规模和运行水平却参差不齐,所以集群的稳定性一直是一个问题,最大的问题就是集群重复建设,高成本,低效率。

那么什么才是适合阿里巴巴的大数据解决方案?

云梯Hadoop服务集群

• HDFS - 海量数据存储服务

• 分组,通过quota(空间/文件数)限制:/group/taobao

• 数据共享:淘宝/天猫/一淘/B2B/支付宝

• MapReduce - 大规模分布式计算服务

• 分组,slot限制,按需申请,集中分配和调度

• 生产 / 开发 / 测试共享集群,白天开发,晚上生产

• 服务特色

• 单一大集群

• 多用户共享

• 计算分时

• 资源按需申请,按使用量计费

Hadoop最重要的两项服务是HDFS和MapReduce,阿里通过分组对资源做了切分,HDFS通过文件数和空间的配额做限制,mapreduce是做slot的限制。数据可以在阿里的平台上方便的共享,计算资源通过分时共享,白天进行开发和测试任务,晚上进行生产任务。

云梯提供的其他Hadoop服务有哪些?

其实这些服务都来自于Hadoop开源生态圈,并且可以很方便的吸收进来,这就是使用开源软件的优势。

最重要的服务是Hive,如果要迁移oracle的任务,就必须提供SQL语法的支持,hive做到了。之后阿里平台发展壮大也主要是hive的功劳,现在阿里平台上80%以上的作业是hive的。同时还提供了streaming,mahout,pig等工具。

阿里的HBase服务区别于独立的HBase集群,hbase机器和云梯其他slave机器是共享的,和其他的Mapreduce任务共享一个HDFS,阿里期望在云梯大规模数据和计算能力背景下,吸收HBase存储服务的特色,为云梯用户提供更好的在线服务体验。

结尾:以上是51CTO.com记者从一线为您带来的精彩报道。后续我们还有更加精彩的独家报道,敬请关注。


参与评价

最新评价

相关推荐

热文推荐