Docker和hadoop

jiezhu2007

浏览: 241493 次
性别:
来自: 深圳

最近访客更多访客>>

tory7108121

Marln

taowanli

jiangchao419

博主相关

博客

微博

相册

留言

关于我

博客专栏

: hadoop技术学习
浏览量：141911

: 大数据产业分析
浏览量：2934

文章分类

社区版块

存档分类

博客分类：

hadoop技术专栏

hadoop google 算法

Docker

Docker很热，怎么形容？感觉开源除了spark技术，就是docker了，甚至把Go语言也带火了，把Go在TIOBE的排名从百名外带入主流语言的行列。

Docker快成救世主了，这么牛逼的技术，docker和hadoop碰撞出什么火花来呢，是不是得赶紧用上呢？

就不介绍具体什么是docker了，不是一门全新的技术，是基于LXC的高级容器引擎，从linux内核发展出来的轻量隔离技术。相比单纯的隔离，核心是标准化了镜像打包，部署和发布这个过程，相当于标准化了开发过程。就运行态来说，相比VM，核心优势就是轻量，劣势也明显，安全性不足，容易攻破。下图是一个VM和容器的对比：

Docker在大数据中的使用

关于LXC，google的大规模集群管理工具borg号称十年前就使用上了，使用场景就是大数据场景，而且批量/实时场景号称都支持的很好，集群资源利用率也非常高，所以照这个说起来，大数据和docker渊源很深。

但是现实的情况是，docker在hadoop领域用的并不是很好。目前主流两种用法：

第一种方法是用Docker来直接运行Hadoop。例如hortonworks，收购了一家叫SequenceIQ的公司，通过叫Cloudbreak的技术，将Hortonworks Data Platform（HDP）打包成Docker镜像，好处是可以在微软Azure、亚马逊AWS、谷歌云平台等任何主流云平台上启动HDP。这种解决的是在多云平台部署的问题。但是这个公司被收购之后也没有更多的消息了。Github上的最后一次更新也在5个月之前。

这个至多只是解决开发环境的问题，hadoop很难在不同的环境下，不调优而跑出一致的表现，天生的使用场景受限，价值有限。

第二种方法是通过YARN来使用Docker容器进行应用部署，yarn是支持docker的，具体可以看看：

http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html

yarn作为资源管理，由于其扩展能力，一直被压缩在了大数据领域，如果为了任务级别更高资源利用，通过FAIR调度算法足于，更强的隔离反而限制了资源的弹性使用。

当前资源调度更火是k8s（google主推，号称从borg发展而来）和mesos（伯克利大学主推）。瞄准的场景也更多的是应用级别，yarn支持docker处在一个很尴尬的地步。

展望

综合来说，hadoop体系有自己的一套资源管理系统，要解决的问题是多个服务器并行调度起来当一个服务器使用的问题。而docker技术本质上和VM一样，是将一个服务器拆成多份给更多的应用使用。Docker和hadoop体系在云下物理机的场景非常有限，未来在云上替代VM解决弹性伸缩问题应该有发展。

欢迎关注微信公众号《大数据和云计算技术》，获取最新大数据和云计算技术。

0
顶

0
踩

分享到：

解码混合云 | 滴滴背后的大数据应用

2017-06-27 21:17
浏览 1737
评论(1)
分类:数据库
查看更多

1 楼 MCLoginandPwd 2017-08-11

分享一款代码生成器，拖拽式组件结合流式处理，很容易的访问数据库、http、文件读写操作等等，支持编写javascript、java、freemaker，功能丰富强大，编制规则，可生成一切想要的代码，详见：http://blog.csdn.net/LoginandPwd/article/details/76944900，更多资讯：http://blog.csdn.net/LoginandPwd/article

发表评论

您还没有登录,请您登录后再发表评论