长沙分类信息网-长沙新闻网

大数据基础设施的第三波浪潮是Kubernetes吗?

2024-6-3 13:05:16发布次查看发布人:

大数据概念自被社会广泛接受后,其基础设施一直保持快速进化状态,几年前大家还都在说hadoop,但现在kubernetes已经成为广泛讨论的对象。
在matt turck(美国早期基金firstmark合伙人)总结的2019年大数据基础设施主要发展趋势中,kubernetes已经成为大数据基础设施的最新趋势。
诞生于2003年10月的hadoop可以算得上大数据领域的“鼻祖”。hadoop是一个使用计算机网络对大量数据进行分布式存储和处理框架,在数据生态系统的爆炸式发展中发挥了绝对核心的作用。然而,在过去的几年里,宣布hadoop死亡已经成为行业观察家们的常态。mapr、cloudera、hortonworks的日子都很难过。
hadoop是在云没那么完备的时候开发的,大多数数据是在本地的,那时网络延迟是瓶颈,将数据和计算放在一起很有意义。但现在云计算快速发展,由于来自云平台的竞争,hadoop正面临越来越大的阻力。
向云的转变是大数据发展的第二阶段,亚马逊、微软、阿里云的业务都在增长,但随着云计算应用的深入,客户开始对成本望而却步。云计算确实提供了敏捷性,但它通常会带来很高的成本,尤其是当客户的注意力离开计价器或者无法准确预测他们的计算需求时。像adobe和capital one等aws客户,他们的云账单在2017年至2018年的短短一年里增长了60%以上,达到了2亿美元以上。
成本,以及对供应商锁定的担忧,加速了向混合方法的发展,包括公共云、私有云和本地部署的组合。面对众多的选择,企业将越来越多地选择最适合自己的工具来优化绩效和经济效益。随着云提供商更加积极地实现差异化,企业开始采用多云策略,利用每个云提供商最擅长的领域。在某些情况下,为了优化经济效益,最好的方法是将一些工作负载保留(甚至是调回)在本地,特别是对于非动态工作负载。
在这个新的多云和混合云时代,kubernetes无疑是冉冉升起的巨星。kubernetes在过去几年中一直是云计算领域最著名的开源项目之一。
kubernetes是谷歌于2014年推出的一个用于管理容器化工作负载和服务的开源项目,它正经历着与hadoop几年前同样的热情,有8000名与会者参加了kubecon活动,还有源源不断的博客文章和播客。
许多分析师认为,redhat在kubernetes世界的重要地位,在很大程度上促成了ibm以340亿美元的大规模收购。kubernetes的前景是帮助企业实现跨环境运行工作负载,企业的混合环境会包括数据中心、私有云以及一个或多个公共云。
kubernetes作为一个特别适合管理复杂、混合环境的编制框架,也越来越成为机器学习的有吸引力的选项。kubernetes使用相同的基础设施服务于多个用户,使得数据科学家不必成为基础设施专家,就能够灵活地选择他们喜欢的任何语言、机器学习库或框架,并训练和扩展模型,允许相对快速的迭代和强大的重现性。kubeflow是为kubernetes开发的机器学习工具包,它的发展势头迅猛。
kubernetes相对来说还处于起步阶段,但有趣的是,因为数据科学家可能更喜欢kubernetes的整体灵活性和可控性,上述情况可能标志着一种远离云机器学习服务的进化。我们可能正在进入数据科学和机器学习基础设施的第三个范式转变,从hadoop(直到2017年)到数据云服务(2017-2019),再到一个由kubernetes和下一代数据仓库(比如snowflake)主导的世界(2019-)。
目前谷歌、微软、亚马逊和 ibm 都有自己的 kubernetes 即服务产品,这让用户在大型云提供商之间切换基础设施变得更加简单。根据招聘网站dice的报告,2018年,kubernetes也是最受互联网公司青睐的it 技能之一,发展前景不可估量。
但是kubernetes还存在一些不足,它的复杂性已经成为项目继续发展的一个不可忽视的障碍。nirmata的一项研究显示,有超过50%的开发人员表示曾因kubernetes的复杂操作有过不同程度的困扰。同时其安全性也需要加强,2018年,包括特斯拉、weight watchers在内的多家公司也曾遭受kubernetes环境的攻击,原因是他们把kubernetes仪表板打开并暴露在互联网上。这些事故无疑会打击企业对kubernetes的信心。
当然,技术在发展中会不断完善,已经使用了kubernetes的企业都表示不会放弃,它与大数据的结合已成为一种趋势。

浙江大数据产业联盟
该用户其它信息

推荐信息

长沙分类信息网-长沙新闻网
关于本站