管理软件

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 管理软件

SQL-on-Hadoop新工具提高Hadoop平台采纳率

作者:匿名出处:论坛2015-12-17 09:11

  业界对于Hadoop商业前景的关注因Hortonworks公司去年十一月上市而变得更加热烈,该公司是雅虎为其开源流程框架而与风投公司联合成立的,现已成为第一家排名前三的独立Hadoop发行版提供商。

  于是在近期举行的Hadoop 2015峰会上(由Hortonworks公司和雅虎公司联合举办的年度Hadoop会议),大家对Hadoop的关注更密切了。根据Gartner最新调查结果显示,Hadoop平台仍然处在早期采纳阶段。与此同时,新的开源和专用工具不断涌现出来,帮助组织跃过Hadoop概念原型验证阶段,走向全面的生产应用阶段,为众多用户提供支持。

  Hortonworks公司CEORob Bearder并没有直接反驳Gartner公司的数据。相反,他呼吁与会者“在上下文中去看它。我们只是在开始进入一个领域,它将变得更有变革能力。”Bearden表示,Hadoop正在经历关系型数据库25到30年前经历过的困难发展点,但Hadoop的进程显然要更快。

  Hadoop之杯:半满还是半空?

  据Gartner报告称,在284名IT和商业领袖受访者中,54%表示未来两年在Hadoop方面不会有投资计划。一些人把这项调查看做是玻璃杯半空的一种表现(喻示悲观),而另一些人则认为杯子是半满的(喻示乐观)。该调查是在今年早些时候发起的,到现在只有26%的受访者最终实施了部署、试点或试验。但是Bearden提醒大家注意,数据显示还有另外18%的受访者在未来两年将加入Hadoop使用者的行列。

  高度兴奋的Hadoop要走出早期采纳者的角色,走向更广阔的企业平台,需要面对的一个重大障碍就是技能不足。所涉及的技能包括从早期编程和配置阶段到后端分析能力都有。

  特别是在分析阶段,Hadoop的数据累积功能可以帮助处理非结构化和半结构化的数据,转化为企业的数据资产,同时可以使用一些针对Hadoop支持SQL的产品,这些工具为那些公司精通SQL的员工打开了通往Hadoop数据的道路。

  MikeHoskins是供应商Actian公司负责数据管理和分析技术的CTO,他说:“人们已经有了大量重要的基础设施在支撑其企业运营。SQL正是他们获取数据分析最有用的工具,对SQL的集成也是Hadoop采纳的一个重要门槛。”

  为Hadoop播下SQL种子

  在某些方面,针对Hadoop的SQL工具已经是相当丰富了。在本次大会的一次专题分会上,Forrester研究公司分析师Mike Gualtieri指出,所有的SQL工具对Hadoop用户都可用了。

  自2007年Facebook公司把ApacheHive数据仓库软件开源以来,针对Hadoop的SQL工具就蜂拥而出,包括Actian Vortex,Pivotal Hawq,Cloudera Impala,JethroData命名的SQL引擎以及其它产品。这些技术其中有一些是在本次Hadoop峰会上新发布的。例如,Hadoop分销商MapR展示了ApacheDrill的新版本,这是一款开源工具,在五月份发布了1.0版本。

  JackNorris是MapR的首席营销官,他说:“Drill产品帮助处理数据存在但是很难找到的情况。核心IT机构预算不足更要求在Hadoop启用实施到生产环境之前要进行充分的概念验证。这是个鸡生蛋、蛋生鸡的问题,这正是Drill和基于SQL的数据搜索工具可以有所作为的地方。”

  在这次会议上,Teradata公司也表示,他们会为Presto项目做出贡献,这也是一款开源Hadoop SQL查询引擎,最早是Facebook发起的作为Hive的后续产品。Presto引擎还可以与非Hadoop分布文件系统存储的数据写作,使用管道或其它技术提升Hive的性能。

  Teradata的贡献可能集中在ODBC和JDBC驱动方面,与Hadoop的YARN资源管理软件、安装包、监视工具和文档集成,所有这些都让Presto更像商业软件了。

  Hadoop平台仍然是移动的目标

  Presto,Drill和Hadoop生态系统周边的其它产品有时会让人混淆,令人迷惑Hadoop平台到底是什么,它将变成什么。Spark流程引擎貌似Hadoop原生MapReduce引擎的替代品,它是另一个重要的案例。

  分析师Curt Monash看到了围绕Hadoop架构不断发展的意义,他还强调说,目前还不清楚原生Hadoop堆栈的哪部分将继续长期发展。

  Monash说:“我们正处在这个点上,在分析领域将有重大创新,是基于新数据管理、数据迁移和数据分析体系的。但是,现在数据负载的研究领域要从传统系统转向新堆栈仍然还有一些限制。在一般情况下,Hadoop采纳情况对于新应用出现更早,对于替换或者更换旧应用的情况要差一些。”

  要实现更快速的Hadoop应用增长,还有一个障碍是组织的心态需要全面改变,这样才能给公司引入数据流。对于像Schlumberger有限公司这样原来就应用大数据的机构,尤其如此。(该公司是一家石油和天然气技术服务供应商,总部位于Houston。)

  在考虑数据组织的问题时,会存在挑战。Anil Varma是Schlumberger公司负责数据和分析的副总裁,他说:“你如何设计你的推进过程,数据已经成为了公司能运行多先进的基础。但是,我不认为组织的结构已经优化到可以适应它的水平了。”

相关文章

关键词:SQL-on-Hadoop , Hadoop ,BI

责任编辑:杨爽

网警备案