管理软件

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 管理软件

别让你的数据仓库拖了企业业务的后腿

作者:Joe出处:51cto2018-10-21 15:50

  现代数仓环境

  现有数据仓库的优化可分为四个步骤

  建议先从历史数据和日志数据的处理开始做技术验证,利用大数据技术处理“海量”的混合结构数据,同时支持实时、在线和离线处理。

  逐步从客户体验、营销为切入点,突出业务价值。利用大数据技术提供实时分析能力。

  逐步把传统数仓和大数据架构进行完全融合,让全量数据“可用+可视”, 为业务人员提供自助式数据服务,培养数据思维。

  从数据角度重构现有价值链,从“用数据”到“养数据”,再到“数据经济”,利用大数据技术建立企业数据资产。

  Hadoop性能优化工具

  针对Hadoop性能优化的问题,Cloudera提供专为现代数据仓库设计的智能的工作负载管理云服务——Cloudera Workload XM。与传统的性能管理工具不同,Workload XM提供引导式自助服务性能分析,以便在整个生命周期内对工作负载提供可见性和有效控制。Cloudera Workload XM可以在不升级或安装任何软件的情况下工作,这意味着用户可以跳过软件安装部署的步骤立即使用。

  徐峰在此举了一个实例:

  某个用户想利用WXM诊断当前数据仓库的性能瓶颈。首先,用户通过Cloudera Manager收集大数据平台的日志诊断包,然后单击“开始上传”,WXM页面显示针对该诊断包的后台分析大约需要30分钟。

  待后台分析结束后,该用户登录WXM仪表盘,从首页上查看到(8月13日 - 9月1日),总共有676043个查询,失败查询占比为4.9%。仪表盘还会显示其他信息:

  每天不同类型的查询总数

  所有查询按持续时间,查询类型,DDL类型的分类汇总情况

  租户资源消耗排名

  需要重点关注的查询(包括运行时间最长的10大查询;消耗CPU /内存最多的10大查询;由Alanizer规则标记的10大查询;耗资源最多的10大租户等。)

  该用户比较关心跑得非常慢的查询。他单击“持续时间> 5s的查询分布图”,得到以下摘要信息:

  超过5秒的查询总数和失败的查询总数

  所选查询按持续时间,查询类型,DDL类型的分类汇总

  失败查询分布情况(个数和占比%)(语法错误,权限验证失败,漫长的等待时间,Alanizer标志)

  热门的查询用户

  该用户发现大多数慢查询都是元数据查询,因此他增加元数据标识过滤,同时调整时间范围,以便在每小时窗口中查看详细的查询信息。由于元数据查询基本上是管理员提交的,因此再将管理员用户添加到过滤器中。

  通过以上操作,该用户最终得出结论:大多数慢查询并非业务查询,而是收集增量统计信息的查询。

  某城商行大数据应用案例

  传统数仓向大数据技术转型是一项高难度工程,因此借鉴有价值的应用案例是很多企业管理者的共同选择。徐峰例举了国内某大型城市商业银行的大数据技术应用案例,该城商行于2013年购买了Teradata企业数据仓库平台6650C(20TB),通过建立全行级的逻辑数据模型,集合和整合所有内部数据,建立全行统一的单一业务视图。但是,随着业务量的不断增长,原有数据仓库方案架构封闭、性价比低、应用面窄、厂商依赖等诸多问题日益突出。

  为了避免每年花费大量经费来扩展Teradata基础设施,该城商行改用运行在X86标准硬件上的Cloudera大数据平台逐步替代Teradata。

  该城商行通过采用Hive,Impala,Spark,HBase等各类技术来处理不同类型的数据,满足了批量、实时交互以及流式数据多种不同的数据计算需要,同时借助Sentry实现了多部门访问的数据安全控制。因为Hadoop平台能存储更多的数据,而且Impala查询性能提升明显,该城商行正在基于这些大量的历史数据挖掘新的价值,如客户画像,精准营销,风险管控等。

  据了解,目前该城商行已经将大部分的Teradata数据仓库应用迁移到Cloudera大数据平台,包括CRM、监管报送、自助化分析、取数以及风险合规相关应用。同时,也基于大数据平台新建了一些应用,例如:实时营销和欺诈监控、在线明细查询等等。

相关文章

关键词:传统数据仓库,大数据

责任编辑:周文武

网警备案