展会信息港展会大全

内存大数据查询引擎性能优化研究取得进展
来源:互联网   发布日期:2022-03-29 14:02:41   浏览:18110次  

导读:在Spark SQL框架应用中,配置参数优化是常常面临的问题。现有的机器学习优化方法大多时间成本高、无法很好适应所处理的数据量变化。 近日,中国科学院深圳先进技术研究院先进计算与数字工程研究所异构智能计算中心提出低时间成本、能够适应输入数据集大小变...

在Spark SQL框架应用中,配置参数优化是常常面临的问题。现有的机器学习优化方法大多时间成本高、无法很好适应所处理的数据量变化。

近日,中国科学院深圳先进技术研究院先进计算与数字工程研究所异构智能计算中心提出低时间成本、能够适应输入数据集大小变化的配置自动优化方法LOCAT。该方法由三个核心技术组成。该研究首先设计了query与配置参数敏感性分析技术。在收集训练样本时,从给定工作负载中识别并删除与配置参数不敏感的query。其次,对于其余的query,LOCAT通过计算相关性系数来识别重要的配置参数,然后应用核主成分分析来降低配置参数搜索维度。最后,LOCAT设计了感知数据集大小的贝叶斯优化来搜索最优配置,以便能根据数据集的大小自动优化性能。基于TPC-DS、TPC-H与HiBench测试基准的实验表明,分别在8台高性能x86服务器的集群环境与4台高性能ARM服务器的集群环境下,较当前最先进的自动调优解决方案,LOCAT降低优化时间成本达9.7倍,而且获得了高达2.8倍的性能提升。

相关成果以LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications为题,发表在ACM SIGMOD(数据管理国际会议)2022上。

LOCAT框架

来源:中国科学院深圳先进技术研究院

赞助本站

人工智能实验室
相关内容
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港