通过高级性能调整深入了解 Spark SQL

Spark AI summit 过往记忆大数据

2018年06月11日 01:54

本文资料来自于 2018-06-04 ~ 06 日在旧金山进行的 Spark + AI summit，分享作者为 Xiao Li 和 Wenchen Fan，两位都是 Databricks 的工程师，Spark PMC 以及 Committer。

本文 PPT 下载地址：

https://www.iteblog.com/ppt/DDI-Spark-SQL.pdf (点击下面阅读原文即可)

http://cdn.iteblog.com/ppt/DDI-Spark-SQL.pdf

https://download.csdn.net/download/w397090770/10471189

Spark SQL 是一个高度可扩展且高效的关系处理引擎，具有易于使用的 API 和中间查询容错功能。它是 Apache Spark 的核心模块。Spark SQL可以处理，整合和分析来自不同数据源（例如Hive，Cassandra，Kafka和Oracle）和文件格式（例如Parquet，ORC，CSV和JSON）的数据。这次演讲将深入 SparkSQL 的技术细节，涵盖查询执行的整个生命周期。通过本文将对 Spark SQL 有更深入的了解，以及了解如何调整Spark SQL的性能。