本文资料来自于 2018-06-04 ~ 06 日在旧金山进行的 Spark + AI summit,分享作者为 Xiao Li 和 Wenchen Fan,两位都是 Databricks 的工程师,Spark PMC 以及 Committer。
本文 PPT 下载地址:
https://www.iteblog.com/ppt/DDI-Spark-SQL.pdf (点击下面阅读原文即可)
http://cdn.iteblog.com/ppt/DDI-Spark-SQL.pdf
https://download.csdn.net/download/w397090770/10471189
Spark SQL 是一个高度可扩展且高效的关系处理引擎,具有易于使用的 API 和中间查询容错功能。 它是 Apache Spark 的核心模块。Spark SQL可以处理,整合和分析来自不同数据源(例如Hive,Cassandra,Kafka和Oracle)和文件格式(例如Parquet,ORC,CSV和JSON)的数据。 这次演讲将深入 SparkSQL 的技术细节,涵盖查询执行的整个生命周期。 通过本文将对 Spark SQL 有更深入的了解,以及了解如何调整Spark SQL的性能。
欢迎关注本公众号:iteblog_hadoop:
0、回复 电子书 获取 本站所有可下载的电子书
3、盘点2017年晋升为Apache TLP的大数据相关项目
4、干货 | 深入理解 Spark Structured Streaming
5、Apache Spark 黑名单(Blacklist)机制介绍
6、Kafka分区分配策略(Partition Assignment Strategy)
8、干货 | Apache Spark 2.0 作业优化技巧
10、干货 | 如何使用功能强大的 Apache Flink SQL