docs:新增spark streaming专栏

Java-Edge · Java-Edge · commit 38a30f322034 · 2024-03-25T19:06:49.000+08:00
diff --git a/docs/.vuepress/config.js b/docs/.vuepress/config.js
@@ -961,7 +961,7 @@ module.exports = {
                     }],
                     
                     "/md/spark/": [{
-                            title: "Spark",
+                            title: "Spark SQL",
                             collapsable: false,
                             sidebarDepth: 0,
                             children: [
@@ -976,6 +976,14 @@ module.exports = {
                                 "08-Spark SQL整合Hive",
                             ]
                         },
+                        {
+                            title: "Spark Streaming",
+                            collapsable: false,
+                            sidebarDepth: 0,
+                            children: [
+                                "00-为啥要学习Spark Streaming.md",
+                            ]
+                        },
                     ],
                 }
             }
diff --git a/docs/md/other/guide-to-reading.md b/docs/md/other/guide-to-reading.md
@@ -16,8 +16,9 @@ title: 目录
 > - 中央/分销预订系统性能优化
 > - 活动&优惠券等营销中台建设
 > - 交易平台及数据中台等架构和开发设计
-    >
-    >  目前主攻降低软件复杂性设计、构建高可用系统方向。
+> - 车联网核心平台-物联网连接平台、大数据平台架构设计及优化
+>
+>  目前主攻降低软件复杂性设计、构建高可用系统方向。
 
 ### 11来了
 
diff --git a/docs/md/spark/00-为啥要学习Spark Streaming.md b/docs/md/spark/00-为啥要学习Spark Streaming.md
@@ -0,0 +1,111 @@
+# 00-为啥要学习Spark Streaming
+
+本专栏从实时数据产生和流向的各个环节出发，通过集成主流的：
+
+- 分布式日志收集框架Flume
+- 分布式消息队列Kafka
+- 分布式列式数据库HBase
+- 当前非常火爆的Spark Streaming
+
+打造实时流处理项目实战，让你掌握实时处理的整套处理流程，达到大数据中级研发工程师的水平！
+
+## 前提
+
+适合有编程基础，想转行投身大数据行业的工程师，对你的学习能力及基础要求如下：
+
+1、熟悉常用Linux命令的使用
+
+2、掌握Hadoop、Spark的基本使用
+
+3、至少熟悉一门编程语言Java/Scala/Python
+
+#### 基于Flume+Kafka+Spark Streaming打造企业大数据流处理平台
+
+流行框架打造通用平台，直接应用于企业项目：
+
+- 处理流程剖析
+- 日志产生器
+- 使用Flume采集日志
+- 将Flume收集到的数据输出到Kafka
+- Spark Streaming消费Kafka的数据进行统计
+- Spark Streaming如何高效的读写数据到Hbase
+- 本地测试和生产环境使用的拓展
+- Java开发Spark要点拓展
+
+## 原理+场景，彻底搞懂Spark Streaming
+
+全面了解Spark Streaming的特性及场景应用，完成各个不同维度的统计分析。
+
+#### 日志收集框架Flume
+
+Flume架构及核心组件
+
+Flume&JDK环境部署
+
+Flume实战案例
+
+#### 分布式消息队列Kafka
+
+Kafka架构及核心概念 / Zookeeper安装
+
+Kafka单、多broker部署及使用
+
+Kafka Producer Java API编程
+
+Kafka Consumer Java API编程
+
+#### 1.入门
+
+Spark Streaming概述及应用场景
+
+Spark Streaming集成Spark生态系统使用
+
+从词频统计功能着手入门Spark Streaming
+
+Spark Streaming工作原理(粗/细粒度)
+
+#### 2.核心
+
+StreamingContext/Dstream
+
+Input DStreams和Receivers
+
+Transformation和Output Operations
+
+Spark Streaming处理socket/文件系统数据
+
+#### 3.进阶
+
+updateStateByKey算子的使用
+
+统计结果写入到MySQL数据库
+
+窗口函数的使用、黑名单过滤
+
+Spark Streaming整合Spark SQL操作
+
+#### Streaming整合Flume
+
+Push和Pull两种方式介绍
+
+与Flume Agent配置
+
+本地、服务器环境联调
+
+整合Spark Streaming应用开发
+
+#### Streaming整合Kafka
+
+版本选择详解
+
+Receiver和Direct两种方式
+
+本地、服务器环境联调
+
+整合Spark Streaming应用开发及测试
+
+## 总结
+
+渐进式学习让你彻底学会整套流程的开发
+
+需求分析 → 数据清洗 → 数据统计分析 → 统计结果入库 → 数据可视化
diff --git a/docs/md/spark/为啥要学习Spark？.md b/docs/md/spark/为啥要学习Spark？.md
@@ -1,4 +1,4 @@
-# 为啥要学习Spark？
+# 00-为啥要学习Spark？
 
 ## 1 你将获得
 
@@ -30,20 +30,93 @@ Spark 还有那么火吗？会不会已经过时？若对此感到困惑，大
 
 助你零基础上手 Spark 。这“三步走”方法论再配合 4 个不同场景的小项目，吴磊老师会从基本原理到项目落地，深入浅出玩转 Spark。
 
-### 2.1 专栏模块设计
+## 3 专栏模块设计
 
 结合 Spark 最常用的计算子框架，专栏设计为 4 个模块，它与“三步走”方法论的对应关系：
 
 ![](https://codeselect.oss-cn-shanghai.aliyuncs.com/image-20240321175835357.png)
 
-**基础知识模块**：从“Word Count”开始，详解 RDD 常用算子的含义、用法与适用场景，以及 RDD 编程模型、调度系统、Shuffle 管理、内存管理等核心原理，帮你打下坚实的理论基础。
+### 3.1 基础知识模块
 
-**Spark SQL 模块**：从“小汽车摇号”入手，熟悉 Spark SQL 开发 API，为你讲解 Spark SQL 的核心原理与优化过程，以及 Spark SQL 与数据分析有关的部分，如数据的转换、清洗、关联、分组、聚合、排序，等等。
+从“Word Count”开始，详解 RDD 常用算子含义、用法与适用场景及 RDD 编程模型、调度系统、Shuffle 管理、内存管理等核心原理，打下坚实理论基础。
 
-**Spark MLlib 模块**：从“房价预测”入手，了解 Spark 在机器学习中的应用，深入学习 Spark MLlib 丰富的特征处理函数和它支持的模型与算法，并带你了解 Spark + XGBoost 集成是如何帮助开发者应对大多数的回归与分类问题。
+###  3.2 Spark SQL 模块
 
-**Structured Streaming 模块**：重点讲解 Structured Streaming 是怎么同时保证语义一致性与数据一致性的，以及如何应对流处理中的数据关联，并通过 Kafka + Spark 这对“Couple”的系统集成，来演示流处理中的典型计算场景。
+五大知识板块，掌握大数据处理技术Spark SQL，每个大数据工程师都不应错过的必备大数据开发技能！
 
-## 3 大纲
+熟悉 Spark SQL 开发 API，讲解 Spark SQL 的核心原理与优化过程，以及 Spark SQL 与数据分析有关的部分，如数据的转换、清洗、关联、分组、聚合、排序，等等。
 
-![](https://codeselect.oss-cn-shanghai.aliyuncs.com/edcfb689e9ccc1a41ee4017641345f40-20240321175900046.jpg)
+![](https://codeselect.oss-cn-shanghai.aliyuncs.com/image-20240325160350635.png)
+
+#### ① Spark SQL快速入门
+
+- SQL on Hadoop
+- Spark SQL概述、架构、常见误区
+- spark-shell/spark-sql启动流程分析
+
+#### ② Spark SQL API编程
+
+- SparkSession & SQLContext
+- DataSet & DataFrame API
+- DataFrame & DataSet
+- 与RDD的互操作
+
+#### ③ Data Source API
+
+- Data Source API处理text/JSON/
+- Parquet/JDBC数据
+- SaveMode的正确选择
+- 配置参数统一管理
+
+#### ④ 整合Hive操作及函数
+
+- Spark整合Hive的数据操作
+- ThriftServer的使用
+- Spark SQL内置函数&自定义函数实战
+
+#####  学学大牛如何调优与思考
+
+学习技术受用一时，领悟思想受用一生！
+
+Spark调优策略：
+
+- 合理设置资源
+- 广播变量带来的好处
+- Shuffle调优
+- Spark与GC相关概念理解
+- JVM GC引起的相关问题调优
+
+Presto：
+
+- Presto概述、架构
+- Presto部署
+- Presto API操作
+- 综合案例实战
+
+关于大数据云平台建设：
+
+- 大数据云平台建设涉及哪些功能
+- 产品化设计思路
+- 元数据在大数据平台中的设计思路
+- Spark V.S Flink
+
+另一个大纲：
+
+- Spark SQL:从“小汽车摇号分析”开始
+
+- 台前幕后:DataFrame与 Spark SQL 的由来
+- 数据源与数据格式:DataFrame 从何而来?
+- 数据转换:如何在 DataFrame 之上做数据处理?
+- 数据关联:不同的关联形式与实现机制该怎么选?
+- 数据关联优化:都有哪些 Join 策略，开发者该如何取舍?
+- 配置项详解:哪些参数会影响应用程序执行性能?
+- Hive + Spark 强强联合:分布式数仓的不二之选
+- Spark Ul：如何高效地定位性能问题?
+
+### 3.3 Spark MLlib 模块
+
+从“房价预测”入手，了解 Spark 在机器学习中的应用，深入学习 Spark MLlib 丰富的特征处理函数和它支持的模型与算法，并带你了解 Spark + XGBoost 集成是如何帮助开发者应对大多数的回归与分类问题。
+
+### 3.4 Structured Streaming 模块
+
+重点讲解 Structured Streaming 是怎么同时保证语义一致性与数据一致性的，以及如何应对流处理中的数据关联，并通过 Kafka + Spark 这对“Couple”的系统集成，来演示流处理中的典型计算场景。