docs:更新spark专栏

Java-Edge · Java-Edge · commit 28f1a417faef · 2024-03-25T14:21:03.000+08:00
diff --git a/README.md b/README.md
@@ -50,6 +50,7 @@ docs/.vuepress/public/images 存储网站本身展示所需宣传营销图片。
 ```
 
 注意，该步骤不要带有括号、空格等特殊字符！！！
+文章标题是可以有空格的，不然也就没法正常断句了！
 ### 2.3 本地调试
 浏览器前端能正常看到文章，即可提交代码
 
diff --git a/docs/.vuepress/config.js b/docs/.vuepress/config.js
@@ -971,6 +971,8 @@ module.exports = {
                                 "03-SparkSQL入门",
                                 "04-SparkSQL的API编程之DataFrame",
                                 "05-快速理解SparkSQL的DataSet",
+                                "06-RDD与DataFrame的互操作",
+                                "07-Spark的Data Sources",
                             ]
                         },
                     ],
diff --git a/docs/md/spark/06-RDD与DataFrame的互操作.md b/docs/md/spark/06-RDD与DataFrame的互操作.md
@@ -0,0 +1,68 @@
+# 06-RDD与DataFrame的互操作
+
+```scala
+val spark = SparkSession.builder()
+  .master("local").appName("DatasetApp")
+  .getOrCreate()
+```
+
+Spark SQL支持两种不同方法将现有RDD转换为DataFrame：
+
+## 1 反射推断
+
+包含特定对象类型的 RDD 的schema。
+这种基于反射的方法可使代码更简洁，在编写 Spark 应用程序时已知schema时效果很好
+
+```scala
+// 读取文件内容为RDD，每行内容为一个String元素
+val peopleRDD: RDD[String] = spark.sparkContext.textFile(projectRootPath + "/data/people.txt")
+
+// RDD转换为DataFrame的过程
+val peopleDF: DataFrame = peopleRDD
+  // 1. 使用map方法将每行字符串按逗号分割为数组
+  .map(_.split(","))
+  // 2. 再次使用map方法，将数组转换为People对象
+  .map(x => People(x(0), x(1).trim.toInt))
+  // 3. 最后调用toDF将RDD转换为DataFrame
+  .toDF()
+```
+
+## 2 通过编程接口
+
+构造一个schema，然后将其应用到现有的 RDD。
+
+### 2.0 适用场景
+
+虽该法更冗长，但它允许运行时构造 Dataset，当列及其类型直到运行时才知道时很有用。
+
+### 2.1 step1
+
+```scala
+// 定义一个RDD[Row]类型的变量peopleRowRDD，用于存储处理后的每行数据
+val peopleRowRDD: RDD[Row] = peopleRDD
+  // 使用map方法将每行字符串按逗号分割为数组，得到一个RDD[Array[String]]
+  .map(_.split(","))
+  // 再次使用map方法，将数组转换为Row对象，Row对象的参数类型需要和schema中定义的一致
+  // 这里假设schema中的第一个字段为String类型，第二个字段为Int类型
+  .map(x => Row(x(0), x(1).trim.toInt))
+```
+
+### 2.2 step2
+
+```scala
+// 描述DataFrame的schema结构
+val struct = StructType(
+  // 使用StructField定义每个字段
+  StructField("name", StringType, nullable = true) ::
+    StructField("age", IntegerType, nullable = false) :: Nil)
+```
+
+### 2.3 step3
+
+使用SparkSession的createDataFrame方法将RDD转换为DataFrame
+
+```scala
+val peopleDF: DataFrame = spark.createDataFrame(peopleRowRDD, struct)
+
+peopleDF.show()
+```
diff --git a/docs/md/spark/07-Spark的Data Sources.md b/docs/md/spark/07-Spark的Data Sources.md

Original file line number	Diff line number	Diff line change
`@@ -971,6 +971,8 @@ module.exports = {`
`971`	`971`	`"03-SparkSQL入门",`
`972`	`972`	`"04-SparkSQL的API编程之DataFrame",`
`973`	`973`	`"05-快速理解SparkSQL的DataSet",`
	`974`	`+ "06-RDD与DataFrame的互操作",`
	`975`	`+ "07-Spark的Data Sources",`
`974`	`976`	`]`
`975`	`977`	`},`
`976`	`978`	`],`