Skip to content

Commit 2449570

Browse files
committed
docs:更新数据中台专栏
1 parent e4826aa commit 2449570

File tree

5 files changed

+745
-2
lines changed

5 files changed

+745
-2
lines changed

docs/.vuepress/config.js

Lines changed: 32 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -136,6 +136,14 @@ module.exports = {
136136
link: '/md/biz-arch/00-新一代数据栈将逐步替代国内单一“数据中台”.md'
137137
}, ]
138138
},
139+
140+
{
141+
text: '用户画像',
142+
items: [{
143+
text: '01-DMP系统简介.md',
144+
link: '/md/biz-arch/01-DMP系统简介.md'
145+
}, ]
146+
},
139147
]
140148
},
141149
{
@@ -603,6 +611,16 @@ module.exports = {
603611
"00-新一代数据栈将逐步替代国内单一“数据中台”",
604612
"01-大数据的尽头是数据中台吗?",
605613
"03-构建数据中台的三要素:方法论、组织和技术",
614+
"05-如何统一管理纷繁杂乱的数据指标?",
615+
]
616+
},
617+
618+
{
619+
title: "用户画像",
620+
collapsable: false,
621+
sidebarDepth: 0,
622+
children: [
623+
"01-DMP系统简介",
606624
]
607625
},
608626
],
@@ -652,6 +670,7 @@ module.exports = {
652670
sidebarDepth: 0,
653671
children: [
654672
"维度建模理论之事实表",
673+
"维度建模理论之维度表",
655674
"数仓逻辑模型",
656675
"数仓业务调研",
657676
"数仓分层和数仓建模",
@@ -961,14 +980,25 @@ module.exports = {
961980
]
962981
}],
963982
"/md/AI/": [{
964-
title: "AI",
983+
title: "GPT发展",
965984
collapsable: false,
966985
sidebarDepth: 0,
967986
children: [
968987
"Claude3到底多强",
969988
"GPTs推荐",
970989
]
971-
}],
990+
},
991+
{
992+
title: "机器学习",
993+
collapsable: false,
994+
sidebarDepth: 0,
995+
children: [
996+
"01-人工智能概要",
997+
"GPTs推荐",
998+
]
999+
}
1000+
1001+
],
9721002
"/md/design/": [{
9731003
title: "重构",
9741004
collapsable: false,
Lines changed: 136 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,136 @@
1+
# 01-人工智能概要
2+
3+
## 1 发展历程
4+
5+
**20世纪50年代**:人工智能概念诞生
6+
7+
- 1956年,“人工智能”这个术语由麦卡锡在达特茅斯会议上首次提出
8+
- 主要研究逻辑和推理,以及如何在机器上模拟人类智能
9+
10+
**20世纪60年代**:知识表达期
11+
12+
- 开始研究知识表达,使用谓词逻辑来表达知识
13+
- 开发可以解题的专家系统,例如Dendral专家系统
14+
15+
**20世纪70年代**:知识库期
16+
17+
- 研究汇集知识到知识库,并开发程序利用知识库做推理
18+
- 出现视觉、语音、运动控制等领域的专家系统
19+
20+
**20世纪80年代**:专家系统盛行期
21+
22+
- 专家系统成为人工智能的主流应用,应用于医疗、工程等领域
23+
- 持续完善知识表达与推理系统
24+
25+
**20世纪90年代**:统计学习和深度学习兴起
26+
27+
- 机器学习成为主流,神经网络和深度学习理论进展显著
28+
- 1997年,深蓝击败国际象棋世界冠军卡斯帕罗夫
29+
30+
**21世纪**:深度学习和人工智能应用爆发期
31+
32+
- 深度学习技术不断成熟,语音、图像、自然语言处理取得进展
33+
- AlphaGo击败围棋世界冠军,人工智能应用进入爆发期
34+
35+
人工智能发展至今,已经由最初的专注推理转为数据驱动的统计学习与深度学习,并取得了巨大的进步,未来发展潜力巨大。
36+
37+
好的,人工智能主要可以分为以下几个分支:
38+
39+
## 2 人工智能的主要分支
40+
41+
### 2.1 **机器学习(Machine Learning)**
42+
43+
机器学习是人工智能的核心分支之一,它主要是通过算法和统计模型来实现机器对数据特征的自动学习,并对新的输入数据进行预测或决策。常见的机器学习算法有监督学习、无监督学习、半监督学习、强化学习等。
44+
45+
### 2.2 **计算机视觉(Computer Vision)**
46+
47+
计算机视觉通过相机、图像传感器和图像处理算法,来模拟人眼对物体进行识别和跟踪的功能。它可以应用于面部识别、医学影像分析、自动驾驶等领域。
48+
49+
### 2.3 **自然语言处理(NLP)**
50+
51+
自然语言处理让机器解析、理解人类的语言。它的应用有机器翻译、语音识别、信息检索等,是智能助手、chatbot的关键技术。
52+
53+
### 2.4 **机器人(Robotics)**
54+
55+
机器人技术研究如何模拟人类的行为能力,分为运算能力、感知能力、决策能力、执行能力等。它广泛应用于工业、服务、家居、军事等领域。
56+
57+
### 2.5 **知识表示与推理(KR&R)**
58+
59+
知识表示与推理关注如何用计算机来表示世界知识,并模拟人类经验进行推理。它可用于专家系统、知识管理、智能助手等应用。
60+
61+
以上是人工智能的主要研究方向,它们相辅相成,共同推动着人工智能技术的发展。不同方向都有自己的独特侧重点和应用领域。
62+
63+
## 3 机器学习是什么
64+
65+
使机器通过算法和统计模型对数据进行学习,并对新的数据做出预测或决策。
66+
67+
简单来说,机器学习就是让计算机自己通过数据去“学习”,而不需要人工进行明确的编程。机器学习的基本思想是构建一个可以从数据中 generalization(归纳总结)知识的系统。
68+
69+
## 4 机器学习的工作流程
70+
71+
![](https://codeselect.oss-cn-shanghai.aliyuncs.com/6f38f1ae4d274ab7b324208b437b07d7.png)
72+
73+
1.获取数据
74+
2.数据基本处理
75+
3.特征工程
76+
4.机器学习(模型训练)
77+
5.模型评估
78+
结果达到要求,上线服务
79+
80+
没有达到要求,重新上面步骤
81+
82+
### 4.1 获取数据
83+
84+
在数据集中一般:
85+
86+
- 一行数据我们称为一个样本
87+
- 一列数据我们成为一个特征
88+
- 有些数据有目标值 (标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值
89+
90+
#### 数据类型构成
91+
92+
数据类型一:特征值+目标值 (目标值是连续的和离散的)
93+
94+
数据类型二:只有特征值,没有目标值
95+
96+
#### 数据分割
97+
98+
机器学习一般的数据集会划分为两个部分:
99+
100+
- 训练数据
101+
102+
用于训练,构建模型
103+
104+
- 测试数据
105+
106+
在模型检验时使用,用于评估模型是否有效
107+
108+
划分比例:
109+
110+
- 训练集: 70% 80% 75%
111+
- 测试集: 30% 20% 25%
112+
113+
### 4.2 数据基本处理
114+
115+
即对故据进行缺失值、去除异常值等处理。
116+
117+
### 4.3 特征工程(Feature Engineering)
118+
119+
使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
120+
121+
意义:会直接影响机器学习的效果。
122+
123+
#### 意义
124+
125+
吴恩达说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
126+
127+
#### 内容
128+
129+
特征提取:将任意数据 (如文本或图像) 转换为可用于机器学习的数字特征
130+
特征预处理:通过一些转换函数,将特征数据转换成更加适合算法模型的特征数据过程
131+
132+
![](https://codeselect.oss-cn-shanghai.aliyuncs.com/9166ee48c4564ff89493f9b69823a1e8.png)
133+
134+
特征降维:在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
135+
136+
![](https://codeselect.oss-cn-shanghai.aliyuncs.com/139d656526954a228498e05f4a967fc2.png)
Lines changed: 46 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,46 @@
1+
# 维度建模理论之维度表
2+
3+
维度建模是数据仓库设计中的一种方法,用于组织和管理数据以支持分析和报告需求。在维度建模中,维度表是非常重要的一部分,它包含描述业务过程的维度属性,可以帮助用户对数据进行多维分析。描述属性的表通常被设计为维度表。
4+
5+
## 1 维度表概述
6+
7+
维度表是数据仓库中描述业务实体的表,例如时间、产品、地区等。包含描述维度属性的列,如维度键、层级、描述性属性等。
8+
9+
维度表通常具有较少的记录,但有多个属性描述每个记录。
10+
11+
## 2 维度表的特点
12+
13+
- 维度表的记录通常是静态的,不会频繁更新,因为它们描述的是静态业务实体。
14+
- 维度表的主键是维度键,用于与事实表进行关联。
15+
- 维度表通常包含层级结构,例如时间维度可以包含年、季度、月等层级。
16+
17+
## 3 维度表的设计原则
18+
19+
- 清晰定义维度表的业务含义,确保每个维度表只描述一个业务实体。
20+
- 使用稳定的、不频繁变化的属性作为维度表的描述性属性。
21+
- 为维度表的层级设计合适的字段,支持多层次的分析。
22+
- 使用适当的维度键进行唯一标识,通常采用自然键或人工主键。
23+
24+
维度表可与任意表组中的任意表进行关联,且创建时无需配置分区信息,但是对单表个数有所限制。通常要求维度表的单表量不超过1000万个。
25+
26+
- 维度表的数据不应被大量更新。
27+
- 可用MAPJOIN语句进行维度表和其它表的JOIN操作。
28+
29+
## 4 维度表与事实表的关系
30+
31+
- 维度表与事实表之间通过维度键建立关联,形成维度模型。
32+
- 事实表包含业务过程的度量或指标,而维度表描述了这些度量的上下文和属性。
33+
34+
## 5 维度表的分类
35+
36+
- 时间维度表:描述时间属性,如年、月、日、周等。
37+
- 产品维度表:描述产品属性,如产品ID、名称、类别等。
38+
- 地区维度表:描述地区属性,如国家、省份、城市等。
39+
40+
## 6 维度表的优势
41+
42+
- 支持多维分析:通过维度表可以对数据进行多维度的分析,提供更全面的业务视角。
43+
- 提高查询性能:合理设计的维度表结构可以提高查询效率,加快数据检索和报表生成的速度。
44+
- 方便理解和使用:维度表的设计符合业务逻辑,使用户更容易理解和使用数据仓库中的数据。
45+
46+
维度表在数据仓库设计中扮演着重要的角色,合理设计和使用维度表可以提高数据仓库的效率和灵活性,为用户提供更好的数据分析和报告支持。
Lines changed: 105 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,105 @@
1+
# 01-DMP系统简介
2+
3+
## 1 是什么?
4+
5+
数据管理平台(Data Management Platform),广泛应用在互联网的广告定向(Ad Targeting)、个性化推荐(Recommendation)领域。
6+
7+
可以把DMP简单理解成一个**数据池子**,接受来自各方的数据,然后融合,处理和优化,最后使用这些数据。
8+
9+
DMP = 数据+管理 +平台
10+
11+
DMP是集数据采集,存储,处理,分析,输出应用于一体。数据应用是搭建DMP的目标!
12+
13+
## 2 数据来源
14+
15+
第一方数据:
16+
17+
- 企业供应商数据
18+
- 企业会员数据
19+
- 企业销售数据
20+
21+
第三方数据:
22+
23+
- 用户隐私信息
24+
- 运营商数据
25+
- 行业数据
26+
27+
第二方数据:
28+
29+
- 用户行为数据
30+
- 用户消费数据
31+
32+
## 3 应用场景
33+
34+
- 人群画像
35+
- 精准营销
36+
- 营销活动优化
37+
- 程序化广告投放
38+
39+
DMP系统会通过处理海量互联网访问数据及机器学习算法,给用户标注各种标签。然后,在个性化推荐和广告投放时,再利用这些这些标签做实际广告排序、推荐等工作。无论是搜索广告、千人千面商品信息,还是信息流推荐,背后都有DMP系统。
40+
41+
![](https://codeselect.oss-cn-shanghai.aliyuncs.com/e38334231d7741968042370443d49539.png)
42+
43+
## 4 DMP 行业图谱
44+
45+
第一方DMP:单体企业,以企业CRM系统为主。最终表现是BI平台,挖掘销售线索,打造营销闭环
46+
47+
第二方DMP:广告公司,广告投放为主
48+
49+
- 阿里的达摩盘
50+
- 腾讯的广点通
51+
- 头条的巨量千川
52+
- 京东的京准通
53+
- 百度的智选
54+
55+
第三方DMP:大数据服务商,以数据交易为主
56+
57+
TalkingData,如个推数据、神策数据
58+
59+
## 5 前景
60+
61+
62+
63+
![](https://codeselect.oss-cn-shanghai.aliyuncs.com/image-20240326105914773.png)
64+
65+
## 6 DMP帮助用户达到啥效果?
66+
67+
### 用户分析与定向投放
68+
69+
- 广告精准投放
70+
- 提供丰富标签服务
71+
72+
### 广告效果分析
73+
74+
- 各渠道的获客数量
75+
- 各渠道的转化率
76+
- 订单成本分析
77+
78+
### 广告效果优化
79+
80+
- 个性化广告信息
81+
- 各渠道消费者的复购
82+
83+
## 7 DMP平台必须具备的能力
84+
85+
- 海量多源数据采集能力
86+
- 多元信息挖掘能力
87+
- 数据建模能力
88+
- 丰富的标签体系
89+
- 海量数据存储,处理,分析能力
90+
- 敏捷强大的数据分析
91+
92+
## 8 愿景
93+
94+
- 数字化决策支持,让数据能够运用到企业营销策略之中
95+
- 让数字资产成为企业的大脑,参与到商业场景的每个细节中
96+
- 在人工智能的加持下,实现数据智能化洞察、决策和运用
97+
98+
## 9 DMP系统怎么搭建?
99+
100+
对于外部使用DMP的系统或者用户来说,可以简单地把DMP看成是一个键-值对(Key-Value)数据库。广告系统或推荐系统,可以通过一个客户端输入用户的唯一标识(ID),然后拿到这个用户的各种信息:
101+
102+
用户的人口属性信息(Demographic),如性别、年龄
103+
有些是非常具体行为(Behavior),如用户最近浏览商品,用户的手机型号
104+
有些是通过算法系统计算出来的兴趣(Interests),如用户喜欢健身、听音乐
105+
有些则是完全通过机器学习算法得出的用户向量,给后面的推荐算法或者广告算法作为数据输入。

0 commit comments

Comments
 (0)