数据分析思维通识课 带你看透数据

数据分析思维通识课 带你看透数据
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: ,
2025-01
版次: 1
ISBN: 9787115655110
定价: 89.80
装帧: 其他
开本: 16开
页数: 288页
字数: 241千字


  • 数据分析的智慧其实潜藏在我们的常生活与职业生涯中,它无处不在。设想当你审视报告中的数字时,是否洞悉了那些数字背后隐藏的故事?它们的增长或减少,又向我们透露了怎样的信息?购房选址的策略,购车时机的选择,这些看似寻常的决策,实则都能在数据的指引下变得更为明智。本书巧妙地从纠正基本的数据认知误区启程,逐步深入至统计学的奥秘、人工智能的前沿,并巧妙融合数据叙事与思维工具的运用,旨在将抽象的数据理论转化为生活中触手可及、工作中行之有效的智慧宝典,让“冷冰冰”的数据知识跃然成为解决实际问题的“金钥匙”。本书面向的读者群广泛,它适合具有数据分析需求的技术高管、首席数据官、数据分析师、产品经理,以及软件研发人员和运营人员阅读,同时也适合作为高等院校相关课程的参书,可为提供一扇深入了解数据分析世界的窗,助力他们在未来的职业道路上稳健前行。



    郭炜,于北京大学,白鲸开源ceo,apache软件会成员,曾担任ibm和teradata数据架构师、联想研究院大数据监、万达电商数据部经理、易观cto。他坚信“数据是有灵魂的”,并以此为座右铭,投身大数据、算法、大模型、数据分析行业20余年。他是datao数据分析领域专家,推动了clickhoue、apache dolphincheduler、apache eatunnel等大数据开源项目在中国的发展,连续多年担任apachecon aia datao论坛,频繁亮相国际数据技术峰会。他荣获2024中国互联网发展创新与投资大赛、2023大数据产业年度趋势人物奖、虎啸中国数字营销十年杰出数字技术人物奖、2021中国开源人物等奖项,为中国数据领域的发展做出了贡献。

    第0章数据思维001

    0.1数据洞察万物规律002

    0.2数据背后的规律是算法003

    0.3对数据重要的是分析和表达004

    小结005

    思005

    章了解数据背后的006

    1.1均值:不要被均值骗了,它不能代表整体水007

    1.1.1均值在什么情况下才有价值007

    1.1.2分组结论和整体均值不是一回事009

    1.1.3辛普森悖论的启示010

    小结012

    思012

    1.2大数定律与小数陷阱:生活是的还是有定数的013

    1.2.1什么是大数定律013

    1.2.2什么是小数陷阱015

    1.2.3大数定律和小数陷阱给我们的启示016

    小结017

    思018

    1.3数据的期望值:为什么你坐的飞机是晚点018

    1.3.1墨菲的一个玩笑018

    1.3.2背后的数学019

    1.3.3解释墨菲定律.020

    1.3.4如何规避墨菲定律022

    小结023

    思023

    1.4对照试验:章鱼保罗真的是“预言帝”吗024

    1.4.1你认为的其实都是“伪”024

    1.4.2对照试验帮助你去伪存真025

    1.4.3幸存者偏差并不是对照试验027

    小结029

    思030

    1.5指数和kpi:智商是怎么计算出来的030

    1.5.1简单的指数:上证指数031

    1.5.2较复杂的指数:用户忠诚度指数032

    1.5.3复杂的指数:智商033

    小结036

    思036

    1.6因果陷阱:星座真的可以判定你的格吗037

    1.6.1因果倒置鸡叫导致天明037

    1.6.2相关而非因果关系吸烟真的致癌吗038

    1.6.3遗漏x变量找到背后真实原因040

    1.6.4以偏概全伯克森悖论041

    1.6.5控制数据范围神手谬误042

    1.6.6时间长度不足替代终点问题043

    小结043

    思044

    第2章从数据中快现规律045

    2.1直方图与幂律分布:为什么全世界1%的人掌握着50%的财富046

    2.1.1直方图与柱状图047

    2.1.2神奇的直方图048

    2.1.3幂律分布与帕累托法则050

    小结053

    思053

    2.2数据分布:房子应该买贵的还是买便宜的054

    2.2.1正态分布054

    2.2.2拉普拉斯分布057

    小结059

    思060

    2.3散点图和相关:如何从大量事实中快现规律060

    2.3.1散点图的历史060

    2.3.2散点图的制作原则061

    2.3.3通过散点图寻找规律063

    2.3.4散点图的易错点065

    小结068

    思069

    2.4标准差:“靠不靠谱”其实看标准差069

    2.4.1标准差070

    2.4.2标准差的具体使用071

    2.4.3标准误差073

    2.4.4标准误差的具体使用073

    小结075

    思076

    2.5数据抽样:大数据来了还需要抽样吗076

    2.5.1小数据抽样076

    2.5.2大数据时代是否还要抽样079

    2.5.3大数据环境下的抽样算法080

    小结082

    思083

    2.6卡方检验和p值:不吃晚餐可不可以083

    2.6.1什么是卡方检验084

    2.6.2如何进行卡方检验084

    2.6.3常见的卡方检验套路086

    2.6.4卡方检验不适用的场景088

    小结089

    2.7率与置信区间:两种预测,究竟应该相信哪一个089

    2.7.1准确率、率和召回率090

    2.7.2置信区间092

    2.7.3取舍的艺术093

    小结094

    思094

    第3章深入浅出大数据算法095

    3.1趋势分析与回归:怎样才能培育出天才的下一代096

    3.1.1回归的种类与使用096

    3.1.2均值回归100

    小结102

    思103

    3.2初识聚类算法:物以类聚,让复杂事物简单化103

    3.2.1聚类问题与场景104

    3.2.2聚类算法初探105

    3.2.3应用场景的展望107

    小结109

    思109

    3.3初识分类算法:分而治之,不断进化110

    3.3.1分类算法的定义与使用场景110

    3.3.2分类算法初探111

    3.3.3应用场景的展望114

    小结116

    思117

    3.4关联规则:为什么啤酒和尿布要放在一起117

    3.4.1关联规则的定义和使用场景117

    3.4.2关联规则算法初探118

    3.4.3应用场景的展望121

    小结123

    思124

    3.5蒙特卡洛算法与拉斯维加斯算法:有间内如何获得优解124

    3.5.1算法定义和使用场景124

    3.5.2蒙特卡洛算法与拉斯维加斯算法举例126

    3.5.3应用场景的展望129

    小结130

    思131

    3.6马尔可夫链:你的未来只取决于你当下做了什么131

    3.6.1算法定义与使用场景131

    3.6.2马尔可夫链举例132

    3.6.3应用场景的展望135

    小结136

    思137

    3.7协同过滤:你看到的短都是集体智慧的结晶137

    3.7.1算法定义与使用场景137

    3.7.2协同过滤算法初探139

    3.7.3协同过滤算法的应用与缺陷143

    小结145

    思146

    3.8人工智能算法初探:阿尔法是怎样的一只“”146

    3.8.1人工智能算法历史与深度学算法146

    3.8.2n和rnn149

    3.8.3深度学算法使用举例alphago151

    3.8.4深度学算法新案例与未来153

    小结155

    思155

    第4章有效地用数据说话156

    4.1确定问题:与利益无关的问题都不值得做数据分析157

    4.1.1如何确保数据分析有价值157

    4.1.2具体场景160

    小结163

    思164

    4.2采集数据:用好一手数据和数据164

    4.2.1一手数据和数据164

    4.2.2数据探索166

    4.2.3具体示例168

    小结171

    思171

    4.3写好故事线:你能利用数字推翻众人的理解吗172

    4.3.1回顾之前的发现172

    4.3.2设计故事线174

    4.3.3一图解千愁177

    小结178

    思179

    4.4实践你的理论:数据驱动终是用结果说话179

    4.4.1何为精益的方法180

    4.4.2创新扩散模型180

    4.4.3实战练183

    小结185

    思186

    4.5数据分析:15种数据思维图(上)186

    4.5.1vrio分析186

    4.5.2五力分析188

    4.5.3swot分析189

    4.5.4同理心地图190

    4.5.54p竞争分析191

    4.5.6奥斯本检验表192

    4.5.7success193

    4.5.8产品组合矩阵194

    小结195

    思196

    4.6数据分析:15种数据思维图(下)196

    4.6.1商业模式画布196

    4.6.2aidma197

    4.6.3aarrr198

    4.6.4smart199

    4.6.5pdca200

    4.6.6raci201

    4.6.7will,can,must202

    小结203

    思203

    第5章如何利用大模型进行数据分析204

    5.1大模型的威力205

    5.1.1什么是大模型205

    5.1.2大模型能帮我们做什么206

    小结212

    思212

    5.2使用大模型做数据分析212

    5.2.1如何让大模型的回答更专业和有效212

    5.2.2如何使用大模型探查分析数据215

    小结228

    思228

    5.3利用大模型生成专业的数据分析报告228

    5.3.1确定问题229

    5.3.2辅助数据探索234

    5.3.3辅助结讨论235

    小结239

    思239

    5.4数据分析工具展望240

    5.4.1数据存储与分析引擎clickhouse240

    5.4.2数据同步工具apacheseatunnel243

    5.4.3数据处理与调度台apachedolphinscheduler244

    5.4.4数据展示工具apache.echarts246

    小结247

    思248

    附录aab测试需要多少个样本才有效果249

    附录b哈勃定律251

    附录c标准差和标准误差公式252

    附录d蓄水池算法明细253

    附录e置信区间的计算过程254

    附录f用多边形推导圆周率255

    附录g文科生也可以看懂的alphago算法256

    附录h数据分析行业个人职业发展方向261

    附录i常用的一些和信息渠道262

    后记264


  • 内容简介:


    数据分析的智慧其实潜藏在我们的常生活与职业生涯中,它无处不在。设想当你审视报告中的数字时,是否洞悉了那些数字背后隐藏的故事?它们的增长或减少,又向我们透露了怎样的信息?购房选址的策略,购车时机的选择,这些看似寻常的决策,实则都能在数据的指引下变得更为明智。本书巧妙地从纠正基本的数据认知误区启程,逐步深入至统计学的奥秘、人工智能的前沿,并巧妙融合数据叙事与思维工具的运用,旨在将抽象的数据理论转化为生活中触手可及、工作中行之有效的智慧宝典,让“冷冰冰”的数据知识跃然成为解决实际问题的“金钥匙”。本书面向的读者群广泛,它适合具有数据分析需求的技术高管、首席数据官、数据分析师、产品经理,以及软件研发人员和运营人员阅读,同时也适合作为高等院校相关课程的参书,可为提供一扇深入了解数据分析世界的窗,助力他们在未来的职业道路上稳健前行。

  • 作者简介:


    郭炜,于北京大学,白鲸开源ceo,apache软件会成员,曾担任ibm和teradata数据架构师、联想研究院大数据监、万达电商数据部经理、易观cto。他坚信“数据是有灵魂的”,并以此为座右铭,投身大数据、算法、大模型、数据分析行业20余年。他是datao数据分析领域专家,推动了clickhoue、apache dolphincheduler、apache eatunnel等大数据开源项目在中国的发展,连续多年担任apachecon aia datao论坛,频繁亮相国际数据技术峰会。他荣获2024中国互联网发展创新与投资大赛、2023大数据产业年度趋势人物奖、虎啸中国数字营销十年杰出数字技术人物奖、2021中国开源人物等奖项,为中国数据领域的发展做出了贡献。
  • 目录:


    第0章数据思维001

    0.1数据洞察万物规律002

    0.2数据背后的规律是算法003

    0.3对数据重要的是分析和表达004

    小结005

    思005

    章了解数据背后的006

    1.1均值:不要被均值骗了,它不能代表整体水007

    1.1.1均值在什么情况下才有价值007

    1.1.2分组结论和整体均值不是一回事009

    1.1.3辛普森悖论的启示010

    小结012

    思012

    1.2大数定律与小数陷阱:生活是的还是有定数的013

    1.2.1什么是大数定律013

    1.2.2什么是小数陷阱015

    1.2.3大数定律和小数陷阱给我们的启示016

    小结017

    思018

    1.3数据的期望值:为什么你坐的飞机是晚点018

    1.3.1墨菲的一个玩笑018

    1.3.2背后的数学019

    1.3.3解释墨菲定律.020

    1.3.4如何规避墨菲定律022

    小结023

    思023

    1.4对照试验:章鱼保罗真的是“预言帝”吗024

    1.4.1你认为的其实都是“伪”024

    1.4.2对照试验帮助你去伪存真025

    1.4.3幸存者偏差并不是对照试验027

    小结029

    思030

    1.5指数和kpi:智商是怎么计算出来的030

    1.5.1简单的指数:上证指数031

    1.5.2较复杂的指数:用户忠诚度指数032

    1.5.3复杂的指数:智商033

    小结036

    思036

    1.6因果陷阱:星座真的可以判定你的格吗037

    1.6.1因果倒置鸡叫导致天明037

    1.6.2相关而非因果关系吸烟真的致癌吗038

    1.6.3遗漏x变量找到背后真实原因040

    1.6.4以偏概全伯克森悖论041

    1.6.5控制数据范围神手谬误042

    1.6.6时间长度不足替代终点问题043

    小结043

    思044

    第2章从数据中快现规律045

    2.1直方图与幂律分布:为什么全世界1%的人掌握着50%的财富046

    2.1.1直方图与柱状图047

    2.1.2神奇的直方图048

    2.1.3幂律分布与帕累托法则050

    小结053

    思053

    2.2数据分布:房子应该买贵的还是买便宜的054

    2.2.1正态分布054

    2.2.2拉普拉斯分布057

    小结059

    思060

    2.3散点图和相关:如何从大量事实中快现规律060

    2.3.1散点图的历史060

    2.3.2散点图的制作原则061

    2.3.3通过散点图寻找规律063

    2.3.4散点图的易错点065

    小结068

    思069

    2.4标准差:“靠不靠谱”其实看标准差069

    2.4.1标准差070

    2.4.2标准差的具体使用071

    2.4.3标准误差073

    2.4.4标准误差的具体使用073

    小结075

    思076

    2.5数据抽样:大数据来了还需要抽样吗076

    2.5.1小数据抽样076

    2.5.2大数据时代是否还要抽样079

    2.5.3大数据环境下的抽样算法080

    小结082

    思083

    2.6卡方检验和p值:不吃晚餐可不可以083

    2.6.1什么是卡方检验084

    2.6.2如何进行卡方检验084

    2.6.3常见的卡方检验套路086

    2.6.4卡方检验不适用的场景088

    小结089

    2.7率与置信区间:两种预测,究竟应该相信哪一个089

    2.7.1准确率、率和召回率090

    2.7.2置信区间092

    2.7.3取舍的艺术093

    小结094

    思094

    第3章深入浅出大数据算法095

    3.1趋势分析与回归:怎样才能培育出天才的下一代096

    3.1.1回归的种类与使用096

    3.1.2均值回归100

    小结102

    思103

    3.2初识聚类算法:物以类聚,让复杂事物简单化103

    3.2.1聚类问题与场景104

    3.2.2聚类算法初探105

    3.2.3应用场景的展望107

    小结109

    思109

    3.3初识分类算法:分而治之,不断进化110

    3.3.1分类算法的定义与使用场景110

    3.3.2分类算法初探111

    3.3.3应用场景的展望114

    小结116

    思117

    3.4关联规则:为什么啤酒和尿布要放在一起117

    3.4.1关联规则的定义和使用场景117

    3.4.2关联规则算法初探118

    3.4.3应用场景的展望121

    小结123

    思124

    3.5蒙特卡洛算法与拉斯维加斯算法:有间内如何获得优解124

    3.5.1算法定义和使用场景124

    3.5.2蒙特卡洛算法与拉斯维加斯算法举例126

    3.5.3应用场景的展望129

    小结130

    思131

    3.6马尔可夫链:你的未来只取决于你当下做了什么131

    3.6.1算法定义与使用场景131

    3.6.2马尔可夫链举例132

    3.6.3应用场景的展望135

    小结136

    思137

    3.7协同过滤:你看到的短都是集体智慧的结晶137

    3.7.1算法定义与使用场景137

    3.7.2协同过滤算法初探139

    3.7.3协同过滤算法的应用与缺陷143

    小结145

    思146

    3.8人工智能算法初探:阿尔法是怎样的一只“”146

    3.8.1人工智能算法历史与深度学算法146

    3.8.2n和rnn149

    3.8.3深度学算法使用举例alphago151

    3.8.4深度学算法新案例与未来153

    小结155

    思155

    第4章有效地用数据说话156

    4.1确定问题:与利益无关的问题都不值得做数据分析157

    4.1.1如何确保数据分析有价值157

    4.1.2具体场景160

    小结163

    思164

    4.2采集数据:用好一手数据和数据164

    4.2.1一手数据和数据164

    4.2.2数据探索166

    4.2.3具体示例168

    小结171

    思171

    4.3写好故事线:你能利用数字推翻众人的理解吗172

    4.3.1回顾之前的发现172

    4.3.2设计故事线174

    4.3.3一图解千愁177

    小结178

    思179

    4.4实践你的理论:数据驱动终是用结果说话179

    4.4.1何为精益的方法180

    4.4.2创新扩散模型180

    4.4.3实战练183

    小结185

    思186

    4.5数据分析:15种数据思维图(上)186

    4.5.1vrio分析186

    4.5.2五力分析188

    4.5.3swot分析189

    4.5.4同理心地图190

    4.5.54p竞争分析191

    4.5.6奥斯本检验表192

    4.5.7success193

    4.5.8产品组合矩阵194

    小结195

    思196

    4.6数据分析:15种数据思维图(下)196

    4.6.1商业模式画布196

    4.6.2aidma197

    4.6.3aarrr198

    4.6.4smart199

    4.6.5pdca200

    4.6.6raci201

    4.6.7will,can,must202

    小结203

    思203

    第5章如何利用大模型进行数据分析204

    5.1大模型的威力205

    5.1.1什么是大模型205

    5.1.2大模型能帮我们做什么206

    小结212

    思212

    5.2使用大模型做数据分析212

    5.2.1如何让大模型的回答更专业和有效212

    5.2.2如何使用大模型探查分析数据215

    小结228

    思228

    5.3利用大模型生成专业的数据分析报告228

    5.3.1确定问题229

    5.3.2辅助数据探索234

    5.3.3辅助结讨论235

    小结239

    思239

    5.4数据分析工具展望240

    5.4.1数据存储与分析引擎clickhouse240

    5.4.2数据同步工具apacheseatunnel243

    5.4.3数据处理与调度台apachedolphinscheduler244

    5.4.4数据展示工具apache.echarts246

    小结247

    思248

    附录aab测试需要多少个样本才有效果249

    附录b哈勃定律251

    附录c标准差和标准误差公式252

    附录d蓄水池算法明细253

    附录e置信区间的计算过程254

    附录f用多边形推导圆周率255

    附录g文科生也可以看懂的alphago算法256

    附录h数据分析行业个人职业发展方向261

    附录i常用的一些和信息渠道262

    后记264


查看详情