数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow

数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2021-06
版次: 1
ISBN: 9787111682547
定价: 89.00
装帧: 其他
开本: 16开
纸张: 胶版纸
字数: 226千字
85人买过
  • 内容简介
      这是一本将数据科学三要素——商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。
      全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的Z新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。
      第1部分(第 1~6 章) 观测数据的分析技术
      讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作,包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘,以及在不能进行实验分析时如何更科学地进行全量评估等内容。
       第二部分(第7~9章)实验设计和分析技术
      从 A/B 实验的基本原理出发,深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法,尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。
       第三部分(第10~12章) 自助式数据科学平台SQLFlow
      针对性的讲解了开源的工程化的自助式数据科学平台SQLFlow,并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。 谢梁

    经济学博士

    腾讯 QQ 浏览器副总经理、QQ 浏览器数据负责人。

    CCF 数据科学专委会创始委员,入选第1财经数据科学50 人。

    曾任滴滴杰出数据科学家、美国微软云存储核心工程部首席数据科学家。 

    缪莹莹

    浙江大学硕士,滴滴首席数据科学家,CCF 数据科学专委会委员。发表十余项国家发明专利及国际发明专利,具有丰富的数据仓库建设、数据挖掘建模、实验科学与战略分析的经验。带领团队用数据的方式驱动从 0 到 1 的初创形态的业务和成熟形态业务的增长,善于发现业务机会和风险,给业务带来巨大价值。 

    高梓尧 

    快手数据分析总监,长期在美国硅谷和中国多家互联网科技公司从事用户分析、实验设计等相关工作。曾带领滴滴数据科学团队与蚂蚁金服联合开源共建一站式机器学习工具 SQLFlow。拥有多项国家发明专利。清华大学 – 哥伦比亚大学商业分析硕士项目指导嘉宾、泛华统计协会演讲嘉宾。

    王子玲

    上海交通大学计算数学硕士,曾任滴滴高级数据科学家、高级模型专家、高级风控专家。先后任职于日企 MTI、人人网、滴滴出行、爱奇艺等知名互联网企业,在网约车出行、互联网金融、在线音乐、短视频、网游等领域积累了丰富的大数据分析、策略、挖掘、建模、研究、应用经验。负责过两段公司级重点项目从 0 到 1 增长的整体数据驱动体系设计及落地。申请平台智能定价及优化算法系统等十余项国家发明专利及国际发明专利。 

    周银河

    现任腾讯数据科学家,曾任滴滴数据科学家,清华大学 – 哥伦比亚大学商业分析硕士项目指导嘉宾。拥有丰富的数据分析、统计建模及实验设计经验。 

    丁芬 

    曾任滴滴数据科学家,曾就职于美团、滴滴等国内知名互联网公司,工作经历涉及商场咨询、信贷风控、网约车交易及信息流等领域。 

    苏涛 

    物理学博士,美国生物物理学会会员。曾任中国科学院研究助理,研究量子计算和主动流体。后任乔治华盛顿大学计算物理研究员,从事细胞模拟、生物领域机器学习、高性能计算等方向的研究。2017 年进入互联网行业,先后在 Elex 和滴滴进行数学模型、算法和数据科学方向的研究,熟悉复杂网络、流形几何嵌入、时频分析以及相关的机器学习和优化方法。

    王禹 

    曾任滴滴高级数据分析师,主要负责滴滴分单引擎和调度引擎的实验设计、评估、数据分析以及成交率等核心指标的预测、异常诊断归因等工作。现任某短视频科技企业算法工程师,主要负责LBS 定位、POI 挖掘等相关场景的策略算法开发。 

    吴君涵 

    资深数据分析师,擅长用户增长分析和体验量化建模。具有丰富的大数据挖掘建模、产出数据驱动洞察并通过洞察影响决策的实战经验。

    杨骁捷 

    高级数据分析师,擅长双边平台的供需匹配效率分析,在出行、电商等不同业务领域中灵活运用因果推断相关知识,科学评估复杂场景下的策略收益。 

    刘冲 

    曾任滴滴高级数据分析师,主要负责流量运营的实验设计、评估、数据分析以及优化司机行为和提高司机收入等相关分析,现任某短视频科技企业数据分析师。 

    王玉玺 

    中国人民大学商学院博士,美国密歇根大学访问学者,滴滴数据科学部研究员,主要研究方向为定价策略优化、消费者行为分析等。参与多项国家自然科学基金及社会科学基金研究项目,在 Expert System、Information Systems Research、《管理评论》等期刊发表多篇论文。

    刘未名 

    滴滴数据科学家,拥有金融、互联网等领域的数据分析经验,擅长利用实验、量化模型解决业务问题,多次参与公司级重点项目的数据分析,帮助公司搭建数据驱动工业化体系,拥有国内、国际多项发明专利。 

    杨凯迪 

    现任快手数据分析部数据科学家。长期就职于国内头部互联网企业,对于出行定价补贴以及短视频行业用户画像挖掘、策略分析等有丰富经验。工作期间累计发表三篇国家发明专利论文。 

    李依诺 

    滴滴高级数据科学家,本硕先后毕业于美国印第安纳大学数学专业和美国乔治华盛顿大学生物统计学专业。目前就职于腾讯,曾就职于滴滴。在在线视频、网约车、网络游戏领域积累了丰富的数据科学实战经验,从 0 到 1 参与过腾讯、滴滴的实验工业化进程。 

    陈祥 

    资深算法工程师,硕士毕业于爱丁堡大学计算机科学专业。先后从事异常检测、强化学习、自然语言处理、领域知识图谱建设及应用等相关工作。曾就职于爱奇艺、滴滴。SQLFlow 贡献者之一。现从事用户画像、广告系统和推荐相关工作。 

    朱文静 

    高级数据分析师,主要从事基于业务数据进行的分析、建模、挖掘等工作。SQLFlow 项目重要成员之一,SQLFlow开源社区贡献者,参与贡献了多个 SQLFlow 模型,其中包括可解释黑盒模型、深度学习聚类模型、时间序列模型等。 第1章:如何分析用户的选择1

    1.1选择行为的经济学理论1

    1.1.1 选择无处不在1

    1.1.2 选择行为的经济学理论2

    1.2 用户选择行为计量分析框架:DCM4

    1.2.1 从经济模型到计量模型4

    1.2.2 常用的DCM模型及应用场景8

    1.3 DCM模型的Python实践11

    1.3.1?软件包?&?数据格式11

    1.3.2 使用Logistics Regression分析自驾选择问题15

    1.3.3 使用 Multinomial Logit Model 分析完整交通方式选择问题21

    1.3.4 使用 Nested Logit Model 分析完整交通方式选择问题25

    1.4 本章小节27

    第二章:随时间可变的行为分析27

    2.1 从“如何给二手车定价”案例说起27

    2.1.1 二手车定价背景27

    2.1.2 为什么不选择一般回归模型?28

    2.1.3 为什么选择生存分析?29

    2.2 生存分析的理论框架29

    2.2.2 生存函数及风险函数刻画34

    2.2.3 生存函数回归及生存概率的预测36

    2.3 生存分析在二手车定价案例中的应用实践38

    2.3.1 软件包&数据格式&数据入读40

    2.3.2 生存分析基础操作:二手车销售生存曲线绘制及差异对比42

    第三章 洞察消费者长期价值:基于神经网络的LTV建模44

    3.1 LTV的概念和商业应用44

    3.1.1 LTV——用户终生(长期)价值45

    3.1.2 用户生命周期和用户终生价值45

    3.1.3 LTV的特点46

    3.1.4 LTV分析能帮助我们回答的问题46

    3.1.5 LTV的计算方法47

    3.2 神经网络的基本原理49

    3.2.1 神经网络的历史49

    3.2.2 本章所涉及的神经网络结构50

    3.3 基于Keras的LTV模型实践56

    3.3.1 Keras介绍56

    3.3.2 数据的加载和预处理56

    3.3.3 输入数据的准备59

    3.3.4 模型搭建和训练65

    3.3.5 模型分析68

    3.4 本章总结68

    第4章 使用体系化分析方法进行场景挖掘69

    4.1. 选择经验化分析还是体系化分析69

    4.1.1经验化分析的局限性69

    4.1.2体系化方法的手段和优势70

    4.2. 体系化分析常用工具71

    4.2.1黑盒模型与白盒模型71

    4.2.2可解释模型——决策树71

    4.2.3全局代理模型76

    4.2.4场景挖掘模型分析方法框架77

    4.3. 场景挖掘分析实践78

    4.3.1数据背景及数据处理78

    4.3.2经验化分析80

    4.3.3场景挖掘模型的Python实现与模型解读80

    4.4. 本章小结86

    第5章 行为规律的发现与挖掘86

    概述86

    5.1对包含有顺序关系数据的规律分析87

    5.1.1有序数据及SVD方法概述87

    5.1.2SVD原理及推导88

    5.1.3SVD聚类建模Python实战93

    5.2对无序稀疏数据的规律分析98

    5.2.1稀疏数据及NMF方法概述98

    5.2.2NMF原理及推导99

    5.2.3NMF聚类建模Python实战100

    第6章 对观测到的事件进行因果推断104

    6.1 使用全量评估分析已发生的事件104

    6.1.1 为什么要进行全量评估104

    6.1.2 全量评估应用105

    6.2 全量评估主要方法105

    6.2.1 回归分析105

    6.2.2 DID方法114

    6.2.3 合成控制116

    6.2.4 Causal Impact119

    6.3 全量评估方法的应用123

    6.3.1 关于物流单量的全量评估应用(回归模型)123

    6.3.2 恐怖主义对经济影响评估(DID)128

    6.3.3 恐怖主义对经济影响评估(合成控制)130

    6.3.4 天气情况的评估(Causal Impact)133

    6.4 本章小结147

    第7章 如何比较两个策略的效果147

    7.1如何才能正确推断因果关系?147

    7.1.1 什么是相关性谬误147

    7.1.2 潜在结果和因果效果148

    7.2运用A/B实验进行两策略比较149

    7.2.1 什么是A/B实验149

    7.2.2 为什么应用A/B实验150

    7.2.3 A/B实验的基本原理150

    7.3 A/B实验应用步骤(实验方法具体实施步骤)151

    7.3.1 明确实验要素151

    7.3.2 实验设计153

    7.3.3实验过程监控155

    7.4 A/B实验案例介绍156

    7.4.1 实验场景介绍156

    7.4.3实验效果评估158

    7.5 本章小结159

    第8章 如何提高实验效能160

    8.1 控制实验指标方差的必要性和手段160

    8.2 用随机区组设计控制实验指标方差161

    8.2.1 利用随机区组实验实验设计降低方差161

    8.2.2 随机区组实验的特征选择162

    8.3 随机区组实验应用步骤163

    8.3.1 明确实验目标及背景:163

    8.3.2 实验设计:163

    8.3.3 实验过程监控:163

    8.3.4 实验评估中用到的方差分析的基本原理:163

    8.4 随机区组实验案例介绍168

    8.4.1 背景介绍:168

    8.4.2 基本设计:169

    8.4.3 随机区组实验相关的设计:169

    8.4.4 效果评估170

    8.5 随机区组实验常见问题172

    8.5.1 方差分析的使用前提是什么172

    8.5.2 随机区组的个数是越多越好吗?172

    8.5.3 随机区组实验的回归方程的$R^2$是越高越好吗,是否证明策略有效果?173

    8.6 本章小节173

    第9章 特殊场景下的实验设计和分析方法173

    9.1 分流的实验对象间有干扰怎么办174

    9.2 如果实验不能简单分流怎么办(Switchback实验设计和评估方法)181

    9.3 如果实验不能简单分流且时间效率要求高怎么办?(交叉实验设计)186

    9.4 如果不能分流的实验且策略不能轮转怎么办?199

    9.5 本章总结205

    10.1 SQLFlow简介206

    10.1.1 什么是SQLFlow206

    10.1.2 SQLFlow的定位和目标207

    10.1.3 SQLFlow工作原理209

    10.2 SQLFLow 运行环境的设置210

    SQLFlow in Docker210

    环境配置215

    交互224

    Jupyter Notebook225

    REPL225

    10.3 将分析模型固化到 SQLFlow 中的流程226

    10.4 总结232

    11.1.1 模型可解释的重要性和必要性233

    模型解释的重要性233

    模型解释的必要性233

    11.1.2 常见的可解释性模型234

    (1)线性回归235

    (2)逻辑回归238

    (3) 决策树242

    (4)KNN243

    (5)朴素贝叶斯分类器245

    (6)模型比较246

    11.2 黑盒模型的解释性247

    11.2.1 如何对黑盒模型进行解释247

    11.2.2 代理模型248

    11.2.3 Shapley250

    11.2.4 基于SQLFLow的黑盒模型解释的案例251

    11.3 本章小结255

    第12章 基于LSTM-autoencoder的无监督聚类模型255

    12.1 聚类的广泛应用256

    12.1.1 什么是聚类或模式识别256

    12.2 聚类模型的应用案例257

    12.2.1 k-means clustering -- 司机服务站点选址规划257

    12.2.2 Hierarchical Clustering -- 超市采购商分组260

    12.3 SQLFlow中基于深度学习的聚类模型265

    12.3.1 基于深度学习的聚类模型原理265

    12.3.2 Case study - 如何使用SQLFlow对城市道路交通状况进行分层272

    12.4 本章小结275
  • 内容简介:
    内容简介
      这是一本将数据科学三要素——商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。
      全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的Z新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。
      第1部分(第 1~6 章) 观测数据的分析技术
      讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作,包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘,以及在不能进行实验分析时如何更科学地进行全量评估等内容。
       第二部分(第7~9章)实验设计和分析技术
      从 A/B 实验的基本原理出发,深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法,尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。
       第三部分(第10~12章) 自助式数据科学平台SQLFlow
      针对性的讲解了开源的工程化的自助式数据科学平台SQLFlow,并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。
  • 作者简介:
    谢梁

    经济学博士

    腾讯 QQ 浏览器副总经理、QQ 浏览器数据负责人。

    CCF 数据科学专委会创始委员,入选第1财经数据科学50 人。

    曾任滴滴杰出数据科学家、美国微软云存储核心工程部首席数据科学家。 

    缪莹莹

    浙江大学硕士,滴滴首席数据科学家,CCF 数据科学专委会委员。发表十余项国家发明专利及国际发明专利,具有丰富的数据仓库建设、数据挖掘建模、实验科学与战略分析的经验。带领团队用数据的方式驱动从 0 到 1 的初创形态的业务和成熟形态业务的增长,善于发现业务机会和风险,给业务带来巨大价值。 

    高梓尧 

    快手数据分析总监,长期在美国硅谷和中国多家互联网科技公司从事用户分析、实验设计等相关工作。曾带领滴滴数据科学团队与蚂蚁金服联合开源共建一站式机器学习工具 SQLFlow。拥有多项国家发明专利。清华大学 – 哥伦比亚大学商业分析硕士项目指导嘉宾、泛华统计协会演讲嘉宾。

    王子玲

    上海交通大学计算数学硕士,曾任滴滴高级数据科学家、高级模型专家、高级风控专家。先后任职于日企 MTI、人人网、滴滴出行、爱奇艺等知名互联网企业,在网约车出行、互联网金融、在线音乐、短视频、网游等领域积累了丰富的大数据分析、策略、挖掘、建模、研究、应用经验。负责过两段公司级重点项目从 0 到 1 增长的整体数据驱动体系设计及落地。申请平台智能定价及优化算法系统等十余项国家发明专利及国际发明专利。 

    周银河

    现任腾讯数据科学家,曾任滴滴数据科学家,清华大学 – 哥伦比亚大学商业分析硕士项目指导嘉宾。拥有丰富的数据分析、统计建模及实验设计经验。 

    丁芬 

    曾任滴滴数据科学家,曾就职于美团、滴滴等国内知名互联网公司,工作经历涉及商场咨询、信贷风控、网约车交易及信息流等领域。 

    苏涛 

    物理学博士,美国生物物理学会会员。曾任中国科学院研究助理,研究量子计算和主动流体。后任乔治华盛顿大学计算物理研究员,从事细胞模拟、生物领域机器学习、高性能计算等方向的研究。2017 年进入互联网行业,先后在 Elex 和滴滴进行数学模型、算法和数据科学方向的研究,熟悉复杂网络、流形几何嵌入、时频分析以及相关的机器学习和优化方法。

    王禹 

    曾任滴滴高级数据分析师,主要负责滴滴分单引擎和调度引擎的实验设计、评估、数据分析以及成交率等核心指标的预测、异常诊断归因等工作。现任某短视频科技企业算法工程师,主要负责LBS 定位、POI 挖掘等相关场景的策略算法开发。 

    吴君涵 

    资深数据分析师,擅长用户增长分析和体验量化建模。具有丰富的大数据挖掘建模、产出数据驱动洞察并通过洞察影响决策的实战经验。

    杨骁捷 

    高级数据分析师,擅长双边平台的供需匹配效率分析,在出行、电商等不同业务领域中灵活运用因果推断相关知识,科学评估复杂场景下的策略收益。 

    刘冲 

    曾任滴滴高级数据分析师,主要负责流量运营的实验设计、评估、数据分析以及优化司机行为和提高司机收入等相关分析,现任某短视频科技企业数据分析师。 

    王玉玺 

    中国人民大学商学院博士,美国密歇根大学访问学者,滴滴数据科学部研究员,主要研究方向为定价策略优化、消费者行为分析等。参与多项国家自然科学基金及社会科学基金研究项目,在 Expert System、Information Systems Research、《管理评论》等期刊发表多篇论文。

    刘未名 

    滴滴数据科学家,拥有金融、互联网等领域的数据分析经验,擅长利用实验、量化模型解决业务问题,多次参与公司级重点项目的数据分析,帮助公司搭建数据驱动工业化体系,拥有国内、国际多项发明专利。 

    杨凯迪 

    现任快手数据分析部数据科学家。长期就职于国内头部互联网企业,对于出行定价补贴以及短视频行业用户画像挖掘、策略分析等有丰富经验。工作期间累计发表三篇国家发明专利论文。 

    李依诺 

    滴滴高级数据科学家,本硕先后毕业于美国印第安纳大学数学专业和美国乔治华盛顿大学生物统计学专业。目前就职于腾讯,曾就职于滴滴。在在线视频、网约车、网络游戏领域积累了丰富的数据科学实战经验,从 0 到 1 参与过腾讯、滴滴的实验工业化进程。 

    陈祥 

    资深算法工程师,硕士毕业于爱丁堡大学计算机科学专业。先后从事异常检测、强化学习、自然语言处理、领域知识图谱建设及应用等相关工作。曾就职于爱奇艺、滴滴。SQLFlow 贡献者之一。现从事用户画像、广告系统和推荐相关工作。 

    朱文静 

    高级数据分析师,主要从事基于业务数据进行的分析、建模、挖掘等工作。SQLFlow 项目重要成员之一,SQLFlow开源社区贡献者,参与贡献了多个 SQLFlow 模型,其中包括可解释黑盒模型、深度学习聚类模型、时间序列模型等。
  • 目录:
    第1章:如何分析用户的选择1

    1.1选择行为的经济学理论1

    1.1.1 选择无处不在1

    1.1.2 选择行为的经济学理论2

    1.2 用户选择行为计量分析框架:DCM4

    1.2.1 从经济模型到计量模型4

    1.2.2 常用的DCM模型及应用场景8

    1.3 DCM模型的Python实践11

    1.3.1?软件包?&?数据格式11

    1.3.2 使用Logistics Regression分析自驾选择问题15

    1.3.3 使用 Multinomial Logit Model 分析完整交通方式选择问题21

    1.3.4 使用 Nested Logit Model 分析完整交通方式选择问题25

    1.4 本章小节27

    第二章:随时间可变的行为分析27

    2.1 从“如何给二手车定价”案例说起27

    2.1.1 二手车定价背景27

    2.1.2 为什么不选择一般回归模型?28

    2.1.3 为什么选择生存分析?29

    2.2 生存分析的理论框架29

    2.2.2 生存函数及风险函数刻画34

    2.2.3 生存函数回归及生存概率的预测36

    2.3 生存分析在二手车定价案例中的应用实践38

    2.3.1 软件包&数据格式&数据入读40

    2.3.2 生存分析基础操作:二手车销售生存曲线绘制及差异对比42

    第三章 洞察消费者长期价值:基于神经网络的LTV建模44

    3.1 LTV的概念和商业应用44

    3.1.1 LTV——用户终生(长期)价值45

    3.1.2 用户生命周期和用户终生价值45

    3.1.3 LTV的特点46

    3.1.4 LTV分析能帮助我们回答的问题46

    3.1.5 LTV的计算方法47

    3.2 神经网络的基本原理49

    3.2.1 神经网络的历史49

    3.2.2 本章所涉及的神经网络结构50

    3.3 基于Keras的LTV模型实践56

    3.3.1 Keras介绍56

    3.3.2 数据的加载和预处理56

    3.3.3 输入数据的准备59

    3.3.4 模型搭建和训练65

    3.3.5 模型分析68

    3.4 本章总结68

    第4章 使用体系化分析方法进行场景挖掘69

    4.1. 选择经验化分析还是体系化分析69

    4.1.1经验化分析的局限性69

    4.1.2体系化方法的手段和优势70

    4.2. 体系化分析常用工具71

    4.2.1黑盒模型与白盒模型71

    4.2.2可解释模型——决策树71

    4.2.3全局代理模型76

    4.2.4场景挖掘模型分析方法框架77

    4.3. 场景挖掘分析实践78

    4.3.1数据背景及数据处理78

    4.3.2经验化分析80

    4.3.3场景挖掘模型的Python实现与模型解读80

    4.4. 本章小结86

    第5章 行为规律的发现与挖掘86

    概述86

    5.1对包含有顺序关系数据的规律分析87

    5.1.1有序数据及SVD方法概述87

    5.1.2SVD原理及推导88

    5.1.3SVD聚类建模Python实战93

    5.2对无序稀疏数据的规律分析98

    5.2.1稀疏数据及NMF方法概述98

    5.2.2NMF原理及推导99

    5.2.3NMF聚类建模Python实战100

    第6章 对观测到的事件进行因果推断104

    6.1 使用全量评估分析已发生的事件104

    6.1.1 为什么要进行全量评估104

    6.1.2 全量评估应用105

    6.2 全量评估主要方法105

    6.2.1 回归分析105

    6.2.2 DID方法114

    6.2.3 合成控制116

    6.2.4 Causal Impact119

    6.3 全量评估方法的应用123

    6.3.1 关于物流单量的全量评估应用(回归模型)123

    6.3.2 恐怖主义对经济影响评估(DID)128

    6.3.3 恐怖主义对经济影响评估(合成控制)130

    6.3.4 天气情况的评估(Causal Impact)133

    6.4 本章小结147

    第7章 如何比较两个策略的效果147

    7.1如何才能正确推断因果关系?147

    7.1.1 什么是相关性谬误147

    7.1.2 潜在结果和因果效果148

    7.2运用A/B实验进行两策略比较149

    7.2.1 什么是A/B实验149

    7.2.2 为什么应用A/B实验150

    7.2.3 A/B实验的基本原理150

    7.3 A/B实验应用步骤(实验方法具体实施步骤)151

    7.3.1 明确实验要素151

    7.3.2 实验设计153

    7.3.3实验过程监控155

    7.4 A/B实验案例介绍156

    7.4.1 实验场景介绍156

    7.4.3实验效果评估158

    7.5 本章小结159

    第8章 如何提高实验效能160

    8.1 控制实验指标方差的必要性和手段160

    8.2 用随机区组设计控制实验指标方差161

    8.2.1 利用随机区组实验实验设计降低方差161

    8.2.2 随机区组实验的特征选择162

    8.3 随机区组实验应用步骤163

    8.3.1 明确实验目标及背景:163

    8.3.2 实验设计:163

    8.3.3 实验过程监控:163

    8.3.4 实验评估中用到的方差分析的基本原理:163

    8.4 随机区组实验案例介绍168

    8.4.1 背景介绍:168

    8.4.2 基本设计:169

    8.4.3 随机区组实验相关的设计:169

    8.4.4 效果评估170

    8.5 随机区组实验常见问题172

    8.5.1 方差分析的使用前提是什么172

    8.5.2 随机区组的个数是越多越好吗?172

    8.5.3 随机区组实验的回归方程的$R^2$是越高越好吗,是否证明策略有效果?173

    8.6 本章小节173

    第9章 特殊场景下的实验设计和分析方法173

    9.1 分流的实验对象间有干扰怎么办174

    9.2 如果实验不能简单分流怎么办(Switchback实验设计和评估方法)181

    9.3 如果实验不能简单分流且时间效率要求高怎么办?(交叉实验设计)186

    9.4 如果不能分流的实验且策略不能轮转怎么办?199

    9.5 本章总结205

    10.1 SQLFlow简介206

    10.1.1 什么是SQLFlow206

    10.1.2 SQLFlow的定位和目标207

    10.1.3 SQLFlow工作原理209

    10.2 SQLFLow 运行环境的设置210

    SQLFlow in Docker210

    环境配置215

    交互224

    Jupyter Notebook225

    REPL225

    10.3 将分析模型固化到 SQLFlow 中的流程226

    10.4 总结232

    11.1.1 模型可解释的重要性和必要性233

    模型解释的重要性233

    模型解释的必要性233

    11.1.2 常见的可解释性模型234

    (1)线性回归235

    (2)逻辑回归238

    (3) 决策树242

    (4)KNN243

    (5)朴素贝叶斯分类器245

    (6)模型比较246

    11.2 黑盒模型的解释性247

    11.2.1 如何对黑盒模型进行解释247

    11.2.2 代理模型248

    11.2.3 Shapley250

    11.2.4 基于SQLFLow的黑盒模型解释的案例251

    11.3 本章小结255

    第12章 基于LSTM-autoencoder的无监督聚类模型255

    12.1 聚类的广泛应用256

    12.1.1 什么是聚类或模式识别256

    12.2 聚类模型的应用案例257

    12.2.1 k-means clustering -- 司机服务站点选址规划257

    12.2.2 Hierarchical Clustering -- 超市采购商分组260

    12.3 SQLFlow中基于深度学习的聚类模型265

    12.3.1 基于深度学习的聚类模型原理265

    12.3.2 Case study - 如何使用SQLFlow对城市道路交通状况进行分层272

    12.4 本章小结275
查看详情
12
相关图书 / 更多
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据新闻与信息可视化
周葆华;徐笛;崔迪
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据合规师概论
郑少华、商建刚
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据思维——从数据分析到商业价值(第2版)
王汉生
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据科学优化方法
孙怡帆
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据资产入表:理论与实务
赵治纲
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据处理技术与方法研究
付雯
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据治理 工业企业数字化转型之道 第2版
祝守宇
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据可视化Pyecharts探秘实践教程/新工科大数据专业群实践丛书
余先昊、袁华 编
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据标注工程——语言知识与应用
于东
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据可视化基础与应用
刘佳 许桂秋 李静雯
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据权利保护的模式与机制
余圣琪
数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow
数据科学伦理:概念、技术和警世故事
[比利时]大卫·马滕斯(David;Martens