中国经济学教育科研网“2020年100本经济学图书“ 京东“抓住新机遇中国经济学书单精选” 豆瓣评分: 9.9
邱嘉平
加拿大麦克玛斯特大学德格罗特商学院金融系终身教授及加拿大帝国商业银行讲席教授。多项研究成果发表在Journal of Financial Economics, Review of Financial Studies, Journal of Financial Quantitative and Analysis, Management Science, Accounting Review等金融学,管理学和会计学国际顶级学术期刊。论文获Northern Finance Association 和 Financial Management Association 年度最佳公司金融论文奖。担任Frontier of Economics in China,Quarterly Review of Economics and Finance, The International journal of Accounting等期刊副主编。瑞士国家基金,香港研究基金和加拿大国家社会和人文科学基金评审员。
不知不觉,从最初动笔到完成最后一稿已经过去了几个寒暑。我要感谢在本书写作过程中身边很多老师和学生的鼓励,他们让我坚信写作本书的意义,促使我在繁忙的科研教学工作之余能够坚持写作,最终成稿。
写这本书的初衷源起于我对计量经济学教学和实证研究之间“距离”的一些体验:其一,在实证研究中,我们通常关注的是社会现象间的因果关系,但传统计量教材并未以因果关系推断作为核心。其二,在学习计量经济学的过程中,无论是在本科还是研究生阶段,学生大多数的时间和精力都花在了给定假设条件下的数学证明,但对于假设条件与实证研究间的联系却不甚了解,而这些假设条件恰恰是实际研究中要面对的问题。例如在线性回归模型里干扰项条件均值为零E(e│X)=0的假设,学生通常直接使用它来证明回归系数的性质(例如无偏性),但对于这个假设的含义以及这一假设与回归系数、因果推断三者间的关系并没有直观和深入的理解。其三,运用计量模型对现实问题进行实证研究时,由于数据结构、研究情境等的差异,常常会遇到各种需要研究者自主选择判断的具体问题,这些问题在教课书里往往没有对应的答案。例如使用面板模型得到的结果和横截面模型得到的结果差异可能很大,但如何解释这些差异并没有简单答案,它需要读者在理解这两种方法差异的基础上结合数据的特点进行解释。其四,网络上随手可得的实用计量方法介绍大多是碎片化的,缺乏系统性和深度。还有些教材与课程着重介绍如何运用统计软件实现各种计量模型估计,这种“直奔运用式”的方法虽然能让读者很快地将计量模型运用到数据里,但并没有帮助读者真正了解所使用计量方法的本质,对实证结果的理解从而易于流于表面甚至出现偏差。
本书的目的是为本科生、研究生和从事社科科学实证研究的科研工作者提供一道缩短计量经济学理论学习和实证研究间距离的桥梁。为达到这个目的,本书的内容坚持了三个特点:逻辑性:以因果推断为核心,梳理各种方法的逻辑联系和优缺点。具体体现在本书尽量避免不必要的数学证明,使读者从繁复的公式中解脱出来,把关注重点放到使用各种计量方法进行因果推断的原理以及它们之间的联系和区别。直观性:尽量用最少的数学公式,通过最直接的语言和例子来理解各种方法的本质。具体体现在每章都会通过图形和简单的具体数值例子来直观解释不同的计量方法;实用性:本书涵盖了因果推断中最常用的方法,包括简单回归,匹配方法,面板分析,双重差分法,工具变量,样本自选择模型和断点回归。着重讲解不同计量方法实际运用过程中将面对的各种细节问题。具体体现在讲解每个计量方法时,都会通过Stata程序命令来分析讲解一个实证例子,并且会讨论实证中常见问题。
作为一本和传统计量教课书不尽相同的实用计量教材,为了达到以上特点,本书使用了较通俗易懂的语言,并且简化和省略了一些数理证明方面的细节,因此错误和缺失在所难免。欢迎读者对本书不足之处提出改进意见和建议。祝阅读愉快。
邱嘉平
2020年6月1日
目录
序言 9
第1章 因果推断常用计量方法图解与概览 11
1.1 辛普森悖论 11
一、一个简单的例子 11
二、一个实证研究的例子 14
1.2 变量关系路径图 16
一、基本要素 17
二、路径种类 17
A. 因果路径 18
B. 混淆路径 19
C. 对撞路径 20
1.3 因果关系估计偏差来源 22
一、混淆偏差 22
二、过度控制偏差 24
三、内生选择性偏差 24
四、小结 26
1.4 常用因果关系估计方法概览 27
第2章 线性回归——理解篇 34
2.1 线性回归模型、条件期望函数与因果推断 34
一、被解释变量、解释变量与干扰项 34
二、因果关系条件期望函数 36
三、相关关系条件期望函数 38
四、小结 40
2.2 最小二乘法 43
一、总体最小二乘法 43
二、样本最小二乘法 45
三、干扰项(error term)和残差(residual) 46
2.3 多元回归系数估计的直观理解 47
2.4 多元线性回归分解 51
2.5 内生性和因果关系 52
一、什么是内生性问题 52
二、内生性来源 53
A. 遗漏解释变量 53
B. 测量误差 54
C. 互为因果 55
附录 57
一、条件均值独立性质的推论 57
二、回归分解法证明 57
三、条件期望函数 59
A. 理论,实证模型和条件期望函数 59
B. 条件期望函数定义和计算 60
C. 残差项 63
第3章 线性回归——运用篇 66
3.1 固定解释变量和随机解释变量 66
3.2 理解固定解释变量下的回归模型假设 68
一、假设1:解释变量X是固定的 68
二、假设2:Y=Xβ+e 69
三、假设3: Ee=0 69
四、假设4:Eee'=σ2I 73
五、假设5: e~N(0,σ2I) 75
六、假设6:解释变量之间不存在共线性,并且观测点数量大于被解释变量数 75
3.3 理解随机解释变量假设下的线性回归假设 76
一、假设1:解释变量X是随机的,或随机与固定混合的 76
二、假设2: Y=Xβ+e 76
三、假设3:EeX=0 77
四、假设4:Eee'X=σ2I 79
五、假设5:e|X~N0,σ2I 79
六、假设6:解释变量之间不存在共线性,并且样本数量不少于被解释变量数 80
3.4 样本估计系数性质 80
一、固定解释变量下的最小二乘法样本系数估计值 81
A. 有限样本性质 82
B. 大样本性质 83
二、随机解释变量假设下的样本估计系数性质 85
A. 小样本性质 85
B. 大样本性质 86
3.5 有限样本和大样本假设检验 87
一、有限样本假设检验 87
A. 固定解释变量 87
B. 随机解释变量 87
二、大样本假设检验 88
A. 固定自变量 88
B. 随机自变量 88
3.6 回归方法STATA命令实例 89
3.7回归分析运用常见问题 95
一、线性回归系数的解释 95
二、对变量取对数 95
三、在线性模型中加入二次项 98
四、缩放变量 98
五、移动变量 100
六、统计显著性和经济显著性 100
七、包含交叉项的模型 100
八、多余的解释变量 101
九、多重共线性 103
十、检验分组系数的不同 103
第4章 标准误差 106
4.1 理解同方差 106
4.2 理解异方差 111
一、定义 111
二、理解异方差 111
三、处理方法 112
A. 方法1:使用OLS估计并计算稳健标准误(robust standard error) 112
B. 方法2:广义最小二乘法(GLS) 113
C. 异方差STATA应用例子 115
4.3 理解自相关 118
一、定义 118
二、理解自相关 118
三、处理方法 120
A. 方法1:使用OLS估计并计算稳健标准误(robust standard error) 120
B. 方法2:广义最小二乘法(GLS) 121
四、自相关STATA实例 122
4.4 理解集群相关 124
一、定义 124
二、理解集群方差 125
三、组内相关系数造成参数估计准确度被高估的程度 128
A. 简单Moulton 因子 129
B. 广义Moulton 因子 130
四、处理方法 130
4.5 集群相关方差STATA实例 132
4.6集群方差运用常见问题 136
第5章 处置效应 138
5.1潜在结果,处置效应与因果关系 138
一、潜在结果 138
二、个体处置效应 139
三、平均处置效应 139
5.2 观测结果 141
一、观测结果 141
二、反事实结果 142
5.3 使用观测结果估计处置效应可能的偏差 143
一、使用观测结果估计个体处置效应可能的偏差 143
二、用观测结果估计平均处置效应的可能偏差 144
5.4 计算平均处置效应实例 146
5.5 随机分配 148
5.6 控制可观测特征 152
5.7回归方法和处置效应 157
一、处置效用和回归函数系数的关系 157
二、回归方法和控制变量 161
三、控制变量 162
5.7 随机分配实例:田纳西学生/教师比例和表现实验 164
一、实验的理论基础 164
二、回归分析 167
附录 172
一、个体处置效应不相同情况下回归方程系数和平均处置效应的关系 172
第6章 匹配方法 174
6.1 匹配方法的直观理解 174
6.2 匹配方法的假设条件 183
6.3 直接匹配方法 185
6.4 倾向得分匹配法原理 189
6.5 倾向得分法操作步骤 193
一、估计倾向得分。 193
二、匹配之前评估平衡性 194
三、评估共同支撑域条件 195
四、选择匹配方法。 196
A. 分块匹配法(Stratification and Interval Matching) 196
B. 近邻匹配法(Nearest neighbor matching) 197
C. 卡尺匹配法(Caliper matching) 197
D. 半径匹配法(Radius matching) 198
E. 匹配方法小结: 199
五、匹配之后评估平衡性。 200
A. 标准化偏差(Standardized Bias) 200
B. t 值检验 201
C. F 值检验 201
六、计算处理效应。 201
6.6 倾向匹配方法实例 202
一、Stata命令总结 202
二、实例操作 203
6.7 匹配方法使用常见问题 212
第7章 匹配和回归方法比较 214
7.1 匹配和回归方法的相同点 214
一、精确匹配方法 216
二、回归方法:完全饱和模型 218
A. 完全饱和模型: 无常数项 218
B. 完全饱和模型:含常数项 221
7.2 匹配和回归方法的差异 222
一、控制变量饱和模型 222
二、差异1:ATE估计权重的差异 225
三、差异2:缺乏共同支撑域和控制变量不均衡的影响 228
A. 匹配方法,完全饱和模型和控制变量饱和模型 230
B. 回归方法:非饱和回归模型 231
7.3 总结 237
一、 相似性 237
二、 差异 237
第8章 面板分析方法 239
8.1什么是面板数据 239
一、面板数据的结构 239
二、面板数据分类 241
8.2 面板数据的信息来源 242
8.3 面板数据因果关系分析的直观理解 243
8.4 面板数据分析的三种常见模型 247
一、合并横截面模型(Pooled Cross Sectional Model) 248
二、随机效应模型(Random Effects Model) 248
三、固定效应模型(Fixed Effects Model) 249
8.5 固定效应模型估计方法 250
一、个体内差分估计法(Within Difference Estimator) 250
二、最小二乘虚拟变量估计法(LSDV,Least Square Dummy Variable Estimator) 252
三、一阶差分估计法(First Difference Estimator) 254
四、时间固定效应的引入 255
五、个体效应估计残差 255
8.6 面板数据分析实例 256
一、简单横截面回归 260
二、合并横截面回归 260
三、固定效应模型LSDV估计 261
四、固定效应模型个体内估计(Winthin Estimator) 262
五、一阶差分模型(FD)回归估计 265
六、纳入时间固定效应 266
8.7面板数据实际运用中常见问题 267
一、选择固定(FE)或随机(RE)模型? 267
二、有些变量在使用固定效应模型后系数大小和显著性发生很大变化,应当如何理解这些变化呢? 269
三、当使用固定效应模型后,有些变量系数变为不显著,是否就意味着该变量和被解释变量没有因果关系? 269
第9章 双重差分法 272
9.1 单重差分法 272
一、横截面单重差分(Cross-Sectional Difference) 275
二、时间序列单重差分(Time-Series Difference) 277
9.2 双重差分法的直观理解 279
9.3 双重差分法回归模型实例 282
一、基本双重差分法回归模型 282
二、 使用个体和时间固定效应 285
三、添加控制变量 288
9.4 双重差分法假设条件检验 289
一、比较处置组和控制在事件前趋势差异 289
二、检验不受影响变量或组的结果 (安慰剂检验 (Placebo Test)), 291
9.5 三重差分法 291
附录 294
一、随机控制实验、准实验和观测研究 294
二、双重差分法、潜在结果和处置效应 295
第10章 工具变量 299
10.1 工具变量估计法的直观理解 299
一、工具变量估计法的图解 299
二、估计方法1:间接最小二乘法(Indirect Least Squares) 302
三、估计方法2:两阶段最小二乘法(Two Stages Least Square, 2SLS) 304
四、工具变量数量 305
10.2 两阶段最小二乘法 306
一、 模型设置 306
二、模型估计 308
三、 多个内生变量和多个工具变量 308
10.3 工具变量估计法的局限性 309
一、大样本下的局限性 309
A. 偏差性 309
B. 有效性 311
二、有限样本下的局限性 311
A. 偏差性 312
B. 有效性 313
三、小结 313
10.4 工具变量运用的检验 314
一、 是否需要使用工具变量?(内生性检验) 314
A. Durbin-Wu-Hausman χJ2检验 314
B. 回归形式的Wu-Hausman F检验 (Wu-Hausman F test) 314
二、工具变量是否满足相关性?(弱工具变量检验) 315
三、工具变量是否是外生的?(过度识别检验) 316
10.5 工具变量使用步骤 319
10.6 工具变量运用举例 320
10.7 工具变量使用的常见问题 326
一、用计量软件估计工具变量模型, 不要自己手动进行两步回归。 326
二、第一阶段回归应包含所有的外生变量。 327
三、避免用组均值作为工具变量 329
四、避免用内生变量的滞后项做工具变量 332
五、模型含有二次项的工具变量的用法 332
六、模型存在交叉项时工具变量的用法 332
七、理解工具变量的结果只是局部平均处理效应 333
八、工具变量是越多越好吗? 334
九、工具变量是解决内生性的万灵药吗? 334
第11章 样本自选择模型 336
11.1 样本自选择偏差产生原因的直观理解 336
11.2 样本自选择偏差解决办法的直观理解 343
11.3 传统Heckman 样本选择模型 348
一、模型设置 348
二、Heckman模型如何解决样本选择偏差 349
三、小结 351
11.4 Heckman 样本选择模型的应用例子 351
一、模型设置 351
二、样本数据 353
三、手动估计模型 354
四、使用Stata的Heckman 命令估计模型 356
11.5 内生选择变量处置效应模型 357
一、模型设置 357
二、估计方法 359
三、实例 360
11.6 样本自选择模型运用常见问题 362
一、解释变量的选择 362
二、二元正态分布假设 362
三、选择模型必须为Probit模型 362
四、检查相关系数ρ 363
第12章 断点回归 364
12.1 断点回归的直观理解 364
12.2 断点回归的数据要求 368
12.3 RDD 的估计步骤和相应STATA命令 369
一、RDD常用Stata命令 369
二、RDD 的估计步骤 369
12.4 RRD运用实例 371
一、讨论配置变量和断点的产生过程 372
二、用散点图显示结果变量和配置变量的关系 373
三、用拟合图显示结果变量和配置变量的关系 374
A. 多项式回归拟合 375
B. 分区均值拟合 375
四、验证RDD的有效性 379
A. 检验配置变量的的概率分布连续性 379
B. 检验个体特征变量连续性 381
五、断点处置效应估计 383
A. 全局多项式回归 383
B. 局部多项式回归 385
参考文献 391