编辑推荐
null
内容简介
由吴喜之编著的《应用回归及分类——基于R/基于R应用的统计学丛书》包括的内容有:经典线性回归、广义线性模型、纵向数据(分层模型),机器学习回归方法(决策树、bagging、随机森林、mboost、人工神经网络、支持向量机、k最近邻方法)、生存分析及Cox模型、经典判别分析与logistic回归分类、机器学习分类方法(决策树、bagging、随机森林、adaboost、人工神经网络、支持向量机、k最近邻方法)。其中,纵向数据(分层模型)及生存分析及Cox模型的内容可根据需要选用,所有其他的内容都应该在教学中涉及,可以简化甚至忽略的内容为一些数学推导和某些不那么优秀的模型,不可以忽略的是各种方法的直观意义及理念。
目 录
前言第一章 引言 1.1 作为科学的统计 1.1.1 统计是科学 1.1.2 模型驱动的历史及数据驱动的未来 1.1.3 数据中的信息是由观测值数目及相关变量的数目决定的 1.2 传统参数模型和机器学习算法模型 1.2.1 参数模型比算法模型容易解释是伪命题 1.2.2 参数模型的竞争模型的对立性和机器学习不同模型的协和性 1.2.3 评价和对比模型 1.3 国内统计教学及课本的若干误区 1.3.1 假设检验的误区:不能拒绝就接受? 1.3.2 p值的误区 1.3.3 置信区间的误区 1.3.4 样本量是多少才算大样本? 1.3.5 用31个省市自治区数据能做什么? 1.3.6 汇总数据(比如部分均值)和原始观测值的区别 1.4 R软件入门 1.4.1 简介 1.4.2 安装和运行小贴士 1.4.3 动手 1.5 习题第二章 经典线性回归 2.1 模型形式 2.1.1 自变量为一个数量变量的情况 2.1.2 自变量为多个数量变量的情况 2.1.3 “线性”是对系数而言的 2.2 用最小二乘法估计线性模型 2.2.1 一个数量自变量的情况 2.2.2 指数变换 2.2.3 多个数量自变量的情况 2.2.4 自变量为定性变量的情况 2.3 关于系数的性质和推断 2.3.1 基本假定 2.3.2 关于□的t检验 2.3.3 关于多自变量系数复合假设F检验及方差分析表 2.3.4 定性变量的显著性必须从方差分析表看出 2.3.5 关于残差的检验及点图 2.4 通过一个“教科书数据”来理解简单最小二乘回归 2.4.1 几种竞争的线性模型 2.4.2 孤立地看模型可能会产生多个模型都“正确”的结论 2.4.3 比较多个模型试图得到相对较好的模型 2.4.4 对例2.4的6个模型做预测精度的交叉验证 2.5 一个“非教科书数据”例子 2.5.1 线性回归的尝试 2.5.2 和其他方法的交叉验证比较 2.6 经典最小二乘回归误导汇总 2.6.1 大量主观的假定 2.6.2 对回归结果的缺乏根据的“解释” 2.6.3 增加无关的(“错误的”)自变量对预测会不会有影响? 2.7 处理线性回归多重共线性的经典方法 2.7.1 多重共线性 2.7.2 逐步回归 2.7.3 岭回归 2.7.4 lasso回归 2.7.5 适应性lasso回归 2.7.6 偏最小二乘回归 2.7.7 对例2.7,偏最小二乘回归优于所有常用经典方法 ……第三章 广义线性模型第四章 纵向数据及分层模型第五章 机器学习回归方法第六章 生存分析及Cox模型第七章 经典分类:判别分析第八章 机器学习分类方法附录 练习:熟练使用R软件参考文献
媒体评论
null