内容简介
本书通过大量例子,用简单明了的语言介绍了传统统计学的所有基本概念及方法。 书中还专门用一章的内容来介绍非常重要而实用的机器学习的回归分及类方法。本书采用的计算机语言是多年来在国际上使用排名头名的免费开源软件—R。读者在学完本书之后,能够准确理解统计重要的基本概念,并能用计算机处理各种数据。
作者简介
吴喜之,北京大学数学力学系学士,美国北卡罗来纳大学教堂山分校(UNC-Chapel Hill)统计系博士。中国人民大学统计学院教授,博士生导师。曾在美国加利福尼亚大学戴维斯分校(UC-Davis)、北卡罗来纳大学教堂山分校(UNC-Chapel Hill)、北卡罗来纳大学夏洛特分校(UNC-Charlotte)、加利福尼亚大学伯克利分校(UC-Berkeley)、南开大学、中国人民大学、北京大学、中山大学、四川大学等十余所著名学府执教。
目录
第 1 章 通过来学统计很容易
1.1统计是什么? 学统计需要什么?
1.2R 不仅是一款软件, 而且是一种文化
习 题
第 2 章 数据及其模式
2.1数据形式、变量
2.2用图形描述变量的分布
2.3用数字描述变量的分布
2.4密度曲线和正态分布
习 题
第 3 章 从数据中发现关系
3.1使用散点图探索数据
3.2相 关
3.3简单线性最小二乘回归
3.4关于相关和回归的注意点
3.5二维列联表的初等分析
习 题
第 4 章 通过实验及抽样获得数据
4.1关于数据
4.2实验设计
4.3抽样设计及推断
习 题
第 5 章 概率: 随机性的度量
5.1随机性及概率模型
5.2随机变量
5.3基本概率计算
习 题
第 6 章 抽样分布
6.1频数和频率
6.2 样本均值
习 题
第 7 章 统计推断: 估计
7.1正态总体均值的置信区间估计
7.2比例的置信区间
7.3对置信区间的常见误解
习 题
第 8 章 统计推断: 显著性检验
8.1正态总体均值的显著性检验
8.2对总体比例的显著性检验
8.3关于中位数的非参数检验
8.4合理使用还是滥用检验
8.5检验的势和决策
习 题
第 9 章 二维列联表和拟合优度的卡方检验
9.1二维列联表推断
9.2拟合优度检验
习 题
第 10 章 对简单线性回归的推断
10.1简单线性模型
10.2简单线性模型参数的推断
习 题
第 11 章 经典多元线性回归
11.1模型和拟合
11.2变换及逐步回归
11.3自变量包括分类变量的回归
11.4关于经典回归的一些说明
11.5logistic 回归和probit 回归
习 题
第 12 章 机器学习方法的分类及回归
12.1机器学习方法简介
12.2分 类
12.3回 归
习 题
附录 练习: 熟练使用 R 软件
参考文献
精彩书摘
无论在国内还是国外, 很多学生, 特别是非统计专业的学生,都认为学习统计是很枯燥、 烦琐、 令人头疼的事情.能不能有一本统计教材让人觉得统计不那么可怕、 不那么令人反感?能不能有一本统计教材能够对学生有吸引力,甚至让学生从中得到乐趣?
每个人从小时候起就不断地学习: 学走路学吃饭、 学说话、 学玩耍、学和同伴交往, 等等. 这些没有一个是在学校里学的, 都是在没有任何老师或家长督促的情况下自然学到的, 而且学得非常愉快. 在学习课堂知识,特别是像统计这样貌似困难的课程时, 是否也能够像儿时玩耍那样轻松呢?笔者认为完全可以. 如果教授统计学的老师不觉得统计那么严肃,而觉得统计很有趣, 那就更有助于增加学生学习的幸福感了.
笔者在本科阶段完全没有学过概率和统计,在学校里也从来没有学过英语和计算机, 但现在统计、英语和计算机很自然地成了生活不可或缺的一部分. 为什么会这样呢?这是把学习当成儿时的玩耍充满兴趣地投入精力的结果.感兴趣的东西自然学得快, 而且掌握得也牢固. 只要是出于兴趣,而不是为了应付考试,相信人们都能够在获得大量有用知识和能力的同时享受生活.
学好统计学这门课程的标准是什么? 绝对不是考试得高分,而是会动手分析实际数据. 不会用计算机处理数据,即使你对标准的统计学试卷答得很好, 这门课也等于白学.统计学是数据科学, 不会分析数据就等于不会统计.
听老师干巴巴地讲数学概念和公式推导是最折磨人的, 不仅折磨学生,也折磨老师. 本书不鼓励学生死记硬背, 但鼓励学生动手,在分析数据中学到本领、 得到乐趣. 不仅要动手,而且要不停地怀疑和质疑书本上的现成知识, 只有充满了怀疑和好奇,才会有兴趣去关注最新的发展, 才有可能超越前人.如果一个人失去了好奇心, 那么无论其实际年龄为多少岁,都说明他的心态已经进入了老年.
本书力图把所有概念都通过例子讲出来, 而不是先定义概念再讲例子.本书采用国际流行的免费编程软件R来实现所有的目标, 并且提供所有例子的代码.
在内容安排上,笔者有意把一些概念或术语在正式给出数学定义之前就多次提及,以加深印象, 同时避免隔断本来就交织在一起的知识. 比如,密度曲线和正态分布的概念在正式定义随机变量之前就引入;线性回归在区间估计和假设检验之前就予以初步介绍;虽然很早就提及两结果的独立随机试验,但是二项分布却在抽样分布中才引入.
在内容取舍上, 凡是本书没有用到的理论或概念就尽量不讲或少讲,以避免分散读者的精力.
此外, 除了经典统计的基本内容之外,本书还用一章介绍了机器学习的分类和回归方法.这一章用不着前面各章的任何知识.
一本教材, 应该好教、 易学、 坦诚、 透明,不应该有任何不可告人或者故作神秘的悬念.我们应该让读者喜欢而不是敬畏统计这门科学.
前言/序言
统计学:基于R的应用/教育部经济管理类核心课程教材 电子书 下载 mobi epub pdf txt