数据挖掘图书 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Sun, 02 Mar 2014 10:09:29 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 颠覆医疗:大数据时代的个人健康革命 //www.otias-ub.com/archives/198804.html //www.otias-ub.com/archives/198804.html#comments Sun, 02 Mar 2014 10:09:29 +0000 //www.otias-ub.com/?p=198804 颠覆医疗:大数据时代的个人健康革命

浓缩观点

  • 埃里克·托普预言:医疗将进入个性化时代。然而个性化与隐私权是项难以调和的矛盾。
  • 阅读《颠覆医疗》,令人颇有感慨的并非医疗界被颠覆后充满无限可能的愿景,而是实现颠覆可能经历的艰苦过程,“颠覆”在这里是一个相当缓慢的词。
  • 在医生们随时可能被揭开面纱的时代,病人们却得学会更大程度地自负其责。这既是解脱又是束缚,对双方皆如此。
  • 制药公司、药品零售商、监管部门、医疗健康保险机构、医疗设备提供商,以及产业链中各环节的庞大供应商群体,等等许多利益相关群体,它的运行和绝大多数系统一样存在某些系统顽疾。
  • 医疗将进入个性化时代。然而个性化与隐私权是项难以调和的矛盾,你在今日授权使用的隐私信息无法知晓将在何时何地以何种方式被使用。

如今,“大数据”与“颠覆”这两个词同时出镜的频率很高,这种频率高到一定程度后,我们借用大数据分析的理念得出结论:哪里有“大数据”哪里就有“颠覆”。虽然大数据说:如今人们只需要知其然,不需要知其所以然了。但人类并没有因此放弃思考的权利,我们仍旧可以在这两个词之间加入“如何”一词,并打上一个巨大的问号。

要解决“如何”这个问号,没有比走深一步,对所谓的新兴高科技应用于具体某一个行业做些了解更恰当的方法了,那么阅读这本《颠覆医疗:大数据时代的个人健康革命》正是个不错的选择。

《颠覆医疗》的作者埃里克·托普是位著名的医学工作者,而非信息科技从业人员,更不是传媒界人士,这样的作者身份可以打消大部分炒作新概念的嫌疑,也令此书更显得平实和中肯。然而阅读此书,令人颇有感慨的并非医疗界被颠覆后充满无限可能的愿景,而是实现颠覆可能经历的艰苦过程。

事实上,“颠覆”作为动词远没有它看上去的那般刺激,如果能用时间来测量词汇,会发现“颠覆”在这里真的是一个相当缓慢的词。举一个例子,如今医生们诊疗必备的医疗用具听诊器,你能想象从它被发明到被医学界接受,最终获得广泛应用居然耗费了二十年吗?听诊器这项十九世纪里的的新玩意,现今看来简单得理所当然——不涉及隐私权益、法律惯例、文化伦理、宗教信仰……面表看它只是一个再单纯不过的发明,却仍旧耗费了二十年才“颠覆”西方医学的诊断流程。

既是解脱也是束缚

医疗产业属于信息敏感性行业,对普通人而言,医学界高深莫测,医生资质考核严格,想从医学院毕业也往往比学习其他专业要耗费更多时间。信息极度不平等造成了病人与医生之间的鸿沟。而长久以来,病人们往往自认为无知是理所当然的,同时也理所当然地一心指望医生的万能。然而数字化在医疗领域的渗透令渐渐填埋这个鸿沟有了一定的可能性。

例如 PatientLikeMe 这类病情分享网站,令许多病人们跳过医院、医生找寻治疗方法。此外,科技革新令普通人获取必要的医学数据变得日渐容易。一些过去价格昂贵过程复杂的医疗检测或诊断方法如今却可能变成人人可以自己使用的家用医疗工具。例如,发展相当迅速的可穿戴设备在医学界的使用,使得 24 小时的心率监测、血糖指标检测都变得十分可行,甚至我们可以期待人手一份的个人基因图谱。

没错,非专业人士的我们获取信息的难度被成百倍地降低了,也因此病人们可以拥有更多权力。然而,在医生们随时可能被揭开面纱的时代,病人们却得学会更大程度地自负其责。这既是解脱又是束缚,对双方皆如此。重新适应总不如维持现状来得轻松,即使是大势所趋,也仍免不了过程的艰难漫长——是的,面对颠覆,不是总能敞开胸怀坦然接受的。

系统顽疾

医生和病人还仅仅是医疗生态圈里其中的两个群体,在整个系统中还有制药公司、药品零售商、监管部门、医疗健康保险机构、医疗设备提供商,以及产业链中各环节的庞大供应商群体,等等许多利益相关群体。

这是一个历史悠久的系统,它的运行和绝大多数系统一样存在某些系统顽疾,有损有缺。尤其在以商业逻辑为基调的医疗生态系统中,“颠覆”将朝向何方?拥有最大霸权的利益方势必干预其中。

虽说所有科技突破都意味着更多选择和更低成本,然而看看持续不断攀升的新药价格就可见一斑了。走在数字化科技前沿的美国,却在全民讨论日益攀升的医疗费用——MIT 科技评论杂志 11 月号将“为何药品变得如此昂贵?”列为了封面标题;而 10 月号的哈佛商业评论却称在医疗质量相当的情况下,印度治疗癌症的费用只占美国的一个零头。

虽说凯文·凯利们始终相信科技令世界变美好,然而在科技赋予的力量却很有可能被霸权者的铜墙铁壁阻隔,更有可能被滥用。即便最终到达彼岸也是用最慢的交通工具“渡”着去的,而无法一飞冲天。

更难理顺的逻辑

除了霸权利益、系统顽疾,医疗要被颠覆,科技还需要攻破更艰难的防线,例如文化伦理、秩序规范。埃里克·托普预言:医疗将进入个性化时代。然而个性化与隐私权是项难以调和的矛盾。设计个性化服务方案的基础来源于对无数个体隐私信息的挖掘。

你在今日授权使用的隐私信息无法知晓将在何时何地以何种方式被使用。更糟糕的是,你所贡献的隐私信息目前也无法直接相关与你个人获得的个性化医疗服务,换句话说,即便你不贡献自己的隐私,也有可能获得个性化医疗服务。想要理顺这项逻辑,恐怕路途遥远。

埃里克·托普坚定地拥护数字科技创新医疗,是位摇旗呐喊的倡导者,正是本着缩短颠覆耗时的目的,托普撰写了这本书并积极开展着各种相关研究与活动。事实上,英文书名直译应当是“医疗的创造性破坏”,这比颠覆一词少了些冲击力度,却多了些能体现过程的内涵。或者,我们还是用另一个不悲不亢——不悲观、不亢奋的心态来期待这场颠覆吧。

《颠覆医疗:大数据时代的个人健康革命》

作者:埃里克·托普 (Eric J. Topol)

出版社: 电子工业出版社

内容简介: iPhone、云计算、3D 打印、基因测序、无线传感器、超级计算机,这些改变了我们生活的事物,将再一次地融合在一起,对医学进行一次“创造性破坏”。在这超级融合之下,权力第一次交回到我们自己手中,而只有我们自己,才能真正将这场医学革命进行下去,颠覆医疗。

来源:businessvalue

 

]]>
//www.otias-ub.com/archives/198804.html/feed 1
网站运维:保持数据实时的秘技 //www.otias-ub.com/archives/59906.html //www.otias-ub.com/archives/59906.html#comments Sun, 29 Jul 2012 15:26:57 +0000 //www.otias-ub.com/?p=59906 网站运维:保持数据实时的秘技

编辑推荐

《网站运维:保持数据实时的秘技》:“Web正在改变我们的生活方式,并且触及到了每一个人。随着越来越多的人依赖于Web,他们最终将依赖于我们。网站运维就是这样的工作。”
Web应用涉及到很多专业人士,但只有网站运维人员才能确保在应用程序的生命周期中,一切运行正常。刚起步的网站,突遇流量高峰,或由于引入了一项新特性,而导致稳定的应用程序运行失败,这时,你就需要网站运维人员来帮助你解决这些问题,他们正是这方面的专家。在《网站运维:保持数据实时的秘技》的文章和访谈中,Theo Schlossnagle、Baron Schwartz以及Alistaiir Croll等Web方面的高手,为这个尚处于发展中的技术领域贡献了他们的深刻见解。关于如何才能让网站火起来,你会听到来自战壕的真实故事——来自一些最大的网站的建设者的亲身经历。
学习网站运维中所需要的技能,以及为什么这些技能是通过经验而不是学校教育获得的。理解从应用程序和基础架构中获取测量数据的重要性。考虑数据库架构的常用方式,以及伴随规模增长而来的陷阱。了解如何处理宕机及降级运行的人的因素。找出一家公司在巨大的流量汹涌而来之时是如何避免灾难的。发生问题时,发现问题出在哪儿,以及如何避免再次发生。

作者简介

作者:(美国)约翰•阿尔斯帕瓦 (John Allspaw) (美国)杰西•罗宾斯 (Jesse Robbins) 译者:杨建华

目录

目录
序 xi
前言 xiii
第1章 作为职业的Web运维 1
Theo Schlossnagle
为什么Web运维如此艰难? 1
从学徒到师傅 4
结语 9第2章 Picnik如何应用云计算:所学到的教训 10
Justin Huff
什么地方适合云计算(以及为什么!) 11
什么地方不适合云计算(对Picnik而言) 17
结语 18

第3章 基础架构与应用程序测量 19
John Allspaw, Matt Massie
时间分辨率和存留时间的考虑 20
测量数据采集与存储的地点 21
测量数据的层次 22
为异常检测和报警提供环境 25
日志记录也是测量数据 26
将变化管理和事件的时间线建立关联 27
给测量数据加入报警机制 28
使用测量数据建立加载-反馈机制 29
展示一个测量数据采集系统:Ganglia 32
结语 43

第4章 连续部署 44
Eric Ries
小批量意味着更快的反馈 44
小批量意味着问题即刻被本地化 44
小批量能够减少风险 45
小批量可以降低总开销 45
质量卫士的挽歌 47
让我们开始吧 50
连续部署用于关键任务应用 54
结语 57

第5章 作为代码的基础架构 58
Adam Jacob
面向服务体系结构 60
结语 71

第6章 监控 72
Patrick Debois
故事:“旅程的开端” 72
步骤1:理解你在监控什么 76
步骤2:理解正常行为 84
步骤3:有备而学 90
结语 93

第7章 复杂系统是如何失败的 94
John Allspaw和Richard Cook
复杂系统是如何失效的 94
进一步的读物 101

第8章 社区管理与Web运维 103
Heather Champ和John Allspaw

第9章 处理非预期的访问量激增 112
Brian Moon
一切是如何开始的 112
警报连连 113
扑灭烈火 114
周末逃生 115
未雨绸缪 116
救命稻草CDN 116
代理服务器 116
围剿踩踏 117
将代码基流水化 118
我们怎么知道它能否工作? 119
真实测试 120
学到的教训 120
自那以来的改进 121

第10章 开发者与运维者的协调与合作 122
Paul Hammond
部署 123
共享、开放的基础架构 126
信任 128
随叫随到的开发人员 131
避免指责 135
结语 137

第11章 你的访问者感觉怎么样:面向用户的测量 139
Alistair Croll和Sean Power
为什么要采集面向用户的测量数据? 140
是什么使网站变得很慢? 144
测量延迟 147
编写SLA 153
访客结果:分析 155
市场营销关心的其他测量数据 160
用户体验如何影响Web运维 161
Web监控的未来 162
结语 167

第12章 将关系数据库用于Web的战略战术 169
Baron Schwartz
Web数据库需求 170
典型的Web数据库是如何增长的 175
对集群的渴望 181
数据库战略 186
数据库战术 193
结语 198

第13章 如何优雅地失败:事后处理的艺术与科学 200
Jake Loomis
最糟的事后分析 200
什么是事后分析? 201
什么时候引入事后分析 203
邀请谁参加事后分析 204
进行事后分析 204
事后分析的后续工作 205
结语 207

第14章 存储 208
Anoop Nagwani
数据资产的库存 208
数据保护 211
容量规划 218
存储大小的变化 219
运维 221
结语 223

第15章 非关系数据库 224
Eric Florenzano
NoSQL数据库概览 225
某些系统细节 228
结语 238

第16章 敏捷基础架构 239
Andrew Clay Shafer
敏捷基础架构 241
那么,问题是什么? 244
兴趣与实践的社区 253
贸易区和道歉 253
结语 256

第17章 夜间鬼魅(以及如何高枕无忧) 257
Mike Christina
术语 258
多少个9? 259
影响持续时间对事件持续时间 260
数据中心数量(footprint) 261
逐渐失效 262
不信赖任何人 263
故障转移测试 264
监控和历史模式 264
高枕无忧 265
合作者 267
索引 271

文摘

版权页:

插图:

首先,连续部署区分了发布的两种不同的定义,一个是工程师使用的,指的是将代码完全集成到生产环境中的过程;另一个是市场部门使用的,指的是客户看到的东西。在传统的批处理-排队开发方式下,这两个概念是连在一起的,代码一旦部署,所有客户都将看到新的软件。这就要求所有的测试必须在部署之前进行,测试在特殊的预演或测试环境中进行。这种做法使得发布变得很脆弱,即在这段时间(代码写完之后,在生产环境运行之前)内可能会出现预想不到的问题。这种将市场发布和技术发布合并在一起的做法,在总的开销之上,又增加了协调的开销。使用连续部署,代码一旦写完,就在去往生产环境的路上了。
这意味着我们经常会在一项功能只完成了1%时就进行部署——远在客户能够看到之前。事实上,涉及到一项新功能的大部分工作都是用户不可见的,而是大量的与其他已有功能进行集成的琐碎的接触点。只要想想那些API的微小改动就明白了,为了传送新值,必须要对API进行修改,这些修改通常都假定“不会引起副作用”,意思是不会影响系统行为——注意是假定。事实上,很多缺陷都是由这些修改产生的非同寻常或没有引起注意的副作用造成的。同样的事实也存在于生产环境中的配置参数的小小改动而引发的冲突中。这种情况下,反馈越快越好,而这.正是连续部署提供的。

]]>
//www.otias-ub.com/archives/59906.html/feed 1
数据挖掘图书:数理统计与数据分析(原书第3版) [平装] //www.otias-ub.com/archives/36286.html Fri, 27 Apr 2012 06:04:38 +0000 //www.otias-ub.com/?p=36286 数理统计与数据分析(原书第3版) [平装]

 

内容简介

《数理统计与数据分析(原书第3版)》将现代统计学的重要思想引入数理统计课程中,强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用. 本书内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、随机变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较、方差分析、分类数据分析和线性最小二乘等。
《数理统计与数据分析(原书第3版)》用真实数据分析了实际问题,以此增强读者对理论的理解;作者将自助方法与传统的推论性过程结合起来,增加了蒙特卡罗方法. 此外,为了使概念更清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力。
《数理统计与数据分析(原书第3版)》适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考。

作者简介

作者:(美)JohnA.Rice 译者:田金方

JohnA.Rice于加利福尼亚大学伯克利分校获得博士学位,并一直任教于该校统计系,现为该校统计学名誉教授。他是美国数理统计学会成员,发表过多篇理论和应用统计学论文。其研究兴趣集中于海量和需要高强度计算的随机数据的分析方法。

目录

第 1 章 概率 .1
1.1 引言 .1
1.2 样本空间 1
1.3 概率测度 3
1.4 概率计算:计数方法 5
1.4.1 乘法原理 .6
1.4.2 排列与组合 7
1.5 条件概率 12
1.6 独立性 17
1.7 结束语 19
1.8 习题 .20
第 2 章 随机变量 26
2.1 离散随机变量 26
2.1.1 伯努利随机变量 27
2.1.2 二项分布 28
2.1.3 几何分布和负二项分布 29
2.1.4 超几何分布 30
2.1.5 泊松分布 31
2.2 连续随机变量 34
2.2.1 指数密度 36
2.2.2 伽马密度 38
2.2.3 正态分布 39
2.2.4 贝塔密度 41
2.3 随机变量的函数 .42
2.4 结束语 45
2.5 习题 .46
第 3 章 联合分布 51
3.1 引言 .51
3.2 离散随机变量 52
3.3 连续随机变量 53
3.4 独立随机变量 60
3.5 条件分布 61
3.5.1 离散情形 61
3.5.2 连续情形 62
3.6 联合分布随机变量函数 67
3.6.1 和与商 68
3.6.2 一般情形 70
3.7 极值和顺序统计量 73
3.8 习题 .75
第 4 章 期望 .82
4.1 随机变量的期望 .82
4.1.1 随机变量函数的期望 85
4.1.2 随机变量线性组合的期望 87
4.2 方差和标准差 91
4.2.1 测量误差模型 94
4.3 协方差和相关 96
4.4 条件期望和预测 102
4.4.1 定义和例子 102
4.4.2 预测 106
4.5 矩生成函数 108
4.6 近似方法 .112
4.7 习题 116
第 5 章 极限定理 123
5.1 引言 123
5.2 大数定律 .123
5.3 依分布收敛和中心极限定理 .125
5.4 习题 130
第 6 章 正态分布的导出分布 133
6.1 引言 133
6.2 .2 分布、t 分布和 F 分布 133
6.3 样本均值和样本方差 .134
6.4 习题 136
第 7 章 抽样调查 138
7.1 引言 138
7.2 总体参数 .138
7.3 简单随机抽样 140
7.3.1 样本均值的期望和方差 .140
7.3.2 总体方差的估计 145
7.3.3 X 抽样分布的正态近似 148
7.4 比率估计 .152
7.5 分层随机抽样 157
7.5.1 引言和记号 157
7.5.2 分层估计的性质 157
7.5.3 分配方法 160
7.6 结束语 163
7.7 习题 164
第 8 章 参数估计和概率分布拟合 176
8.1 引言 176
8.2 粒子排放量的泊松分布拟合 176
8.3 参数估计 .177
8.4 矩方法 179
8.5 最大似然方法 184
8.5.1 多项单元概率的最大似然估计 .187
8.5.2 最大似然估计的大样本理论 .189
8.5.3 最大似然估计的置信区间 .193
8.6 参数估计的贝叶斯方法 197
8.6.1 先验的进一步注释 204
8.6.2 后验的大样本正态近似 .205
8.6.3 计算问题 206
8.7 效率和克拉默{拉奥下界 207
8.7.1 例子:负二项分布 210
8.8 充分性 212
8.8.1 因子分解定理 212
8.8.2 拉奥{布莱克韦尔定理 215
8.9 结束语 216
8.10 习题 217
第 9 章 假设检验和拟合优度评估 228
9.1 引言 228
9.2 奈曼{皮尔逊范式 229
9.2.1 显著性水平的设定和p 值概念 .232
9.2.2 原假设 232
9.2.3 一致最优势检验 233
9.3 置信区间和假设检验的对偶性 233
9.4 广义似然比检验 235
9.5 多项分布的似然比检验 236
9.6 泊松散布度检验 240
9.7 悬挂根图 .242
9.8 概率图 244
9.9 正态性检验 248
9.10 结束语 249
9.11 习题 250
第 10 章 数据汇总 .260
10.1 引言 260
10.2 基于累积分布函数的方法 260
10.2.1 经验累积分布函数 .260
10.2.2 生存函数 262
10.2.3 分位数{分位数图 266
10.3 直方图、密度曲线和茎叶图 268
10.4 位置度量 270
10.4.1 算术平均 271
10.4.2 中位数 272
10.4.3 截尾均值 274
10.4.4 M 估计 .274
10.4.5 位置估计的比较 275
10.4.6 自助法评估位置度量的变异性 275
10.5 散度度量 277
10.6 箱形图 278
10.7 利用散点图探索关系 .279
10.8 结束语 281
10.9 习题 281
第 11 章 两样本比较 289
11.1 引言 289
11.2 两独立样本比较 289
11.2.1 基于正态分布的方法 .289
11.2.2 势 298
11.2.3 非参数方法:曼恩{惠特尼检验 299
11.2.4 贝叶斯方法 305
11.3 配对样本比较 .306
11.3.1 基于正态分布的方法 .307
11.3.2 非参数方法:符号秩检验 308
11.3.3 例子:测量鱼的汞水平 310
11.4 试验设计 311
11.4.1 乳腺动脉结扎术 311
11.4.2 安慰剂效应 312
11.4.3 拉纳克郡牛奶试验 .312
11.4.4 门腔分术 313
11.4.5 FD&C Red No.40 313
11.4.6 关于随机化的进一步评注 314
11.4.7 研究生招生的观测研究、混杂和偏见 315
11.4.8 审前调查 315
11.5 结束语 316
11.6 习题 317
第 12 章 方差分析 .328
12.1 引言 328
12.2 单因子试验设计 328
12.2.1 正态理论和 F 检验 329
12.2.2 多重比较问题 333
12.2.3 非参数方法:克鲁斯卡尔{沃利斯检验 335
12.3 二因子试验设计 336
12.3.1 可加性参数化 337
12.3.2 二因子试验设计的正态理论 339
12.3.3 随机化区组设计 344
12.3.4 非参数方法:弗里德曼检验 346
12.4 结束语 347
12.5 习题 348
第 13 章 分类数据分析 354
13.1 引言 354
13.2 费舍尔精确检验 354
13.3 卡方齐性检验 .355
13.4 卡方独立性检验 358
13.5 配对设计 360
13.6 优势比 362
13.7 结束语 365
13.8 习题 365
第 14 章 线性最小二乘 373
14.1 引言 373
14.2 简单线性回归 .376
14.2.1 估计斜率和截距的统计性质 376
14.2.2 拟合度评估 378
14.2.3 相关和回归 383
14.3 线性最小二乘的矩阵方法 386
14.4 最小二乘估计的统计性质 388
14.4.1 向量值随机变量 388
14.4.2 最小二乘估计的均值和协方差 392
14.4.3 .2 的估计 394
14.4.4 残差和标准化残差 .395
14.4.5 ˉ 的推断 396
14.5 多元线性回归:一个例子 397
14.6 条件推断、无条件推断和自助法 401
14.7 局部线性平滑 .403
14.8 结束语 405
14.9 习题 406
附录 A 常用分布 415
附录 B 表 417
部分习题答案 433
参考文献 447

序言

前 言
本书的目标
这本书反映了我对第一门统计学课程的认识,而这对很多学生来说可能是最后的统计课程。
这样的课程应该包括数理统计的一些经典内容(如似然法),以及描述统计学和数据分析的一些内容,特别是图形显示、试验设计和复杂的实际应用。它还应该体现出计算机在统计学中所起的不可或缺的作用。这些主题适当地交织在一起,可以将现代统计学的本质展示给学生。分别讲授两个主题的课程 || 一个是理论,一个是数据分析,对我来讲似乎有点造作。此外,很多学生仅学习一门统计学课程,而没有时间学习两门或两门以上这方面的课程。
数据分析与统计实践
为了将上述主题融合在一起,我一直在努力地撰写一本能够紧密结合统计实践的教科书。只有分析实际数据,才能使我们明白形式理论和通俗数据分析方法所扮演的角色。我围绕着各种问题组织了这本书,这些问题都需要使用统计方法来解决,此外书中包含很多实际例子,借此引入和介绍理论内容。这样安排的优点是理论构建在寓意深刻的背景内容下,对其逐步补充和加强,与通俗的分析方法结合在一起。我认为,这种方法是适合于统计学的,其历史发展主要是由实践需要来促进的,而不是抽象或美学的思考。同时,我也没有回避学生应该知道的数学内容。
第3 版
本书第1 版于 1988 年问世,第2 版于 1994 年出版。尽管本书基本的目的和结构没有改变,但是新的版本反映了统计学科的发展,尤其是计算方面的革新。
这一版最显著的变动是对贝叶斯推断的处理。我将最后一章的材料做了迁移,分散于之前的各章中,这是由于很多老师很难讲授到这一章。现在贝叶斯推断首先出现在第3章的条件分布中。然后,在第8章与频率学派方法同步讲解,那里的贝叶斯方法可以非常自然地解决最大似然估计量。第9章假设检验的引言部分现在以贝叶斯公式作为开端,然后再转向奈曼{皮尔逊范式。
这样做的一个好处是似然比的至关重要性更突出。在应用中,我强调无信息先验,说明频率学派和贝叶斯学派得出的定性结论具有相似性。
概率论章节新增了基因组学和金融统计的例子。这些材料除了与相应的主题相关外,还可以很自然地强化基本概念。例如,连接函数 (copulas) 强调了边际分布和联合分布之间的关系。其他变动包括第10章探索性数据分析中散点图和相关系数的介绍,以及第14章中利用局部线性最小二乘进行非参数平滑的简介。本版新增了将近 100 道习题,主要集中在第7 .14章,同时还包括几个新的数据集,有些数据集完全可以用于计算机实验室上机操作。此外, 还修改了前面版本中解释含糊不清的一些段落。
概要
当然,我们可以从目录中找到完整的大纲,这里,我仅仅强调几点,并指出教师讲授课程时需要取舍的章节内容。
前 6章包含概率论的内容,特别是与统计学密切相关的内容。第1章以非测度论的观点介绍概率论的基本内容,以及初等组合方法。在这一章和其他概率章节中,我尽可能地利用现实世界的例子,而不是使用球与盒子的抽样模型。
第2章介绍了随机变量的概念。我选择将离散型和连续型随机变量放在一起讨论,而不是把连续情形推迟到以后再进行介绍。本章介绍了几个常见分布。这样安排的好处是它能为后面的章节提供一些讨论和介绍的内容。
第3章继续讨论随机变量,但是转向联合分布。教师可以跳过雅可比行列式,这不会有损课程的连续性,因为它们很少在本书的其余部分出现。如果教师乐意之后做些回溯工作,可以在讲解时跳过 3.7 节极值和顺序统计量的内容。
期望、方差、协方差、条件期望和矩生成函数共同构成第4章。教师可以跳过条件期望和预测,尤其是没有计划讲解稍后的充分统计量时。这一章之后的部分介绍了 ± 方法 (误差传播方法),这个方法多次出现在统计学的章节中。
第5章在非常严格的假设条件下证明了大数定律和中心极限定理。
第6章汇编了与正态分布有关的常用分布,以及利用通常的正态随机样本计算所得统计量的抽样分布。我没有在此浪费过多的时间,但确实介绍了统计学章节所必需的知识点, 学生很有必要学习这些分布。
第7章是有关抽样调查的内容,以非常规但比较自然的方式导入统计学的研究议题。很多学生在学习抽样调查内容时感到比较模糊,而恰恰在抽样调查中很自然地提出了一系列比较特殊的具体统计问题。从历史上看,抽样调查涉及了很多重要的统计概念,并可以将其用作传播介质引入在后面的章节中深入介绍的概念和技术,例如:
作为随机变量的估计量的思想,具有与之相关联的抽样分布。
偏倚、标准误差和均方误差的概念。
置信区间和中心极限定理的应用。
通过研究分层估计量揭示试验设计的概念以及相对效率的概念。
期望、方差和协方差的计算。
抽样调查不受欢迎的原因之一是其计算十分令人讨厌。然而,这种讨厌也有其长处,学生可以在这样的计算中得到锻炼。教师可以灵活地掌握介绍本章概念的深度。比率估计和分层部分是可选的,初次讲授时完全可以跳过,或稍后再讲这些概念,这并不影响课程的连续性。
第8章介绍参数估计,它是由拟合数据的概率律问题引起的,其中介绍了矩方法、最大似然方法和贝叶斯推断方法,同时还介绍了效率的概念,证明了克拉默{拉奥不等式。8.8 节介绍了充分性的概念及其一些衍生问题。可以跳过克拉默{拉奥下界和充分性的内容。在我看来,充分性的重要性通常被过度强调了。负二项分布的内容也可以跳过。
第9章介绍了假设检验及其拟合优度检验的应用,这配合第8章的内容.(这个内容还会在第11章深入讨论。)这里还简要展示了图方法。如果课时有限,教师可以跳过本章最后的 9.6 节(泊松散布度检验)、9.7 节(悬挂根图)和 9.9 节(正态性检验)。
第10章介绍了几种描述性方法,其中的很多技术都会在后面的章节中出现。本章强调了图方法的重要性,并介绍了稳健性的概念。将描述性方法放在本书的后面似乎有点怪异, 这样做是因为描述性方法通常有其随机性的一面,三章之后再介绍之可以使学生有足够的基础知识去研究各种汇总统计量的统计行为(例如,中位数的置信区间)。我在讲授课程时,会较早地介绍这部分内容。例如,在抽样调查实验中,我让学生制作抽取样本的箱形图和直方图。教师可以跳过生存函数和危险函数。
第11章介绍了两样本问题的经典分析方法和非参数方法。假设检验的概念第一次出现在第9章,在此做了更深一步的介绍。本章的末尾讨论了试验设计并解释了观测研究的一些内容。
前面 11章是初级课程的核心,涵盖了估计和假设检验的构造理论、图和描述性方法以及试验设计的内容。
教师可以自由地选择第12章到第14章的内容。特别地,没有必要按照书中给定的顺序讲解这些章节。
第12章利用方差分析和非参数技术讨论了单因子和二因子试验设计问题。多重比较问题第一次出现在第11章末,在此进行了深入讨论。
第13章简单讨论了分类数据分析, 介绍了齐性和独立性的似然比检验, 并叙述了麦克尼马尔检验。最后,通过前瞻性和回顾性研究的讨论引入了优势比的估计问题。
第14章讨论了线性最小二乘。首先介绍了简单线性回归,接着利用线性代数讨论了更一般的情形。我选择运用矩阵代数,但尽可能地将其维持在简单和具体层面上,没有超过初级一学期(每学年分为四学期制度中的一学期) 课程所讲授的内容。特别地,我没有介绍一般线性模型的几何分析内容,也没有试图将回归和方差分析统一起来。在这一整章中,理论结果伴随着更多基于残差分析的定性数据分析步骤。在本章末,我通过局部线性最小二乘介绍了非参数回归。
计算机使用和习题解答
计算是现代统计不可或缺的一部分。它是数据分析的本质,可以帮助我们理清基本概念。我的学生使用开源软件包 R,将其安装在自己的计算机上就可以使用。也可以使用其他的软件包,但在这本书中,我没有讨论其他的软件程序。原书配套的 CD 内容可从华章网站 (www.hzbook.com)下载,其中包括书中涉及的数据。
这本书包含大量的习题,从例行的基本概念强化题到具有一定难度的分析题。我认为习题解答,特别是非常规的习题,是非常重要的。
致谢
我要感谢很多人,他们直接和间接地促成了第1 版面世。Richard Olshen、Yosi Rinnot、Donald Vlvisaker、Len Ha。和 David Lane 在教学中使用了早期版本,他们提出很多有益的意见。他们和我自己课堂中的学生提供了很多建设性的意见。助教,尤其是 Joan Staniswalis、Roger John-son、Terri Bittner 和 Peter Kim,解答了很多习题,发现其中的很多错误。很多审稿人给出了有益的建议:Rollin Brant,多伦多大学;George Casella,康奈尔大学;Howard B。Christensen,杨百翰大学;David Fairley,俄亥俄州立大学;Peter Guttorp,华盛顿大学;Hari Iyer,科罗拉多州立大学;Douglas G。Kelly,北卡罗来纳大学;Thomas Leonard,威斯康星大学;Albert S。Paul-son,伦斯勒理工学院;Charles Peters,休斯敦大学;Andrew Rukhin,马萨诸塞大学安默斯特校区;Robert Schaefer,迈阿密大学;Ruth Williams,加州大学圣地亚哥分校。Richard Royall 和 W.G。Cumberland 热心地提供了第7章抽样调查所使用的数据集。我在休假时有幸在国家标准局度过了愉快的一年,那里的统计学家让我留意到书中其他几个数据集。我深深地感激编辑 John Kimmel,他的耐心、毅力和信念促成这本书的出版。
使用过本书第1 版的很多学生和教员给出了坦诚的评论,这极大地影响了第2 版的修订。我要特别感谢 Ian Abramson、Edward Bedrick、Jon Frank、Richard Gill、Roger Johnson、Torgny Lindvall、Michael Martin、Deb Nolan、Roger Pinkham、Yosi Rinott、Philip Stark 和 Bin Yu。我要向无意间遗漏的同仁表示道歉。最后,我要感谢 Alex Kugushev 在进行修订时所提供的鼓励和支持,感谢 Terri Bittner 在校正和解答新的习题时所做的细致工作。
很多人促成了第3 版的问世。我想感谢如下这些审稿专家:Marten Wegkamp,耶鲁大学;
Aparna Huzurbazar,新墨西哥大学;Laura Bernhofen,克拉克大学;Joe Glaz,康涅狄格大学;Michael Minnotte,犹他州立大学。我深深地感激很多读者,他们慷慨地花费大量时间指出书中的错误,并提出了很多改善结构安排之类的良好建议。特别地,Roger Pinkham 发送了很多有益的电子邮件信息,Nick Cox 指出了大量的语法错误。Alice Hsiaw 详细评述了第7.14章。我还想感谢 Ani Adhikari、Paulo Berata、Patrick Brewer、Sang-Hoon Cho Gier Eide、John Einmahl、David Freedman、Roger Johnson、Paul van der Laan、Patrick Lee、Yi Lin、Jim Linnemann、Rasaan Moshesh、Eugene Schuster、Dylan Small、Luis Tenorio、Richard De Veaux 和 Ping Zhang。Bob Stine 贡献了金融数据; Diane Cook 提供了意大利橄榄油的数据; Jim Albert 提供了篮球数据集,很漂亮地解释了回归向均值的问题; Rainer Sachs 提供了可爱的染色质分离数据。我要感谢编辑Carolyn Crockett 坚强的毅力和耐心,使这一版修订的愿望得以实现,还要感谢这个充满活力且高效的工作团队。我要向无意间遗漏其姓名的其他人表示道歉。
John A。Rice译 者 序
《Mathematical Statistics and Data Analysis》是美国加州大学名誉教授 John A。Rice 所著的一本优秀的概率论与数理统计教材,1988 年由 Thomson Brooks/Cole 出版,并于 1994 年再版,2003 年机械工业出版社购买了该书在中国的影印版权,发行了影印本,2007 年本书的第3版问世。书中直观而深刻的统计思想,简明而翔实的数据分析实例,新颖而丰富的图形工具和计算机技术使其别具风格,开创了概率论与数理统计教程著述方式的先河,引领了数理统计发展的方向,深受广大读者喜爱和专家学者的好评,至今,已被美国、英国、加拿大和中国的许多大学选为概率论与数理统计的教材或参考书。
John A。Rice 教授(1944|)在加州大学伯克利分校获得博士学位,并一直任教于该校统计系,现为统计学名誉教授,美国数理统计学会成员,发表过多篇理论和应用统计学论文,其研究兴趣集中于海量和需要高强度计算的随机数据的分析方法,例如时间序列。他的近期研究工作主要集中在两个天文项目上:探测太阳系外围地区(柯伊伯带)的物体和探测伽马射线脉冲星。
译者于 2003 年看到本书后,深为其内容和特色所吸引。自 2004 年春季至今,译者在为面向研究生和本科生所开设的概率论与数理统计和统计学等多门课程中连续使用这本书。同时,在面向财经类专业研究生开设的统计学课程的讲授中,也系统介绍了本书的基本理论和方法,利用Excel、R 和 SAS 等统计软件包实现了教程中的数据分析实例和习题,众多学生受益匪浅。积多年使用该教材的经验以及各类不同层次本科生及研究生对该教材的反映,我们深感这不仅是一本不可多得的概率论与数理统计教材,也是一本与经济学、管理学、医学、天文学、生物学、工学、社会学等其他学科紧密结合,展示统计学应用的优秀教科书或参考书。随着第3 版的问世,其内容更加丰富和完善,涵盖了目前前沿的统计分析方法,时间不仅没有使其过时,相反随着岁月的流逝,得到越来越多同行的关注。如果我们希望找到能够借以站立的巨人肩膀,那么这本著作将是一个很好的选择。
根据本人粗浅的理解,简要概述本书的特色和贡献如下:
内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法。
讲述材料的方式以数据分析为主,注重统计的实务和应用。
借助于经管、生物医学、金融、社会等领域的实际问题,增强读者对理论的理解和方法的使用。
强调图形工具和计算机技术,反映了计算机在统计学中扮演的越来越重要的角色;将自助法与传统的推论性过程结合起来,增加了蒙特卡罗方法。
叙述过程化繁为简。本书既避免从理论到理论,又防止理论与实际脱节,而是理论构建在寓深刻的背景内容下,对其逐步补充和加强,并与通俗的分析方法结合在一起。这种方法不是抽象或美学的思考,同时,也没有回避学生应该知道的数学内容,适合于统计学的实践要求。
为使概念更加清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力。
本书适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考。译者向广大读者推荐这本书,旨在希望它不仅成为读者学习概率论与数理统计学科的“捷径”,而且也能成为迈向其他相关学科前沿领域的“阶梯”。
在翻译过程中,我努力做到“信、达、雅”,但由于水平有限,译稿难免存在不当之处,请博雅之士不吝赐教,在此预先表示感谢,并于今后重印校正。
本书是在机械工业出版社王春华编辑的热心促动下翻译完成的,对其认真负责、精益求精的工作表示感谢。此外还要感谢翻译过程中提供宝贵意见的同事和同学们,他们帮助我不断提升本书的译文水平。感谢我的家人和朋友,感谢他们的理解和支持。
田金方
2011 年 3 月 7 日于山东经济学院

]]>
数据挖掘图书:谁说菜鸟不会数据分析(全彩) [平装] //www.otias-ub.com/archives/34934.html Wed, 25 Apr 2012 08:03:09 +0000 //www.otias-ub.com/?p=34934 谁说菜鸟不会数据分析(全彩) [平装]

内容简介

《谁说菜鸟不会数据分析(全彩)》内容简介:很多人看到数据分析就望而却步,担心门槛高,无法迈入数据分析的门槛。《谁说菜鸟不会数据分析(全彩)》在降低学习难度方面做了大量的尝试:基于通用的Excel工具,加上必知必会的数据分析概念,并且采用通俗易懂的讲解方式。《谁说菜鸟不会数据分析(全彩)》努力将数据分析写成像小说一样通俗易懂,使读者可以在无形之中学会数据分析。《谁说菜鸟不会数据分析(全彩)》按照数据分析工作的完整流程来讲解。全书共8章,分别讲解数据分析必知必会的知识、数据处理技巧、数据展现的技术、通过专业化的视角来提升图表之美、数据分析报告的撰写技能以及持续的修炼。
《谁说菜鸟不会数据分析(全彩)》形式活泼,内容丰富而且充实,让人有不断阅读下去的动力。读者完全可以把《谁说菜鸟不会数据分析(全彩)》当小说来阅读,跟随主人公小白,在Mr.林的指点下轻松掌握数据分析的技能,提升职场竞争能力。
《谁说菜鸟不会数据分析(全彩)》适合需要提升自身竞争力的职场新人;在市场营销、金融、财务、人力资源管理中需要作数据分析的人士;经常阅读经营分析、市场研究报告的各级管理人员;从事咨询、研究、分析等专业人士。

编辑推荐

《谁说菜鸟不会数据分析(全彩)》沈浩,张文彤等15位业内专家悉心评论。

媒体推荐

当谈到用数据解决问题时,我经常用这样的语言去诠释:“如果你不能量化它,你就不能理解它,如果不理解就不能控制它,不能控制也就不能改变它”。数据无处不在,信息时代的最主要特征就是“数据处理”,数据分析正以我们从未想象过的方式影响着日常生活。
在知识经济与信息技术时代,每个人都面临着如何有效地吸收、理解和利用信息的挑战。那些能够有效利用工具从数据中提炼信息、发现知识的人,最终往往成为各行各业的强者!
这本书向我们清晰又友好地介绍了数据分析方法、技巧与工具,强烈推荐读一读这本书,它或许会给你带来意想不到的收获!
——沈浩
中国传媒大学电视与新闻学院,教授:调查统计研究所,副所长
数据挖掘研发中心,首席技术顾问
统计学是一门很难,但是很有趣,更是很有用的工具学科。懂得如何使用它的人总是乐在其中,而尚未入门的人则畏之如虎。国内讲述统计学理论,以及讲述统计软件操作的书籍可谓汗牛充栋,但是多数流于理论,疏于应用和实践指导。很大一部分读者需求未被满足。
近年来随着信息技术的普及,各行各业的业务数据自动化趋势愈来愈明显,使得数据分析的需求开始从统计专业人士向各行业人员全面扩展。在此背景之下,出版一本能够深入浅出,从实际应用的角度介绍统计分析基础知识的书就变得很有必要。
这本书在理论和实践的平衡方面做了很有价值的尝试,基于最为普及的Excel、5W21_1、PEST等数据分析方法论,深入浅出地介绍了如何满足具体工作中的常见统计分析需求,对于需要应用统计分析,但是又未接受过这方面系统培训的读者来说,本书应当是一本非常合适的数据分析入门教材。
——张文彤博士
英德知联恒市场咨询(上海)有限公司新事业开友部,全国枝术总监

作者简介

张文霖,新浪博客“小蚊子乐园”博主,资深数据分析师,曾服务于国内著名市场研究公司、中国移动等公司,具有多年移动互联网数据分析经验,略懂Excel、PPT、SPSS、水晶易表等工具。
刘夏璐,暨南大学硕士。曾在腾讯、雅芳中国等知名企业有PM、数据分析实习经历。热衷于研究数据、图表与互联网产品。目前是一名在互联网浪潮中扑腾的后生。
狄松,英国南安普顿大学理学硕士,主修市场分析,现服务于全球著名市场研究公司,任高级研究员,主要从事数据分析,建模等工作。获得SPSS高级认证,高级调查分析师证书,具有多年数据分析经验,略懂Excel、PPT以及SPSS、Minitab等工具。

目录

第1章 数据分析那些事儿
1.1 数据分析是“神马” /14
1.1.1 何谓数据分析 /14
1.1.2 数据分析的广阔前景 /15
1.1.3 菜鸟与数据分析师 /17
1.1.4 数据分析师的基本素质 /18
1.2 数据分析六步曲 /21
1.2.1 明确分析目的和内容 /22
1.2.2 数据收集 /22
1.2.3 数据处理 /23
1.2.4 数据分析 /24
1.2.5 数据展现 /25
1.2.6 报告撰写 /25
1.3 几个常用指标或术语 /26
1.4 本章小结 /31第2章 无米难为巧妇——数据准备
2.1 理解数据 /34
2.1.1 字段与记录 /34
2.1.2 数据类型 /35
2.1.3 数据表 /36
2.1.4 问卷录入 /37
2.2 初识Excel /40
2.2.1 菜单操作 /41
2.2.2 函数 /44
2.2.3 图表 /48
2.2.4 宏 /49
2.2.5 快捷键 /51
2.3 数据来源 /53
2.3.1 导入外部数据 /53
2.3.2 手动输入数据更灵活 /59
2.4 本章小结 /62

第3章 三心二意——数据处理
3.1 何为数据处理 /64
3.1.1 “三心二意”处理数据 /64
3.1.2 数据处理的内容 /66
3.2 数据清洗 /67
3.2.1 清洗数据时的小妙招 /68
3.2.2 重复数据处理 /74
3.2.3 处理缺失数据 /79
3.2.4 检查数据逻辑错误 /85
3.3 数据加工 /91
3.3.1 数据抽取 /92
3.3.2 数据计算 /98
3.3.3 数据分组 /104
3.3.4 数据转换 /106
3.4 数据抽样 /112
3.5 本章小结 /114

第4章 工欲善其事必先利其器—— 数据分析
4.1 数据分析方法论 /116
4.1.1 数据分析方法论与数据分析法的区别 /117
4.1.2 PEST分析法 /118
4.1.3 5W2H分析法 /120
4.1.4 逻辑树分析法 /122
4.1.5 4P营销理论 /123
4.1.6 用户行为理论 /124
4.2 数据分析方法 /126
4.2.1 对比分析法 /126
4.2.2 分组分析法 /131
4.2.3 结构分析法 /132
4.2.4 平均分析法 /132
4.2.5 交叉分析法 /133
4.2.6 综合评价分析法 /134
4.2.7 杜邦分析法 /138
4.2.8 漏斗图分析法 /140
4.2.9 矩阵关联分析法 /140
4.2.10 高级数据分析方法 /146
4.2.11 数据分析的三大误区 /147
4.3 数据分析工具 /148
4.3.1 初识数据透视表 /148
4.3.2 创建数据透视表的三步法 /149
4.3.3 数据透视表分析实践 /152
4.3.4 多选题分析 /158
4.3.5 数据透视表小技巧 /163
4.4 本章小结 /168

第5章 给数据量体裁衣——数据展现
5.1 揭开图表的真面目 /170
5.1.1 图表的作用 /170
5.1.2 经济适用图表有哪些 /171
5.1.3 根据关系选择图表 /172
5.1.4 图表制作五步法 /177
5.2 表格也疯狂 /178
5.2.1 突出显示单元格 /178
5.2.2 项目选取 /179
5.2.3 数据条 /179
5.2.4 图标集 /180
5.2.5 迷你图 /182
5.3 给图表换装 /183
5.3.1 平均线图 /183
5.3.2 双坐标图 /185
5.3.3 竖形折线图 /188
5.3.4 瀑布图 /191
5.3.5 帕累托图 /193
5.3.6 旋风图 /197
5.3.7 人口金字塔图 /202
5.3.8 漏斗图 /204
5.3.9 矩阵图(散点图) /206
5.3.10 发展矩阵图 /210
5.3.11 改进难易矩阵(气泡图) /212
5.4 本章小结 /214

第6章 专业化生存——图表可以更美的
6.1 别让图表犯错 /217
6.1.1 让图表“五脏俱全” /217
6.1.2 要注意的条条框框 /219
6.1.3 图表会说谎 /231
6.2 浓妆淡抹总相宜——图表美化 /235
6.2.1 图表美化的三原则 /236
6.2.2 略施粉黛——美化图表的技巧 /239
6.2.3 图表也好“色” /245
6.3 如虎添翼的招儿 /254
6.3.1 我的图表模板 /254
6.3.2 快速制图 /256
6.3.3 添加数据系列 /257
6.3.4 添加标签小工具 /258
6.3.5 智能“照相机” /261
6.3.6 修剪超大值 /264
6.3.7 制作图表时通用的快捷操作 /265
6.4 本章小结 /266

第7章 专业的报告——体现你的职场价值
7.1 初识数据分析报告 /269
7.1.1 数据分析报告的定义 /269
7.1.2 数据分析报告的写作原则 /269
7.1.3 数据分析报告的作用 /271
7.1.4 数据分析报告的种类 /272
7.2 数据分析报告的结构 /274
7.2.1 标题页 /275
7.2.2 目录 /277
7.2.3 前言 /278
7.2.4 正文 /279
7.2.5 结论与建议 /280
7.2.6 附录 /281
7.3 撰写报告时的注意事项 /282
7.4 报告范例 /283
7.5 本章小结 /290

第8章 数据分析技能持续提升
8.1 软件工具 /292
8.1.1 数据分析类工具 /292
8.1.2 数据展现类工具 /296
8.2 论坛 /299
8.2.1 数据分析类论坛 /299
8.2.2 数据展现类论坛 /301
8.3 博客 /301
8.3.1 数据分析十大博客 /302
8.3.2 PPT十大中文博客 /304
8.4 本章小结 /305
写在后面的Q/A /306

文摘

版权页:

插图:

话说小白过五关斩六将,通过严格的面试,最终从众多优秀毕业生中脱颖而出,成为公司的一员。在报到的第一天,公司HR向小白介绍了她的职位——公司牛董的助理,负责文秘工作,可能需要做一些数据分析之类的活儿。小白一听到数据分析这个词,就感觉头皮发麻,这时,她的脑子里幻想出一些穿白大褂的科研人员在实验室的计算机前不断忙碌的场景。虽然在上大学时也使用过Excel,但是如果要做数据分析工作,她还真的有些不知如何下手。无数个问号涌到她的脑海中:数据分析到底要做什么呢?我要怎么做数据分析?老板想要看什么样的结果呢?……唉,只好边走边干了。
HR看出小白的心事,说道:关于数据分析你不用太担心,如果遇到难题,你可以请教我们公司的Mr.林,他在这方面可是专家喔!
小白一听有救星,立马兴奋起来,好像抓到救命稻草一样,想赶紧找到这位大师级人物,然后一股脑把疑问全倒出来。
HR:小白,你跟我来吧,我给你引荐-FMr.林。
小白:好的。
说着小白跟HR来到了Mr.林的办公桌旁,HR说道:Mr.林,这是我们公司新来的同事,叫小白,现担任牛董助理,她的部分工作涉及数据分析,到时候有问题还要麻烦您多多指点了。
小白紧跟着说道:Mr.林,您好,请多多指教。
Mr.林:呵呵,太客气了,有问题直接来找我就可以了。
小白趁机说道:我现在就有问题,您现在是否有时间帮我解答下?数据分析是干什么的,具体要怎么做?
Mr.林听完笑了起来:你还真是不客气呀,好吧,你刚进公司,我就先给你做个简单的培训,带你入个门吧,以后的修行可就靠你自己努力了。
小白用力点着头,HR见这“师徒”二人颇有一见如故之感,大致交代一番后,就离开了。

 

]]>
数据挖掘图书:人工智能:一种现代方法(第2版) [平装] //www.otias-ub.com/archives/34485.html Tue, 24 Apr 2012 15:22:32 +0000 //www.otias-ub.com/?p=34485

内容简介

《人工智能:一种现代方法(第2版)》以详尽和丰富的资料,从理性智能体的角度,全面阐述了人工智能领域的核心内容,并深入介绍了各个主要的研究方向,是一本难得的综合性教材。全书分为八大部分:第一部分“人工智能”,第二部分“问题求解”,第三部分“知识与推理”,第四部分“规划”,第五部分“不确定知识与推理”,第六部分“学习”,第七部分“通讯、感知与行动”,第八部分“结论”。
《人工智能:一种现代方法(第2版)》既详细介绍了大量的基本概念、思想和算法,也描述了各研究方向最前沿的进展,同时收集整理了详实的历史文献与事件。因此《人工智能:一种现代方法(第2版)》适合于不同层次和领域的研究人员及学生,可以作为信息领域和相关领域的高等院校本科生和研究生的教材或教学辅导书目,也可以作为相关领域的科研与工程技术人员的参考书。

编辑推荐

《人工智能:一种现代方法(第2版)》:在第二版中,每一章都经过详尽的改写引入了一些重要的新材料,以涵盖更多的领域,诸如约束满足、快速命题推理、规划图、因特网智能体、精确概率推理、马尔可夫链蒙特卡洛技术、卡尔曼滤波器、集体学习方法、统计学习、概率自然语言模型、概率机器人技术,以及AI的伦理层面,
《人工智能:一种现代方法(第2版)》还得到了一套联机资源的支撑,包括源代码、图表、讲义幻灯片、一个包含超过800条到网站“Al on the Web”的链接的目录,以及一个联机讨论组。

媒体推荐

本书的第一版已经成为人工智能文献中的经典。它已被60个国家的超过600所大学采用。被誉为本领域的最权威的综合读物。
“此教科书的出版是向前迈进的重要一步。不仅对于AI的教学而言,也在于本书所介绍的关于人工智能领域的统一化观点。即使是本领域的专家。在每一章中也能发现重要的见解。”
——Thomas Dietterich教授(俄勒冈州立大学)
“真是了不起。本书是我一直期待的……今后10年中AI领域的圣经。”
——Gerd Brewka教授《维也纳大学)
“不可思议的成就。一本实在完美的书!”
——SeImer Bringsjord教授(RPI)
“这是一本伟大的书,有着难以置信的广度和深度,而且写得非常好。我认识的每个在他们的课堂上使用本书的人都爱上了它。”
——Haym Hirsh教授(Rutgers大学)
“它所表现出的关于AI领域的一幅连贯的、平衡的、宽广和深入的、令人欣喜的图景,以空前的品质深深地打动了我。它将成为以后几年中的标准教材。”
——Wolfgang Bibel教授(Darmstadt大学)
“了不起!写得漂亮,组织得也好。全面涵盖了每个学AI的学生应该了解的材料。”
——Martha Pollack教授(密执根大学)
“出色……它的描述极为清晰和易读;它的组织结构很优秀;它的例子能激发人的思考;而且它的覆盖面是精深的和周到的!……在一段时间内将理所当然地统驭本领域。”
——尼尔斯·尼尔森教授(斯坦福大学)
“现在能得到的最好的书籍……它几乎与Chamiak和我写的那本书一样好。但是更新。(好吧,我承认,它也许甚至比我们的书更好。”)
——Drew McDermott教授(耶鲁大学)
“一部关于整个人工智能领域的权威性记录,将对教授和学生都有启迪作用。”
——Alan Kay博士
“正是本书使我热爱AI。”
——学生(印度尼西亚)

作者简介

作者:(美国)斯图尔特·罗素(Stuart Russell) (美国)诺文(Peter Norvig) 译者:姜哲 金奕江 张敏 等

斯图尔特·罗素(Stuart Russell),1962年生于英国朴次茅斯(Portsmouth)。他于1982年以优异成绩在牛津大学获得物理学硕士学位,并于1986年在斯坦福大学获得计算机科学的博士学位。之后他加入加州大学伯克利分校,任计算机科学系教授、智能系统中心主任,他是Smith-Zadeh工程学讲座教授(Smith-Zadeh Chak of Engineering)头衔的持有者。1990年他获得国家科学基金的“总统青年研究者”(Presidential Young Investigator)奖,1995年他是“计算机与思维”(Computer and Thought)奖的获得者之一。他是加州大学1996年的一名Miller教授(Miller Professor),并于2000年被指定为首席讲座教授(Chancellor’s Professorship)。1998年他在斯坦福大学做过Forsythe纪念演讲(Forsythe Memorial Lecture)。他是美国人工智能学会的成员和前执行委员会委员。他已经发表过100多篇论文,内容涉及人工智能领域的广泛课题。他的其它著作包括《在类比与归纳中使用知识》(The Use of Knowledge in Analogy and Induction),以及(与Eric Wefald合著的)《做正确的事情:有限理性的研究》(DDt he Right Thing:Studiesin Limited Rationality)。彼得·诺维格(Peter Norvig),Google公司的搜索质量部门主管(director of Search Quality)。他是美国人工智能学会的成员和执行委员会委员。他曾经是NASA Ames研究中心计算科学部的主任,在那里他监督NASA在人工智能和机器人学领域的研究与开发。之前他作为Junglee的首席科学家帮助开发了最早的因特网信息抽取服务之一,并作为一名资深科学家在Sun微系统实验室从事智能信息检索的研究工作。他在布朗(Brown)大学获得应用数学硕士学位,并在加州大学伯克利分校获得计算机科学的博士学位。他曾任南加州大学的教授,并且是伯克利的研究职员。他有超过50部计算机科学领域的论著,包括著作《人工智能程序设计范例:通用Lisp语言的案例研究》(Paradigms of A IP rogramming:Case Studies in Common Lisp)、《Verbmobil:一个面对面对话的翻译系统》(Verbmobil:A Translation System for Face to-face Dialog),以及《UNIX的智能帮助系统》(Intelligent Help System for UNIX)。

目录

第一部分 人工智能
第1章 绪论
1.1 什么是人工智能
1.1.1 类人行为:图灵测试方法
1.1.2 类人思考:认知模型方法
1.1.3 理性地思考:“思维法则”方法
1.1.4 理性地行动:理性智能体方法
1.2 人工智能的基础
1.2.1 哲学(公元前428年-现在)
1.2.2 数学(约800年-现在)
1.2.3 经济学(1776年-现在)
1.2.4 神经科学(1861年-现在)
1.2.5 心理学(1879年-现在)
1.2.6 计算机工程(1940年-现在)
1.2.7 控制论(1948年-现在)
1.2.8 语言学(1957年-现在)
1.3 人工智能的历史
1.3.1 人工智能的孕育期(1943年-1955年)
1.3.2 人工智能的诞生(1956年)
1.3.3 早期的热情,巨大的期望(1952年-1969年)
1.3.4 现实的困难(1966年-1973年)
1.3.5 基于知识的系统:力量的钥匙?(1969年-1979年)
1.3.6 AI成为工业(1980年-现在)
1.3.7 神经元网络的回归(1986年-现在)
1.3.8 AI成为科学(1987年-现在)
1.3.9 智能化智能体的出现(1995年-现在)
1.4 目前发展水平
1.5 小结
参考文献与历史的注释
习题第2章 智能化智能体
2.1 智能体和环境
2.2 好的行为表现:理性的概念
2.2.1 性能度量
2.2.2 理性
2.2.3 全知者,学习和自主性
2.3 环境的本质
2.3.1 详细说明任务环境
2.3.2 任务环境的属性
2.4 智能体的结构
2.4.1 智能体程序
2.4.2 简单反射型智能体
2.4.3 基于模型的反射型智能体
2.4.4 基于目标的智能体
2.4.5 基于效用的智能体
2.4.6 学习智能体
2.5 小结
参考文献与历史的注释
习题

第二部分 问题求解
第3章 用搜索法对问题求解
3.1 问题求解智能体
3.1.1 定义明确的问题及解
3.1.2 把问题形式化
3.2 问题实例
3.2.1 玩具问题
3.2.2 现实世界问题
3.3 对解的搜索
3.4 无信息的搜索策略
3.4.1 广度优先搜索
3.4.2 代价一致搜索
3.4.3 深度优先搜索
3.4.4 深度有限搜索
3.4.5 迭代深入深度优先搜索
3.4.6 双向搜索
3.4.7 无信息搜索策略的比较
3.5 避免重复状态
3.6 使用不完全信息的搜索
3.6.1 无传感问题
3.6.2 偶发性问题
3.7 小结
参考文献与历史的注释
习题

第4章 有信息的搜索和探索
4.1 有信息的(启发式的)搜索策略
4.1.1 贪婪最佳优先搜索
4.1.2 A*搜索:最小化总的估计解耗散
4.1.3 存储限制的启发式搜索
4.1.4 为了更好地搜索而学习
4.2 启发函数
4.2.1 启发函数的精确度对性能的影响
4.2.2 设计可采纳的启发函数
4.2.3 从经验里学习启发函数
4.3 局部搜索算法和最优化问题
4.3.1 爬山法搜索
4.3.2 模拟退火搜索
4.3.3 局部剪枝搜索
4.3.4 遗传算法
4.4 连续空间的局部搜索
4.5 联机搜索智能体和未知环境
4.5.1 联机搜索问题
4.5.2 联机搜索智能体
4.5.3 联机局部搜索
4.5.4 联机搜索的学习
4.6 小结
参考文献与历史的注释
习题

第5章 约束满足问题
5.1 约束满足问题
5.2 CSP问题的回溯搜索
5.2.1 变量和取值顺序
5.2.2 通过约束传播信息
5.3 约束满足问题的局部搜索
5.4 问题的结构
5.5 小结
参考文献与历史的注释
习题

第6章 对抗搜索
6.1 博弈
6.2 博弈中的优化决策
6.2.1 最优策略
6.2.2 极小极大值算法
6.2.3 多人游戏中的最优决策
6.3 a-B剪枝
6.4 不完整的实时决策
6.4.1 评价函数
6.4.2 截断搜索
6.5 包含几率因素的游戏
6.5.1 有几率节点的游戏中的局面评价
6.5.2 期望极小极大值的复杂度
6.5.3 牌类游戏
6.6 博弈程序的当前发展水平
6.7 讨论
6.8 小结
参考文献与历史的注释
习题

第三部分 知识与推理
第7章 逻辑智能体
7.1 基于知识的智能体
7.2 wumpus世界
7.3 逻辑
7.4 命题逻辑:一种非常简单的逻辑
7.4.1 语法
7.4.2 语义
7.4.3 一个简单的知识库
7.4.4 推理
7.4.5 等价、合法性和可满足性
7.5 命题逻辑的推理模式
7.5.1 归结
……

第8章 一阶逻辑
第9章 一阶逻辑中的推理
第10章 知识表示

第四部分 规划
第11章 规划
第12章 现实世界的规划与行动

第五部分 不确定知识与推理
第13章 不确定性
第14章 概率推理
第15章 关于时间的概率推理
第16章 制定简单决策
第17章 制定复杂决策

第六部分 学习
第18章 从观察中学习
第19章 学习中的知识
第20章 统计学习方法
第21章 强化学习

第七部分 通讯、感知与行动
第22章 通讯
第23章 概率语言处理
第24章 感知
第25章 机器人学

第八部分 结论
第27章 人工智能:现状与未来

附录A 数学背景
附录B 关于语言和算法的注释
参考文献(见人民邮电出版社网站)

序言

人工智能(Artificial Intelligence,AI)是一个庞大的领域,而这也是一本庞大的书。我们试图全方位探索这个领域,包括逻辑、概率和连续数学;感知、推理、学习和行动;以及从微电子设备到机器人行星探测器等一切巨细。这本书之所以庞大还因为我们,在给出结果时达到了一定的深度,虽然我们努力做到在每一章中只包含主要部分的中心思想。在每章末尾的文献注释中我们提供了进一步结果的要点。
本书的副标题是“一种现代方法”。这个相当空洞的短语希望表达的含义是,我们试图将我们现在所知道的内容综合到一个共同的框架中,而不是试图在各自的历史环境下解释人工智能的各个子领域。对于那些自己的研究领域因此没有得到足够重视的读者,我们表示歉意。
本书主要的统一主题是智能化智能体的思想。我们将人工智能定义为对从环境中接收感知信息并执行行动的智能体的研究。每个这样的智能体都实现了一个把感知序列映射到行动的函数。我们讨论了表达这些函数的各种不同方法,诸如产生式系统、反应式智能体、实时条件规划器、神经元网络,以及决策理论系统等。我们把学习所扮演的角色解释为把设计者能接触的范围扩展到未知环境中,并且我们说明了这个角色是如何约束智能体设计;形成明确的知识表示和推理的。我们并不把机器人学和视觉当作各自独立定义的问题对待,而是出现在为实现目标而服务的过程中。我们强调在确定合适的智能体设计的过程中任务环境的重要性。
我们的首要目标是要传达过去50年间的人工智能研究和过去2000年的相关工作中所涌现出来的思想。在表达这些思想的过程中,我们在保持精确的同时尽力避免过分的形式化。在任何适当的地方本书都加入了伪代码算法以使这些思想更具体。我们所使用的伪代码在附录B中有简要描述。这些算法的几种程序设计语言的具体实现可以从本书的网站获得。

文摘

插图:

在投入细节讨论之前,让我们暂停一下,来看看问题求解智能体在第二章关于智能体和环境的讨论中所处的适合位置。在图3.1中,智能体设计假定环境是静态的,因为完成问题形式化和求解的时候不再注意可能发生在环境中的任何变化。该智能体设计还假定初始状态是己知的;如果环境是可观察的,了解初始状态是最简单的。枚举“可选的行动过程”的思想假定环境是离散的。最后,也是最重要的,该智能体设计假定环境是确定性的。问题的解是行动的单一序列,所以它们不能处理任何意外事件;此外,在执行问题的解的过程中同样是不注意感知信息的!可以说,一个闭着眼睛执行计划的智能体必须对正在进行的事情十分有把握。(控制论中称此为开环系统,因为忽略感知信息打破了智能体和环境之间的环路。)所有这些假设意味着我们处理的是最简单的一种环境,这也是这一章出现在本书靠前位置的原因之一。
第3.6节将简要考察一下当我们放松可观察性和确定性的假设时会发生什么。第十二章和第十七章将更深入地进行讨论。
3.1.1定义明确的问题及解一个问题可以形式化地定义为四个组成部分:智能体起始时的初始状态。例如,在罗马尼亚问题中我们的智能体的初始状态可以描述为对智能体可采纳的可能行动的描述。最常见的形式化是使用一个后继函数。给定一个特殊状态组成的集合,其中每个行动都是状态下的合法行动之一,每个后继都是应用行动后从状态x能达到的状态。例如,从状态砌开始,罗马尼亚问题的后继函数将返回集合:总之,初始状态和它的后继函数隐含地定义了问题的状态空间——即从初始状态可以达到的所有状态的集合。状态空间形成一个图,其中节点是状态,节点之间的弧就是行动。(如果我们把每条道路视为代表着两个驾驶行动,每个行动各走一个方向,图3.2所示的罗马尼亚地图就可以被解释为一个状态空间图。)状态空间中的一条路径就是通过行动序列连接起来的一个状态序列。

]]>
数据挖掘图书:大样本理论基础(英文版) [平装] //www.otias-ub.com/archives/34478.html Tue, 24 Apr 2012 15:07:26 +0000 //www.otias-ub.com/?p=34478

商品描述

内容简介

《大样本理论基础(英文版)》在讲述一阶大样本理论方面比较独特,讨论了大量的应用,包括密度估计、自助法和抽样方法论的渐进。《大样本理论基础(英文版)》的内容比较基础,适合统计专业的研究生和有两年微积分背景的应用领域。每章末有针对本章每节的问题和练习,每节末都附有小结。

编辑推荐

《大样本理论基础(英文版)》是由世界图书出版公司出版的。

目录

Preface
1 Mathematical Background
1.1 The concept of limit
1.2 Embedding sequences
1.3 Infinite series
1.4 Order relations and rates of convergence
1.5 Continuity
1.6 Distributions
1.7 Problems2 Convergence in Probability and in Law
2.1 Convergence in probability
2.2 Applications
2.3 Convergence in law
2.4 The central limit theorem
2.5 Taylor’s theorem and the delta method
2.6 Uniform convergence
2.7 The CLT for independent non-identical random variables
2.8 Central limit theorem for dependent variables
2.9 Problems

3 Performance of Statistical Tests
3.1 Critical values
3.2 Comparing two treatments
3.3 Power and sample size
3.4 Comparison of tests: Relative efficiency
3.5 Robustness
3.6 Problems

4 Estimation
4.1 Confidence intervals
4.2 Accuracy of point estimators
4.3 Comparing estimators
4.4 Sampling from a finite population
4.5 Problems

5 Multivariate Extensions
5.1 Convergence of multivariate distributions
5.2 The bivariate normal distribution
5.3 Some linear algebra
5.4 The multivariate normal distribution
5.5 Some applications
5.6 Estimation and testing in 2 × 2 tables
5.7 Testing goodness of fit
5.8 Problems

6 Nonparametric Estimation
6.1 U-Statistics
6.2 Statistical functionals
6.3 Limit distributions of statistical functionals
6.4 Density estimation
6.5 Bootstrapping
6.6 Problems

7 Efficient Estimators and Tests
7.1 Maximum likelihood
7.2 Fisher information
7.3 Asymptotic normality and multiple roots
7.4 Efficiency
7.5 The multiparameter case I. Asymptotic normality
7.6 The multiparameter case II. Efficiency
7.7 Tests and confidence intervals
7.8 Contingency tables
7.9 Problems
Appendix
References
Author Index
Subject Index

序言

The subject of this book, first order large-sample theory, constitutes a coherent body of concepts and results that are central to both theoretical andapplied statistics. This theory underlies much of the work on such differenttopics as maximum likelihood estimation, likelihood ratio tests, the bootstrap, density estimation, contingency table analysis, and survey samplingmethodology, to mention only a few. The importance of this theory hasled to a number of books on the subject during the last 20 years, amongthem Ibragimov and Has’minskii (1979), Serfling (1980), Pfanzagl and Weflmeyer (1982), Le Cam (1986), Riischendorf (1988), Barndorff-Nielson andCox (1989, 1994), Le Cam and Yang (1990), Sen and Singer (1993), andFerguson (1996).
These books all reflect the unfortunate fact that a mathematically complete presentation of the material requires more background in probabilitythan can be expected from many students and workers in statistics. Thepresent, more elementary, volume avoids this difficulty by taking advantage of an important distinction. While the proofs of many of the theoremsrequire a substantial amount of mathematics, this is not the case with theunderstanding of the concepts and results nor of their statistical applications.

文摘

插图:

购买地址:

]]>
数据挖掘图书:应用随机过程:概率模型导论(第10版) [平装] //www.otias-ub.com/archives/34470.html Tue, 24 Apr 2012 14:59:55 +0000 //www.otias-ub.com/?p=34470

内容简介

《应用随机过程:概率模型导论(第10版)》是一部经典的随机过程著作,叙述深入浅出、涉及面广。主要内容有随机变量、条件期望、马尔可夫链、指数分布、泊松过程、平稳过程、更新理论及排队论等;也包括了随机过程在物理、生物、运筹、网络、遗传、经济、保险、金融及可靠性中的应用。特别是有关随机模拟的内容,给随机系统运行的模拟计算提供了有力的工具。本版还增加了不带左跳的随机徘徊和生灭排队模型等内容。《应用随机过程:概率模型导论(第10版)》约有700道习题,其中带星号的习题还提供了解答。
《应用随机过程:概率模型导论(第10版)》可作为概率论与数理统计、计算机科学、保险学、物理学、社会科学、生命科学、管理科学与工程学等专业随机过程基础课教材。

编辑推荐

《应用随机过程:概率模型导论(第10版)》是国际知名统计学家Sheldon M. Ross所着的关于基础概率理论和随机过程的经典教材。英文原版被加州大学伯克利分校,哥伦比亚大学、普度大学、密歇根大学.俄勒冈州立大学.华盛顿大学等众多国外知名大学所采用。
与其他随机过程教材相比,《应用随机过程:概率模型导论(第10版)》非常强调实践性,内含极其丰富的例子和习题,涵盖了众多学科的各种应用。作者富于启发而又不失严密性的叙述方式,有助于使读者建立概率思维方式,培养对概率理论、随机过程的直观感觉。对那些需要将概率理论应用于精算学、运筹学、物理学.工程学.计算机科学.管理学和社会科学的读者而言,《应用随机过程:概率模型导论(第10版)》是一本极好的教材或参考书。《应用随机过程:概率模型导论(第10版)》特色秉承作者招牌式的深入浅出、娓娓道来的写作风格。增加了关于不带左跳的随机徘徊,生灭排队模型,马尔可夫链和保险破产模型等方面的重要内容。增加了新的例子和习题。更加注重强化读者的概率直观。

媒体推荐

“本书的一大特色是实例丰富,内容涉及多个学科,尤其是精算学……相信任何有上进心的读者都会对此爱不释手。”
——Jean LeMaire,。宾夕法尼亚大学沃顿商学院
“书中的例子和习题非常出色,作者不仅提供了非常基本的例子,以阐述基础概念和公式,还从尽可能多的学科中提炼出许多较高级的实例,极具参考价值。”
——Matt Carlton,加州州立理工大学(Cal Poly)

作者简介

作者:(美国)罗斯(Sheldon M.Ross) 译者:龚光鲁

罗斯(Sheldon M. Ross),国际知名概率与统计学家,南加州大学工业工程与运筹系系主任。1968年博士毕业于斯坦福大学统计系,曾在加州大学伯克利分校任教多年。研究领域包括:随机模型、仿真模拟、统计分析、金融数学等。Ross教授著述颇丰,他的多种畅销数学和统计教材均产生了世界性的影响,如A First Course in Probability,(《概率论基础教程》)和Simulation(《统计模拟》)等(均由人民邮电出版社引进出版)。

目录

第1章 概率论引论
1.1 引言
1.2 样本空间与事件
1.3 定义在事件上的概率
1.4 条件概率
1.5 独立事件
1.6 贝叶斯公式
习题
参考文献第2章 随机变量
2.1 随机变量
2.2 离散随机变量
2.2.1 伯努利随机变量
2.2.2 二项随机变量
2.2.3 几何随机变量
2.2.4 泊松随机变量
2.3 连续随机变量
2.3.1 均匀随机变量
2.3.2 指数随机变量
2.3.3 伽玛随机变量
2.3.4 正态随机变量
2.4 随机变量的期望
2.4.1 离散情形
2.4.2 连续情形
2.4.3 随机变量的函数的期望
2.5 联合分布的随机变量
2.5.1 联合分布函数
2.5.2 独立随机变量
2.5.3 随机变量和的方差与协方差
2.5.4 随机变量的函数的联合概率分布
2.6 矩母函数
2.7 发生事件数的分布
2.8 极限定理
2.9 随机过程
习题
参考文献

第3章 条件概率与条件期望
3.1 引言
3.2 离散情形
3.3 连续情形
3.4 通过取条件计算期望
3.5 通过取条件计算概率
3.6 一些应用
3.6.1 列表模型
3.6.2 随机图
3.6.3 均匀先验、波利亚坛子模型和Bose-Einstein分布
3.6.4 模式的平均时间
3.6.5 离散随机变量的k记录值
3.6.6 不带左跳的随机徘徊
3.7 复合随机变量的恒等式
3.7.1 泊松复合分布
3.7.2 二项复合分布
3.7.3 与负二项随机变量有关的一个复合分布
习题

第4章 马尔可夫链
4.1 引言
4.2 C-K方程
4.3 状态的分类
4.4 极限概率
4.5 一些应用
4.5.1 赌徒破产问题
4.5.2 算法有效性的一个模型
4.5.3 用随机游动分析可满足性问题的概率算法
4.6 在暂态停留的平均时间
4.7 分支过程
4.8 时间可逆的马尔可夫链
4.9 马尔可夫链蒙特卡罗方法
4.1 0马尔可夫决策过程
4.1 1隐马尔可夫链
习题
参考文献

第5章 指数分布与泊松过程
5.1 引言
5.2 指数分布
5.2.1 定义
5.2.2 指数分布的性质
5.2.3 指数分布的进一步性质
5.2.4 指数随机变量的卷积
5.3 泊松过程
5.3.1 计数过程
5.3.2 泊松过程的定义
5.3.3 到达间隔时间与等待时间的分布
5.3.4 泊松过程的进一步性质
5.3.5 到达时间的条件分布
5.3.6 软件可靠性的估计
5.4 泊松过程的推广
5.4.1 非时齐泊松过程
5.4.2 复合泊松过程
5.4.3 条件(混合)泊松过程
习题
参考文献

第6章 连续时间的马尔可夫链
6.1 引言
6.2 连续时间的马尔可夫链
6.3 生灭过程
6.4 转移概率函数Pij(t)
6.5 极限概率
6.6 时间可逆性
6.7 均匀化
6.8 计算转移概率
习题
参考文献

第7章 更新理论及其应用
7.1 引言
7.2 N(t)的分布
7.3 极限定理及其应用
7.4 更新报酬过程
7.5 再生过程
7.6 半马尔可夫过程
7.7 检验悖论
7.8 计算更新函数
7.9 有关模式的一些应用
7.9.1 离散随机变量的模式
7.9.2 不同值的最大连贯的期望时间
7.9.3 连续随机变量的递增连贯
7.1 0保险破产问题
习题
参考文献

第8章 排队理论
8.1 引言
8.2 预备知识
8.2.1 价格方程
8.2.2 稳态概率
8.3 指数模型
8.3.1 单条服务线的指数排队系统
8.3.2 有限容量的单条服务线的指数排队系统
8.3.3 生灭排队模型
8.3.4 擦鞋店
8.3.5 具有批量服务的排队系统
8.4 排队网络
8.4.1 开放系统
8.4.2 封闭系统
8.5 M/G/1系统
8.5.1 预备知识:功与另一个价格恒等式
8.5.2 在M/G/1中功的应用
8.5.3 忙期
8.6 M/G/1的变形
8.6.1 有随机容量的批量到达的M/G/1
8.6.2 优先排队模型
8.6.3 一个M/G/1优化的例子
8.6.4 具有中断服务线的M/G/1排队系统
8.7 G/M/1模型
8.8 有限源模型
8.9 多服务线系统
8.9.1 Erlang损失系统
8.9.2 M/M/k排队系统
8.9.3 G/M/k排队系统
8.9.4 M/G/k排队系统
习题
参考文献

第9章 可靠性理论
9.1 引言
9.2 结构函数
9.3 独立部件系统的可靠性
9.4 可靠性函数的界
9.4.1 包含与排斥方法
9.4.2 得到r(p)的界的第二种方法
9.5 系统寿命作为部件寿命的函数
9.6 期望系统寿命
9.7 可修复的系统
习题
参考文献

第10章 布朗运动与平稳过程
10.1 布朗运动
10.2 击中时刻、最大随机变量和赌徒破产问题
10.3 布朗运动的变形
10.3.1 漂移布朗运动
10.3.2 几何布朗运动
10.4 股票期权的定价
10.4.1 期权定价的示例
10.4.2 套利定理
10.4.3 Black-Scholes期权定价公式
10.5 白噪声
10.6 高斯过程
10.7 平稳和弱平稳过程
10.8 弱平稳过程的调和分析
习题
参考文献

第11章 模拟
11.1 引言
11.2 模拟连续随机变量的一般方法
11.2.1 逆变换方法
11.2.2 拒绝法
11.2.3 风险率方法
11.3 模拟连续随机变量的特殊方法
11.3.1 正态分布
11.3.2 伽玛分布
11.3.3 卡方分布
11.3.4 贝塔分布(b(n,m)分布)
11.3.5 指数分布——冯诺伊曼算法
11.4 离散分布的模拟
11.5 随机过程
11.5.1 模拟非时齐泊松过程
11.5.2 模拟二维泊松过程
11.6 方差缩减技术
11.6.1 对偶变量的应用
11.6.2 通过取条件缩减方差
11.6.3 控制变量
11.6.4 重要抽样
11.7 确定运行的次数
11.8 马尔可夫链的平稳分布的生成
11.8.1 过去耦合法
11.8.2 另一种方法
习题
参考文献
附录带星号习题的解
索引

文摘

版权页:

插图:

购买地址:

]]>
数据挖掘图书:数值分析导论(第3版) [平装] //www.otias-ub.com/archives/34464.html Tue, 24 Apr 2012 14:55:38 +0000 //www.otias-ub.com/?p=34464

内容简介

《数值分析导论(第3版)》是一本数值分析的入门教材,出自两位著名的数值分析学家,被美国多所大学用作教材。全书包括9章,涉及方程的求解,插值与逼近,数值积分与微分,线性方程组的解等较初级的内容,以及最小二乘数据拟合、本征值问题、非线性方程组等较高级主题。书中有大量MATLAB程序,并在附录中介绍了MATLAB。《数值分析导论(第3版)》习题丰富,书后还附有习题参考答案,有利于初学者自学。
《数值分析导论(第3版)》可以作为高等院校教学、工程等各理工科专业本科生的数值分析教材,也可供有关领域的研究人员和工作人员参考。

编辑推荐

《数值分析导论(第3版)》是一本优秀的数值分析入门教材,内容全面,不仅涵盖方程的求解、插值逼近等较初级的内容,还涉及最小二乘数据拟合、本征值问题、非线性方程组等较高级主题。书中给出了大部分算法的MATLAB程序,还使用图形用户界面进行实验,学生仅需使用莱单、查询窗口和按钮就可以研究各种论题。《数值分析导论(第3版)》习题丰富,十分有利于培养学生的独立思考和动手能力。
《数值分析导论(第3版)》由两位著名的数值分析专家合作编写,被美国多所大学用作教材,包括加州大学伯克利分校。原书以前版本也曾有中文版问世,对国内数值分析教学产生了很大影响,被很多大学用作教材或参考书。

作者简介

作者:(美国)阿特金森(Kendall Artkinson) 韩渭敏 译者:王国荣 徐兆亮 孙劼

Kendall Atkinson,美国艾奥瓦大学荣休教授,SIAM、美国数学会、澳大利亚数学会会士。Atkinson教授著述颇丰,写有多本数值计算方面的书。此外,他还是Journal of Integral Equations and Applications的总编、Advances In Computational Mathematics的编委。
韩渭敏,美国艾奥瓦大学数学系教授。1983年毕业于复旦大学数学系,1986年在中国科学院计算中心获硕士学位,1991年在美国马里兰大学获博士学位。研究范围包括计算数学、应用数学及其在工程上的应用,已发表论文上百篇,并在世界多家知名出版社出版教材和专著十余部。

目录

第1章 泰勒多项式 1
1.1 泰勒多项式 1
1.2 泰勒多项式的逼近误差 8
1.3 多项式求值 18第2章 误差和计算机算术运算 26
2.1 浮点数 26
2.1.1 浮点表示的精度 29
2.1.2 舍入和截断 30
2.1.3 浮点算术运算程序设计的结果 31
2.2 误差:定义、来源和例题 34
2.2.1 误差的来源 36
2.2.2 有效数字损失的误差 38
2.2.3 函数求值中的噪声 41
2.2.4 下溢误差和上溢误差 42
2.3 误差的传播 45
2.4 求和 51
2.4.1 舍入与截断的比较 52
2.4.2 循环误差 54
2.4.3 内积的计算 55

第3章 求根 58
3.1 对分法 59
3.2 牛顿法 64
3.2.1 误差分析 67
3.2.2 误差估计 69
3.3 割线法 73
3.3.1 误差分析 75
3.3.2 牛顿法和割线法的比较 77
3.3.3 MATLAB函数fzero 78
3.4 不动点迭代 79
3.4.1 艾特肯误差估计和外推 85
3.4.2 高阶迭代公式 87
3.5 病态的求根问题 90

第4章 插值和逼近 97
4.1 多项式插值 97
4.1.1 线性插值 98
4.1.2 二次插值 99
4.1.3 高次插值 101
4.1.4 差商 102
4.1.5 差商的性质 104
4.1.6 牛顿差商插值公式 106
4.2 多项式插值的误差 114
4.2.1 另一个误差公式 116
4.2.2 误差的性态 117
4.3 插值样条函数 121
4.3.1 样条插值 122
4.3.2 插值的自然三次样条的构造 123
4.3.3 其他插值样条函数 125
4.3.4 MATLAB程序 spline  127
4.4 最佳逼近问题 132
4.5 切比雪夫多项式 137
4.5.1 三项递推关系 138
4.5.2 最小取值范围性质 139
4.6 近似极小极大逼近方法 141
4.7 最小二乘逼近 148
4.7.1 勒让德多项式 150
4.7.2 求解最小二乘逼近 152
4.7.3 一般的最小二乘逼近 153

第5章 数值积分和数值微分 156
5.1 梯形法和辛普森法 156
5.2 误差公式 168
5.2.1 梯形法误差的渐近估计 169
5.2.2 辛普森法的误差公式 171
5.2.3 理查森外推法 173
5.2.4 周期被积函数 174
5.3 高斯数值积分 180
5.4 数值微分 192
5.4.1 利用插值的微分 193
5.4.2 待定系数法 194
5.4.3 函数值误差的影响 196

第6章 线性方程组数值求解 200
6.1 线性方程组 200
6.2 矩阵算术运算 204
6.2.1 算术运算 205
6.2.2 初等行运算 208
6.2.3 矩阵的逆 209
6.2.4 矩阵代数法则 211
6.2.5 线性方程组的可解性理论 213
6.3 高斯消元法 218
6.3.1 部分选主元 222
6.3.2 逆矩阵的计算 225
6.3.3 运算量 228
6.4  LU分解 233
6.4.1 高斯消元法的紧凑变形 235
6.4.2 三对角方程组 237
6.4.3 解线性方程组的MATLAB内置函数 240
6.5 解线性方程组中的误差 243
6.5.1 残差校正方法 245
6.5.2 解线性方程组中的稳定性 246
6.6 迭代法 251
6.6.1 雅可比法和高斯——赛德尔法 251
6.6.2 一般的迭代格式 253
6.6.3 残差校正方法 257

第7章 数值线性代数:续篇 264
7.1 最小二乘数据拟合 264
7.1.1 线性最小二乘逼近 266
7.1.2 多项式最小二乘逼近 267
7.2 本征值问题 275
7.2.1 特征多项式 277
7.2.2 对称矩阵的本征值 279
7.2.3 非对称本征值问题 280
7.2.4 幂法 282
7.2.5 幂法的收敛性 283
7.2.6 MATLAB本征值计算 286
7.3 非线性方程组 291
7.3.1 牛顿法 292
7.3.2 一般方程组的牛顿法 296
7.3.3 修正牛顿法 299

第8章 常微分方程数值解 303
8.1 常微分方程理论简介 303
8.1.1 一般可解性理论 307
8.1.2 初值问题的稳定性 307
8.1.3 方向场 310
8.2 欧拉方法 312
8.3 欧拉方法的收敛性分析 318
8.3.1 渐近误差分析 322
8.3.2 理查森外推 323
8.4 数值稳定性, 隐式方法 325
8.4.1 向后欧拉方法 327
8.4.2 梯形方法 331
8.5 泰勒方法和龙格——库塔方法 337
8.5.1 龙格——库塔方法 340
8.5.2 误差预报和控制 343
8.5.3 MATLAB内置函数 346
8.6 多步法 350
8.7 微分方程组 357
8.7.1 高阶微分方程 359
8.7.2 方程组的数值方法 361
8.8 两点边值问题的有限差分法 365

第9章 偏微分方程的有限差分法 373
9.1 泊松方程 374
9.2 一维热传导方程 386
9.2.1 半离散化 386
9.2.2 显式全离散化 387
9.2.3 隐式全离散化 392
9.3 一维波动方程 398

附录A 中值定理 406

附录B 数学公式 412
B.1 代数 412
B.2 几何 413
B.3 三角 414
B.4 微积分 417

附录C 数值分析软件包 420
C.1 商用软件包 420
C.2 共享软件包 420
C.3 交互的数值计算环境 423
C.4 符号计算环境 424
C.5 数学软件的文献 424

附录D MATLAB简介 425
附录E 二进制数系 432
E.1 从十进制到二进制的转换 434
E.2 十六进制数系 435
部分习题答案 438
参考文献 456
索引 458

序言

本书是一本数值分析的入门教材,适合数学和其他理工科专业的大学生使用。学生应具备的主要的基础知识是一元函数微积分的一学年课程所讲的内容,也要求对计算机有些了解,本书可用于大学本科生的数值分析课程,本书最后四章介绍线性代数、常微分方程和偏微分方程的数值方法,对这些题材的背景知识有所了解是很有用的,当然最后四章也有对这些题材理论方面必要的介绍。
学生选读数值分析课程有各种各样的原因,某些人在学习其他科目、从事研究工作或者在他们的专业中需要数值分析,另一些入学习它则是为了扩充其科学计算知识,我们讲授这门课时,给学生设置了几个目标。首先,他们将对解决数值分析基本问题(如各章标题所述)的一些数值方法有初步的了解并能运用;其次,他们将了解误差概念并懂得为什么需要分析和预估误差;第三,他们将逐步积累用计算机实现数值方法的某些经验,这些经验应该包括理解计算机算术运算及其结果。
本书包含数值分析课程中大部分标准主题,而且也探究了本学科的一些重要的基础论题.其中包括复杂问题用比较简单的问题逼近、算法的构造、迭代法、误差分析、稳定性、渐近误差公式以及机器算术运算的结果。考虑到课程的层次,重点放在对于问题本身和用于求解这些问题的数值方法的直观理解上,我们精心选择了例子来帮助加深这种理解、而不仅仅为了说明算法,我们只在证明足够简单和对结果的直观理解有所帮助时才会给出证明。
关于计算机程序设计,数值分析入门课程中首选的语言是MATLAB,附录D简要介绍了MATLAB;而教材中的程序是更深入的例子,.我们鼓励学生修改这些程序并把它们作为编写自己的MATLAB程序的模型,作者讲授这门课程时,还提供一些在线MATLAB学习材料的网站链接。
在书中包含MATLAB程序有多种原因。首先,它们用于说明算法的构造,其次,可以节省学生的时间,避免他们编写过多的程序,从而有更多时间实践这些数值方法。毕竟,课程的重心应该是数值分析而不是学习如何编程,第三,这些程序提供MATLAB语言的例子以及使用MATLAB时一些比较好的程序设计实践的例子。当然,学生们应该自己编写一些程序,有些程序可以通过简单修改教材中的一些程序而得到,例如,修改梯形求积法的程序可以得到中点法的程序,而其他程序则是需要较多原创的。

文摘

插图:


第1章 泰勒多项式
数值分析使用的结论与方法来自数学的许多领域,特别是微积分和线性代数.本章介绍一个来自微积分的非常有用的工具——泰勒定理.这个工具对本书中讨论的许多数值方法的形成和理解是十分必要的。
1.1节引入泰勒多项式作为其他函数近似求值的一个方法;1.2节给出求泰勒多项式逼近误差的精确公式——泰勒定理,最后在1.3节中,我们首先讨论如何求多项式的值,然后以一个具体的函数为例推导和分析一个可计算的多项式逼近。
代数和微积分的其他有关知识在附录中给出,附录A复习中值定理,附录B复习微积分、代数、几何、三角函数的其他一些内容。
我们可以用多种计算机语言编写程序,实施本教材中学到的数值方法.最重要的基本计算机语言是C、C++、JaVa以及Fortran。本教材中使用一种高级语言,用它在求解数学问题实施数值分析过程中更容易处理我们需要的数学结构,这种语言是MATLAB,它广泛使用在各种类型的计算机上,本教材提供许多MATLAB程序的例子,我们鼓励学生使用这些程序,并修改它们解决类似的任务,附录D非常简要地介绍MATLAB,并列出一些更详尽地介绍MATLAB的文献。

]]>
数据挖掘图书:数据挖掘概念与技术(原书第2版) [平装] //www.otias-ub.com/archives/34332.html Tue, 24 Apr 2012 10:59:19 +0000 //www.otias-ub.com/?p=34332

内容简介

  本书全面地讲述数据挖掘领域的重要知识和技术创新。在第1版内容相当全面的基础上,第2版展示了该领域的最新研究成果,例如挖掘流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。
本书第1版曾是受读者欢迎的数据挖掘专著,是一本可读性极佳的教材。第2版充实了数据挖掘领域研究新进展的题材,增加了讲述最新的数据挖掘方法的若干章节。本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材。

编辑推荐

  本书全面地讲述数据挖掘领域的重要知识和技术创新。在第1版内容相当全面的基础上,第2版展示了该领域的最新研究成果,例如挖掘流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。
本书第1版曾是受读者欢迎的数据挖掘专著,是一本可读性极佳的教材。第2版充实了数据挖掘领域研究新进展的题材,增加了讲述最新的数据挖掘方法的若干章节。本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材。

作者简介

作者:(加)Jiawei Han (加)Micheline Kamber 译者:范明 孟小峰

Jiawei Han,伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系教授。由于在数据挖掘和数据库系统领域卓有成效的研究工作,他曾多次获得各种荣誉和奖励,其中包括2004年ACM SIGKDD颁发的创新奖。同时,他还是ACM《Transactions on Knowledge Discovery from Data》的主编,以及IEEE《Transactions on Knowledge and Data Engineering》和《Data Mining and Knowledge Discovery》的编委会成员。

目录

出版者的话
专家指导委员会
中文版序
译者序

前言
第1章 引言
1.1 什么激发了数据挖掘,为什么它是重要的
1.2 什么是数据挖掘
1.3 对何种数据进行数据挖掘
1.3.1 关系数据库
1.3.2 数据仓库
1.3.3 事务数据库
1.3.4 高级数据和信息系统与高级应用
1.4 数据挖掘功能—可以挖掘什么类型的模式
1.4.1 概念/类描述:特征化和区分
1.4.2 挖掘频繁模式、关联和相关
1.4.3 分类和预测
1.4.4 聚类分析
1.4.5 离群点分析
1.4.6 演变分析
1.5 所有模式都是有趣的吗
1.6 数据挖掘系统的分类
1.7 数据挖掘任务原语
1.8 数据挖掘系统与数据库系统或数据仓库系统的集成
1.9 数据挖掘的主要问题
1.10 小结
习题
文献注释
第2章 数据预处理
2.1 为什么要预处理数据
2.2 描述性数据汇总
2.2.1 度量数据的中心趋势
2.2.2 度量数据的离散程度
2.2.3 基本描述数据汇总的图形显示
2.3 数据清理
2.3.1 缺失值
2.3.2 噪声数据
2.3.3 数据清理作为一个过程
2.4 数据集成和变换
2.4.1 数据集成
2.4.2 数据变换
2.5 数据归约
2.5.1 数据立方体聚集
2.5.2 属性子集选择
2.5.3 维度归约
2.5.4 数值归约
2.6 数据离散化和概念分层产生
2.6.1 数值数据的离散化和概念分层产生
2.6.2 分类数据的概念分层产生
2.7 小结
习题
文献注释
第3章 数据仓库与OLAP技术概述
3.1 什么是数据仓库
3.1.1 操作数据库系统与数据仓库的区别
3.1.2 为什么需要分离的数据仓库
3.2 多维数据模型
3.2.1 由表和电子数据表到数据立方体
3.2.2 星形、雪花形和事实星座形模式:多维数据库模式
3.2.3 定义星形、雪花形和事实星座形模式的例子
3.2.4 度量的分类和计算
3.2.5 概念分层
3.2.6 多维数据模型中的OLAP操作
3.2.7 查询多维数据库的星形网查询模型
3.3 数据仓库的系统结构
3.3.1 数据仓库的设计和构造步骤
3.3.2 三层数据仓库的系统结构
3.3.3 数据仓库后端工具和实用程序
3.3.4 元数据储存库
3.3.5 OLAP服务器类型:ROLAP、MOLAP与HOLAP
3.4 数据仓库实现
3.4.1 数据立方体的有效计算
3.4.2 索引OLAP数据
3.4.3 OLAP查询的有效处理
3.5 从数据仓库到数据挖掘
3.5.1 数据仓库的使用
3.5.2 由联机分析处理到联机分析挖掘
3.6 小结
习题
文献注释
第4章 数据立方体计算与数据泛化
4.1 数据立方体计算的有效方法
4.1.1 不同类型立方体物化的路线图
4.1.2 完全立方体计算的多路数组聚集
4.1.3 BUC:从顶点方体向下计算冰山立方体
4.1.4 Star-Cubing:使用动态星形树结构计算冰山立方体
4.1.5 为快速高维OLAP预计算壳片段
4.1.6 计算具有复杂冰山条件的立方体
4.2 数据立方体和OLAP技术的进一步发展
4.2.1 数据立方体的发现驱动的探查
4.2.2 在多粒度的复杂聚集:多特征立方体
4.2.3 数据立方体中被约束的梯度分析
4.3 面向属性的归纳—另一种数据泛化和概念描述方法
4.3.1 数据特征化的面向属性的归纳
4.3.2 面向属性归纳的有效实现
4.3.3 导出泛化的表示
4.3.4 挖掘类比较:区分不同的类
4.3.5 类描述:特征化和比较的表示
4.4 小结
习题
文献注释
第5章 挖掘频繁模式、关联和相关
5.1 基本概念和路线图
5.1.1 购物篮分析:引发性例子
5.1.2 频繁项集、闭项集和关联规则
5.1.3 频繁模式挖掘:路线图
5.2 有效的和可伸缩的频繁项集挖掘方法
5.2.1 Apriori算法:使用候选产生发现频繁项集
5.2.2 由频繁项集产生关联规则
5.2.3 提高Apriori算法的效率
5.2.4 不候选产生挖掘频繁项集
5.2.5 使用垂直数据格式挖掘频繁项集
5.2.6 挖掘闭频繁项集
5.3 挖掘各种类型的关联规则
5.3.1 挖掘多层关联规则
5.3.2 从关系数据库和数据仓库挖掘多维关联规则
5.4 由关联挖掘到相关分析
5.4.1 强关联规则不一定有趣:一个例子
5.4.2 从关联分析到相关分析
5.5 基于约束的关联挖掘
5.5.1 关联规则的元规则制导挖掘
5.5.2 约束推进:规则约束制导的挖掘
5.6 小结
习题
文献注释
第6章 分类和预测
6.1 什么是分类,什么是预测
6.2 关于分类和预测的问题
6.2.1 为分类和预测准备数据
6.2.2 比较分类和预测方法
6.3 用决策树归纳分类
6.3.1 决策树归纳
6.3.2 属性选择度量
6.3.3 树剪枝
6.3.4 可伸缩性与决策树归纳
6.4 贝叶斯分类
6.4.1 贝叶斯定理
6.4.2 朴素贝叶斯分类
6.4.3 贝叶斯信念网络
6.4.4 训练贝叶斯信念网络
6.5 基于规则的分类
6.5.1 使用IF-THEN规则分类
6.5.2 从决策树提取规则
6.5.3 使用顺序覆盖算法的规则归纳
6.6 用后向传播分类
6.6.1 多层前馈神经网络
6.6.2 定义网络拓扑
6.6.3 后向传播
6.6.4 黑盒内部:后向传播和可解释性
6.7 支持向量机
6.7.1 数据线性可分的情况
6.7.2 数据非线性可分的情况
6.8 关联分类:基于关联规则分析的分类
6.9 惰性学习法(或从近邻学习)
6.9.1 k最近邻分类法
6.9.2 基于案例的推理
6.10 其他分类方法
6.10.1 遗传算法
6.10.2 粗糙集方法
6.10.3 模糊集方法
6.11 预测
6.11.1 线性回归
6.11.2 非线性回归
6.11.3 其他基于回归的方法
6.12 准确率和误差的度量
6.12.1 分类器准确率度量
6.12.2 预测器误差度量
6.13 评估分类器或预测器的准确率
6.13.1 保持方法和随机子抽样
6.13.2 交叉确认
6.13.3 自助法
6.14 系综方法—提高准确率
6.14.1 装袋
6.14.2 提升
6.15 模型选择
6.15.1 估计置信区间
6.15.2 ROC 曲线
6.16 小结
习题
文献注释
第7章 聚类分析
7.1 什么是聚类分析
7.2 聚类分析中的数据类型
7.2.1 区间标度变量
7.2.2 二元变量
7.2.3 分类、序数和比例标度变量
7.2.4 混合类型的变量
7.2.5 向量对象
7.3 主要聚类方法的分类
7.4 划分方法
7.4.1 典型的划分方法:k均值和k中心点
7.4.2 大型数据库的划分方法:从k中心点到CLARANS
7.5 层次方法
7.5.1 凝聚和分裂层次聚类
7.5.2 BIRCH:利用层次方法的平衡迭代归约和聚类
7.5.3 ROCK:分类属性的层次聚类算法
7.5.4 Chameleon:利用动态建模的层次聚类算法
7.6 基于密度的方法
7.6.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类方法
7.6.2 OPTICS:通过点排序识别聚类结构
7.6.3 DENCLUE:基于密度分布函数的聚类
7.7 基于网格的方法
7.7.1 STING:统计信息网格
7.7.2 WaveCluster:利用小波变换聚类
7.8 基于模型的聚类方法
7.8.1 期望最大化方法
7.8.2 概念聚类
7.8.3 神经网络方法
7.9 聚类高维数据
7.9.1 CLIQUE:维增长子空间聚类方法
7.9.2 PROCLUS:维归约子空间聚类方法
7.9.3 基于频繁模式的聚类方法
7.10 基于约束的聚类分析
7.10.1 含有障碍物的对象聚类
7.10.2 用户约束的聚类分析
7.10.3 半监督聚类分析
7.11 离群点分析
7.11.1 基于统计分布的离群点检测
7.11.2 基于距离的离群点检测
7.11.3 基于密度的局部离群点检测
7.11.4 基于偏差的离群点检测
7.12 小结
习题
文献注释
第8章 挖掘流、时间序列和序列数据
8.1 挖掘数据流
8.1.1 流数据处理方法和流数据系统
8.1.2 流OLAP和流数据立方体
8.1.3 数据流中的频繁模式挖掘
8.1.4 动态数据流的分类
8.1.5 聚类演变数据流
8.2 时间序列数据挖掘
8.2.1 趋势分析
8.2.2 时间序列分析中的相似性搜索
8.3 挖掘事务数据库中的序列模式
8.3.1 序列模式挖掘:概念和原语
8.3.2 挖掘序列模式的可伸缩方法
8.3.3 基于约束的序列模式挖掘
8.3.4 时间相关序列数据的周期性分析
8.4 挖掘生物学数据中的序列模式
8.4.1 生物学序列比对
8.4.2 生物学序列分析的隐马尔可夫模型
8.5 小结
习题
文献注释
第9章 图挖掘、社会网络分析和多关系数据挖掘
9.1 图挖掘
9.1.1 挖掘频繁子图的方法
9.1.2 挖掘变体和约束子结构的模式
9.1.3 应用:图索引、相似性搜索、分类和聚类
9.2 社会网络分析
9.2.1 什么是社会网络
9.2.2 社会网络的特征
9.2.3 链接挖掘:任务和挑战
9.2.4 挖掘社会网络
9.3 多关系数据挖掘
9.3.1 什么是多关系数据挖掘
9.3.2 多关系分类的ILP方法
9.3.3 元组ID传播
9.3.4 利用元组ID传播进行多关系分类
9.3.5 用户指导的多关系聚类
9.4 小结
习题
文献注释
第10章 挖掘对象、空间、多媒体、文本和Web数据
10.1 复杂数据对象的多维分析和描述性挖掘
10.1.1 结构化数据的泛化
10.1.2 空间和多媒体数据泛化中的聚集和近似
10.1.3 对象标识和类/子类层次的泛化
10.1.4 类复合层次泛化
10.1.5 对象立方体的构造与挖掘
10.1.6 用分治法对规划数据库进行基于泛化的挖掘
10.2 空间数据挖掘
10.2.1 空间数据立方体构造和空间OLAP
10.2.2 挖掘空间关联和并置模式
10.2.3 空间聚类方法
10.2.4 空间分类和空间趋势分析
10.2.5 挖掘光栅数据库
10.3 多媒体数据挖掘
10.3.1 多媒体数据的相似性搜索
10.3.2 多媒体数据的多维分析
10.3.3 多媒体数据的分类和预测分析
10.3.4 挖掘多媒体数据中的关联
10.3.5 音频和视频数据挖掘
10.4 文本挖掘
10.4.1 文本数据分析和信息检索
10.4.2 文本的维度归约
10.4.3 文本挖掘方法
10.5 挖掘万维网
10.5.1 挖掘Web页面布局结构
10.5.2 挖掘Web链接结构识别权威Web页面
10.5.3 挖掘Web上的多媒体数据
10.5.4 Web文档的自动分类
10.5.5 Web使用挖掘
10.6 小结
习题
文献注释
第11章 数据挖掘的应用和发展趋势
11.1 数据挖掘的应用
11.1.1 金融数据分析的数据挖掘
11.1.2 零售业的数据挖掘
11.1.3 电信业的数据挖掘
11.1.4 生物学数据分析的数据挖掘
11.1.5 其他科技应用的数据挖掘
11.1.6 入侵检测的数据挖掘
11.2 数据挖掘系统产品和研究原型
11.2.1 如何选择数据挖掘系统
11.2.2 商用数据挖掘系统的实例
11.3 数据挖掘的其他主题
11.3.1 数据挖掘的理论基础
11.3.2 统计学数据挖掘
11.3.3 可视数据和音频数据挖掘
11.3.4 数据挖掘和协同过滤
11.4 数据挖掘的社会影响
11.4.1 无处不在和无形的数据挖掘
11.4.2 数据挖掘、隐私和数据安全
11.5 数据挖掘的发展趋势
11.6 小结
习题
文献注释
附录 微软用于数据挖掘的OLE DB简介
A.1 模型创建
A.2 模型训练
A.3 模型预测和浏览
索引

]]>
数据分析图书:《数据分析速成》Head First Data Analysis //www.otias-ub.com/archives/33229.html Sat, 21 Apr 2012 12:39:07 +0000 //www.otias-ub.com/?p=33229

内容介绍:

今天对于企业和组织来说,数据分析已经成为决策制定的关键因素。对于非数据分析专业人士而言,如果你的工作需要管理和分析各种数据,可以参考这本《数据分析速成》,通过该书可以快速学会如何收集和管理数据、在庞杂数据中披沙拣金、找到事实和有价值的模型、得出结论、预测未来,向同事展示你的分析成果。

无论你是一位产品经理调查产品的市场前景,还是一位市场经理评估一次市场推广活动的效果,亦或一位销售经理在产品演示时需要数据支持,还是一位全能创业家需要应付以上所有类型数据,你都可以通过《数据分析速成》(Head First Data Analysis)这本书快速成为数据分析专家,将原始数据转变成对业务至关重要的工具。

内容梗概:

● 信息采集时如何选择数据源

● 评估数据质量,从噪音中发现信号

● 为演示模型建立基本数据模型,并在模型中载入新的信息

● 模糊信息的处理

● 设计实验验证假设并得出结论

● 在不同的市场团队中细分管理数据

● 通过抽样和可能性模型来预测未来

● 清洗数据使之变得更加有用

● 与听众沟通传播你的分析结果

 
购买地址:

]]>