发表于2024-12-22
大数据时代小数据分析 pdf epub mobi txt 电子书 下载
《大数据时代小数据分析》可帮助你学会通过数据分析解决以下问题:
使用手机,用定制机包月还是自费机月付,哪个更省钱?选择哪个电话套餐更适合自己更划算?
为什么出口产品被退运?
如何运用已有的销售数据来确定未来进货,进设备,扩充门面?
鸡兔同笼问题原来还可以这样解决?
假设某家工厂生产某系列3种型号的产品。这3种产品的使用原材料相同,但材料消耗量和产品市场销售价格有所不同,那么如何安排生产能使利润更大化?
某产品如何选择5种原有原料进行配比可以使得产品满足质量要求的情况下成本更小?
如何测算投资更大收益化?
如何做一个精明的老板,如何决定各种产品生产的数量以获取更大的利润?
如何根据今年的销售确定明年进货才能使利润更大化?
公司如何搬家又省力又省钱,还能照顾所有人情绪?
吃海参能让人变聪明吗?
用户调查当中如何知道支出与收入有什么关系?
如何配比各种原料使产品的用户体验更佳?
咖啡商如何添加辅料,既可以改善口感,又可以降低咖啡因含量?
如何选择适合自己的早餐?
海拔是否影响血压?
哪些熊猫已足够强壮到可以适应野外生活?
如何找男友?
《大数据时代小数据分析》是一本大数据时代下进行小数据分析的入门级教材,通过数据分析的知识点,将各类分析工具进行串联和对比,例如:在进行线性规划的时候可以选择使用Excel或LINGO或Crystal Ball。工具的应用难易结合,让读者循序渐进地学习相关工具。JMP和Mintab用来分析数据,分析的结果使用Excel、LINGO、Crystal Ball来建立数据模型,最后使用Xcelsius来动态展示数据分析的结果。《大数据时代小数据分析》中以两个人的对话为叙述方式,场景描写多,容易进入学习状态,完全是用生动的故事和实用的案例尽可能地贴近生活和工作,让数据分析生动有趣,基本上有高中数学知识就可以理解线性规划等数据分析内容。
《大数据时代小数据分析》不仅介绍Excel而且介绍使用其他工具软件进行数据分析,可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知,也适合初中级数据分析师或者想进入数据分析行业的有志之士参考阅读。
屈泽中,化工专业,数据分析爱好者,爱好使用工具探索数据背后的秘密,略懂Excel、LINGO、Crystal Ball、JMP、Minitab、Xcelsius,工作十余年,一直从事将数据分析与各类业务相结合的研究和学习。
第1章 知己知彼,百战不殆――风险与预测分析 1
1.1 预测从世界杯开始 2
1.2 手机绑定消费的秘密 5
1.3 笔记本电脑出国冒险记 25
1.4 慧眼识分布 36
1.5 分布72变 47
1.6 做最优秀的面包店长 74
第2章 运筹帷幄,决胜千里――效益最大化 101
2.1 换个思路来数鸡 102
2.2 做一个精明的农场主 128
2.3 见识LINGO与Crystal Ball的威力 146
第3章 图个明白,精彩展现――JMP精彩图表 192
3.1 图个明白――常用图形 194
3.2 图个明白――树图 208
3.3 图个明白―― SPC图 214第4章 抽丝剥茧,明察秋毫――相关分析 227
4.1 假设检验――大胆假设,小心求证 228
4.1.1 小心求证―均值检验 235
4.1.2 小心求证―比例检验 252
4.1.3 小心求证―非参数检验 261
4.2 相关与回归分析 272
4.2.1 相关性与第三方变量 272
4.2.2 收入与支出关系―简单线性回归 280
4.2.3 最佳口感食品配方―多元线性回归 283
4.2.4 咖啡好喝,不能多喝―非线性回归 290
4.2.5 预防心血管疾病从减肥开始―二值Logistic回归分析 295
4.3 人以类聚,物以群分――聚类分析 300
4.3.1 美好一天从早餐开始―观测值聚类分析 302
4.3.2 海拔是否影响血压―变量聚类分析 305
4.3.3 为熊猫分类―K均值聚类分析 307
第5章 要里子,也要面子――数据展现的艺术 311
5.1 哪种水果更好卖 314
5.2 书店利润最大化 327
5.3 非诚勿扰――最佳男友模型 337
做最优秀的面包店长
花小姐的面包店是一家位于上海浦东区且迅速增长的面包店,它设立于2007年3月。花小姐是一个非常细心的店长,从开业以来一直在Excel工作簿中仔细记录店内3种主要产品的销售数据,即法式面包、意大利式面包和匹萨。经过几年的经营积累,她的门店已经小有规模。现在她想改进,但是受库存地点限制必须预测未来的产品市场,并依此对人员和库存等进行战略性和长远的决策。决策的依据基于她所做的数据积累,即通过分析数据中的规律来改进。
花小姐预测的最初目的是要保持足够的原料,以满足店内生产的要求。以往面包原材料会定期向供应商购买,并在大量购买时得到折扣。如果店内产品销售过旺,原材料就会紧缺;反之会有多余库存。所以必须保持库存和产品的平衡,以保证产品始终用最新鲜的配料来进行生产。
3种产品需要的原料大致一样,主要是面粉、酵母和食盐。如果不预测市场,就会导致原材料的需求量忽高忽低。原材料供应商也有可能会因此提高价格,所以预测产品市场不仅仅能保证材料的新鲜度,还能最大程度地降低成本。
有了对产品市场的预测,花小姐需要购买原材料时也能保证其产品的质量,因此需要有效地预测未来的销售收入。她在Excel电子表中记录了每种产品从2007年3月份开始至今的日常销售数据并保存在“面包店经营”工作簿的“销售数据”工作表中。
花小姐以表中的原始数据为基础,将自2007年以来的原始数据整理为3种产品以周为时间周期的数据。周产品销售数据保存在“运营”工作表中,并且注明了原料的名称。通过创建这个数据表花小姐想对未来几周的产品的销售情况进行预测,周销售数据表如图1-110所示。
该面包店已经收到这个月的订货,花小姐必须要在这个月确定本月和下个月的原材料订单,因此必须预测未来两个月内的销售。她现在有173 周的销售数据,需要预测未来8周的销售数据。
(1)建立Excel模型
在未来两个月花小姐没有调整产品价格的计划,每种产品的单位质量和单价不变,因此预测原料的需求量首先要知道3种商品的销售量。建立该数学模型的思路为:商品销售预测→商品重量预测→原材料预测。
说明如下。
单元格B39:E213区域为2007年3月份以来3种产品每周的销售数据。
C9单元格用于统计预测的未来4周内法式面包的销售收入,在其中输入“=SUM(INDEX($B$41:$E$299,$C$3,2):INDEX($B$41:$E$299,$C$3+3,2))”。
在C3单元格内输入开始的周数,初始设置为174,即最后一周。
C10单元格用于统计预测未来4周内意大利式面包的销售收入,C11单元格用于统计预测未来4周内匹萨的销售收入。
D9:D11单元格区域内为每种商品的销售单价,这样用销售收入除以单价即可知道销售数量。
在E9单元格内输入公式“=C9/D9”,其他依此类推;F9:F11单元格为每种商品的单位重量,数量乘以单位重量可以知道每种商品的重量;在G9单元格内输入公式“=E9*F9”,其他依此类推。
B14:E27单元格区域计算每种商品需要的原料,按照每种商品需要的原料组成计算;在C15单元格内引用G9单元格数据;在E16单元格内输入公式“=$C$15*D16”计算法式面包需要的原料面粉的数量,其他原料成分计算依此类推;在D31单元格内输入公式“=SUM(E16,E20,E24)”将3种商品的面粉原料求和,这是需要供应商提供的原料采购的数据。
(2)预测设置
选择B39:E213单元格区域内的任一单元格,选择Crystal Ball菜单中的【Predictor】选项。
系统自动选择数据表格所在的位置,单击【Next】按钮,选择【Data Attributes】选项。
保留系统默认值,单击【Next】按钮,显示【Methods】视图。
该视图主要用于设置数据预测的方法,有时间序列的数据选择【Non-seasonal Methods】和【Seasonal Methods】选项。
(3)查看分析结果
在【View】下拉菜单中选择有关选项查看各产品的销售情况,法式面包明显有趋势而无周期;意大利式面包既有周期,也有趋势性。为了预测准确,选择所有预测方法,由系统来确定最佳的方案。选择【ARIMA】复选框,单击【Run】按钮。
每种产品的预测数据不同,使用的方法也不同。在预测周期【Periods to forecast】微调框中设置8,即预测8个周期。【Method】下拉列表框中显示最佳的分析方法,单击【Paste】按钮保存预测结果。
在【Location】选项组中选择将预测数据放在原历史数据的后面或指定单元格区域,选择【At end of historical data】单选按钮。单击【OK】按钮,3组预测数据复制到“运营”工作表中的数据表中。
3种商品的预测重量及原料的采购数量在数据模型中均已完成计算。
根据在模型中预测计算出未来两个月的原材料需求量,此时一定会根据现有的库存和原材料的新鲜程度来指定最佳的订货数量。
现金流对于门店经营的重要性不言而喻,花小姐也会详细记录每个月的现金流。这样不仅可以帮助她管理预估库存,并且用它来预测门店的收入使她的现金流动情况变得更好,更好地了解面包店的现金流量会帮助其更好地控制主要资本支出。如果花小姐想在门店内新增设备或仓库等,则必须要了解接下来几个月的现金流情况。
简单来讲,现金流就是除去开支每月的剩余资金。如果用公式来解释,就是销售收入-门店成本和其他开支。门店成本主要包括商品成本和税赋成本,商品成本中又包括固定成本和变动成本。这需要我们建立数据模型,其他开支是花小姐扩大规模带来的那些支出。
花小姐认为主要有两个方面的支出,即面粉和运费。她想开始在7月份囤积一些油,为此需要增加一个筒仓。并且在8月份购买一辆新的面包车以方便在附近社区送货,她需要预测何时可以实施这些项目计划或是否需要再等一段时间。
在“现金流”工作表中给出了面包店从2007年以来的现金流量情况,并且花小姐将3种主要商品的销售数据按照月份为周期制作了一个数据透视表。当然以月份为周期的销售数据也是基于日销售表的基础上计算出来的,可见原始数据的积累是多么重要。现在她需要预测未来3个月的收入来计算现金流的情况后决定费用的支出,并且为了保证门店的正常运营,每月末店内的净现值必须大于20 000美元。
操作步骤如下。
(1)建立Excel数据模型
确定现金流首先要确定各成本,成本由商品与税费成本组成。每类成本又由固定成本与可变成本组成,两类成本的固定成本均已知。只有变动成本不知,而它均与销售收入有关,因此该数学模型的思路为收入预测→计算成本→每月现金流→决策。
在Excel中的“现金流”工作表中建立模型。
现金流的Excel模型说明如下。
单元格B33:AP36区域为2007年3月开始以月度为时间周期的历史销售收入数据。
E4:G4单元格区域为预测未来3个月的销售收入数据。
B8:G16单元格区域为每个月店内的成本。
成本包括商品成本和间接成本,商品成本主要指原料的采购成本。其中的固定成本指店面租金等,为$6707/月。商品可变成本与销售收入有关,按照经验估计可变成本占销售收入的23%。在E10单元格内输入公式“=$D10*E$4”,即7月份的商品可变成本。其他月份商品的可变成本依次类推;间接成本主要包括设备折旧等费用,为$8924/月。按照经验间接可变成本占销售收入的比例约为18%。税收比例为5%,增值税比例为17%。
在E13单元格内输入公式“=$D10*E$4”表示7月间接可变成本费用。
在E14单元格内输入公式“=E$4*$D14”表示7月份的税收费用。
在E15单元格内输入公式“=E$4*$D15”表示7月份增值税的费用。
在E16单元格内输入公式“=SUM(E8:E15)”表示7月份店内的总费用。
其他月份的间接成本计算依此类推。
7月份计划囤油需要筒仓,需投资$50 000,数据输入至E20单元格;8月份新购面包车及新增仓库施工的一次性投资为$35 000,数据输入至F21单元格。每月的现金流=销售收入?总费用?投资。在E24单元格内输入公式“=E4-E16-SUM(E20:E21)”表示7月份的现金流。假设7月初的净现值为$42 941,则输入至E26单元格。在E27单元格内输入公式“=E26+E24”表示7月末的净现值,其他月份依此类推。
(2)预测设置
由于现金流的预测依然按照时间序列分析方法进行,因此在Crystal Ball中设置预测器的方法与上面案例相同。操作步骤与库存控制相同,如图1-120所示。
此时预测周期为3,即只需要预测未来3个月的销售收入。预测完成后将预测数据放置在表格最后。
预测完成未来3个月的销售收入。按照Excel的数学模型,如果7月份需要投资$50 000,8月份需要投资$35 000且7月份的月初净现值$42 941计算,则每月月末的净现值。
从计算结果来看,9月末的净现值$35 452满足最低现金目标$20 000的需求。但8月末的净现值$11 833不能满足最小现金目标,7月末的净现值$19 536也与最小现金目标接近。这些数据均是Excel中单个数据的计算结果,不能代表现金流的风险。门店管理者要知道的是风险的概率、因此需要设置假设变量。
(3)设置假设变量
在现金流中的主要不确定因素有商品成本中的可变成本的比率、间接成本中的可变成本的比率及税收的比率;另外,还有一个重要的不确定因素是预测的销售收入。该输入也是一个数据概率,而不仅仅是一个数值,因此我们需要设置以上假设变量。在Crystal Ball预测结束后可以直接将预测结果设置为假设变量,并使用时间序列分析的预测值序列。CB Predictor 默认会得到一个正态分布的假设。
在预测运行之后单击【Paste】按钮粘贴数据时选择【Paste Forecasts as Crystal Ball assumptions】复选框,预测值自动设置成以单元格数据为均值的正态分布。
将商品成本中的可变成本、税赋中的可变成本及增值税率设置为假设变量。
D10单元格设置最小值为13%,最大值为26%,最可能值为20%的三角形分布;D13单元格设置成均值为12%,标准差为1%的正态分布;D14单元格设置成均值为5%,标准差为1%的正态分布;D14单元格设置成均值为22%,标准差为2%的正态分布。
……
笔者自2008年的一个偶然机会第1次接触“数据挖掘”(DataMining)这个新名词以来,在数据挖掘应用相关领域度过了6年。笔者的专业是化工,整天应该与塔、釜、换热器、化学反应和物料守恒等打交道。开始接触这个专业的目的是为了利用数据分析的一些功能来优化生产运营,让企业以更高的效率、更低的成本和更好的质量运营,为此需要数据积累、数据分析和数据模型。
2008年,国内企业在数据挖掘应用中摸索起步,远不如现在大数据火热。如今大数据最火的商业应用主要集中在互联网、银行和电信等领域。基于行业应用限制,笔者无法接触到真正的大数据挖掘,但是幸运的是还是碰到了职业和兴趣的重合点。
这几年的摸索是笔者职业生涯中很重要的一段时光,因此有必要将自己一路走来的心得与体会、感悟和挫折整理出来,一则是对自己的这段职业生涯做一个交代,特别是对一路引导、鼓励和支持笔者的师友和家人;二则是合理地引导类似笔者半道出家的学习者,对数据分析有兴趣却没有深厚的统计学知识和IT功底人士,笔者相信本书的内容对于广大对数据分析应用感兴趣的初学者来说都是一种宝贵经验。在学习数据分析的道路上笔者深刻认识到一个道理,即一个成功的数据分析实践的核心因素不是数据分析技术,而是对业务理解和分析思路。这也是当初学习数据分析的初衷,初学者切不可为数据分析而分析数据。
大数据挖掘需要精通数据库、计算机编程和深厚的统计学基础,有的甚至涉及运筹学范畴,是一门复合型的应用科学。大数据的案例现在是一抓一大把,如国外典型的“啤酒与尿布”的案例,在了解数据分析之前不妨来看看几个有趣的应用案例。
(1)数据新闻让英国撤军
2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”,即将伊拉克战争中所有的人员伤亡情况均标注于地图之上,地图上一个红点代表一次死伤事件。用鼠标单击红点后弹出的窗口则有详细的说明,包括伤亡人数、时间和造成伤亡的具体原因。密布的红点多达39万个,显得格外触目惊心,此新闻一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。
(2)大数据与乔布斯癌症治疗
乔布斯是世界上第1个对自身所有DNA和肿瘤DNA进行排序的人,为此他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了几年的生命。
(3)Google成功预测冬季流感
2009年,Google通过分析5000万条美国人最频繁检索的词汇将其和美国疾病中心在2003—2008年间季节性流感传播时期的数据进行比较。并建立了一个特定的数学模型,最终成功预测了2009冬季流感的传播,甚至可以具体到特定的地区和州。
(4)奢侈品销售
PRADA在纽约的旗舰店中每件衣服上都有RFID码,每当一个顾客拿起一件PRADA进入
试衣间,RFID会被自动识别;同时数据会传至PRADA总部。每一件衣服在哪个城市、哪个旗舰店、什么时间被拿进试衣间和停留多长时间,数据都被存储起来加以分析。如果一件衣服销量很低,以往的做法是直接收回;如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多,则说明这件衣服的下场会截然不同,或者在某个细节的微小改变就会重新制造出一件非常流行的产品。
除了国外这些经常用于商业培训课程的案例外,数据分析其实并不遥远,在国内也不乏应用。例如,共和国的开国元帅林彪就曾经依靠敏锐的数据嗅觉和军事天赋成功捣毁敌营总部。
目前国内的大部分高校还没有开设数据挖掘这门专业课程,大数据分析需要依靠庞大的数据库,即需要各专业的人士通力合作,是一个团队作业。类似笔者这种半道出家的个人学习者在不具备团队协作的条件下,可以在样本数据的分析下工夫,样本数据也可以称为“小数据”,因此本书的名称定为《大数据时代的小数据分析》。
本书主要介绍应用数据分析的一系列工具,如:Excel、LINGO、Crystal Ball、JMP、Minitab和Xcelsius等,涉及的分析有预测、风险分析、优化求解、假设检验、相关分析、回归分析和聚类分析等。但所有这些软件都不是最新版本,如Excel使用2010版;Minitab使用的V15版。在使用软件时最重要的不是版本的最新,而是理解其功能和特点,灵活地运用。即使是Excel 2003版本,只要运用得当,同样能发挥强大的功能。很多不同功能的软件都可以完成,本书主要结合不同软件的不同 大数据时代小数据分析 电子书 下载 mobi epub pdf txt
活动的时候买的,非常实惠
评分好斤斤计较科技哈哈哈
评分东西质量好的,京东的东西确实不错,统一评价了
评分京东速度就是快,而且有些书比当当都便宜,大赞一起买的
评分公司买的图书,会认真学习,希望会有帮助………
评分很好好很好,只是入门篇,菜鸟专用
评分京东的快递还是那么给力,快递小哥辛苦了,希望越做越好,下次继续买买买
评分情景式教学,对话分析,看了几页不枯燥。
评分强烈推荐,适合我这种数据白板,讲解的通俗易懂,也很容易照样练习,京东好评。
大数据时代小数据分析 pdf epub mobi txt 电子书 下载