数据分析基础:从统计学入手数据分析

数据分析基础:从统计学入手数据分析


莱恩7 | 作者

知乎 | 来源

https://zhuanlan.zhihu.com/p/34444750




统计学是在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。如果要学习数据分析,那么扎实的统计知识是必备的。


本文参考《深入浅出统计学》二 、三、 四、 五 章知识,对重点内容进行归纳总结。最后有几个统计概率应用的例子以及使用python分析6家上市公司股票的干货。


1


统计学基础


1.均值

平均数的一般量度:


数据分析基础:从统计学入手数据分析

均值公式


有时候一些数据重复了,这时候需要用到频数:


数据分析基础:从统计学入手数据分析

频数公式


2.中位数


偏斜数据和异常值使均值误导的时候,用它,它是中间值。


3.众数


数据中出现最多的数值。


4.四分数


四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的數值就是四分位数。


注意:由小到大排列。


数据分析基础:从统计学入手数据分析

四分位数



第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)。


5.方差


(variance)统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。


数据分析基础:从统计学入手数据分析

方差


6.标准差(Standard deviation)


离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。


数据分析基础:从统计学入手数据分析

标准差


方差所得的数值之平方根就是总体的标准偏差。


7.标准分


是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。


数据分析基础:从统计学入手数据分析

标准分


2


概率计算


概率是对随机事件发生的可能性的度量,一般以一个在0到1之间的实数表示一个事件发生的可能性大小。


数据分析基础:从统计学入手数据分析

概率


1.对立事件


若A交B为不可能事件,A并B为必然事件,那么称A事件与事件B互为对立事件,其含义是:事件A和事件B必有一个且仅有一个发生。


对立事件概率之间的关系:P(A)+P(B)=1。


例如:在掷骰子试验中,A={出现的点数为偶数},b={出现的点数为奇数},A∩B为不可能事件,A∪B为必然事件,所以A与B互为对立事件。


2.相交事件


有可能同时发生的两件事。


数据分析基础:从统计学入手数据分析

相交事件


3.互斥事件


两件事中只可能发生一件。


抛硬币,正反面是互斥,抛出正面就不可能有反面。


4.独立事件


发生概率不受其他事件影响。


你抛一个硬币三次,结果全是"正面"……下一次抛掷的结果也是"正面"的可能性是多少?


可能性是 ½(0.5),和任何一次抛掷一样。


以前的抛掷不会影响这次抛掷!


数据分析基础:从统计学入手数据分析


贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法。這個名稱來自於托马斯·贝叶斯。


在介绍贝叶斯定理之前,先简单地介绍一下条件概率,描述的是事件 A 在另一个事件 B 已经发生条件下的概率,记作P(A|B), A 和 B 可能是相互独立的两个事件,也可能不是:


数据分析基础:从统计学入手数据分析


3


概率统计的应用


1.期望值


在概率论和统计学中,一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析


2.夏普比率


数据分析基础:从统计学入手数据分析


现代投资理论的研究表明,风险的大小在决定组合的表现上具有基础性的作用。风险调整后的收益率就是一个可以同时对收益与风险加以考虑的综合指标,以期能够排除风险因素对绩效评估的不利影响。夏普比率就是一个可以同时对收益与风险加以综合考虑的三大经典指标之一。


如果夏普比率为正值,说明在衡量期内基金的平均净值增长率超过了无风险利率,在以同期银行存款利率作为无风险利率的情况下,说明投资基金比银行存款要好。夏普比率越大,说明基金的单位风险所获得的风险回报越高。夏普比率为负时,按大小排序没有意义。[1] 夏普比率以资本市场线作为评价基准,对投资绩效作出评估。


3.利用Python分析6家公司股票(阿里巴巴 亚马逊 腾讯 苹果 facebook 谷歌)


首先导入包


数据分析基础:从统计学入手数据分析


创建字典


数据分析基础:从统计学入手数据分析


获取阿里巴巴股票数据


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析


会得到如下股票数据:


查看数据集描述


数据分析基础:从统计学入手数据分析


会得到下面的数据:


数据分析基础:从统计学入手数据分析


分析涨跌得到如下数据:


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析


绘图步骤


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析


可以得到‘阿里巴巴’的股票走向


数据分析基础:从统计学入手数据分析


其他几家公司同理:


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析


数据分析基础:从统计学入手数据分析

声明


来源:知乎,人工智能产业链联盟推荐阅读,不代表人工智能产业链联盟立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

展开阅读全文

页面更新:2024-05-14

标签:统计学   平方根   方差   数据   平均数   定理   比率   位数   数值   样本   概率   排列   风险   发生   事件   基础   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top