100天的第9天数据科学训练营从NOOB到专家。
github链接:Complete-Data-Science-Bootcamp
主要帖子:Complete-Data-Science-Bootcamp
回顾第8天
昨天我们已经详细研究了有关统计的python。
开始吧
在当今的数据驱动世界中,了解和使用数据是所有背景的企业,研究人员和专业人员的重要技能。 Python编程语言是最强大的数据分析工具之一。 Python凭借其强大的库,例如Numpy和Pandas,提供了广泛的统计和数据分析功能。在本文中,我们将探讨统计数据中一些最重要的概念,例如均值,中位数,模式,方差和标准偏差,并学习如何使用Python来计算这些值。我们还将研究更高级的主题,例如百分位数,四分位数和Z分数,并学习如何填充缺失值并在数据集中创建新列。无论您是初学者还是经验丰富的数据分析师,本文都会为您提供与Python中数据一起使用的知识和工具。
意思:
平均值是一组数据的平均值。通过在一组数据中添加所有值,然后除以集合中的值数量来计算。例如,如果我们有一组数据{1、2、3、4、5},则平均值为(1 + 2 + 3 + 4 + 5) / 5 = 3。
# Importing libraries
import numpy as np
# Creating a sample data set
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# Mean
mean = np.mean(data)
print("Mean:", mean)
Mean: 5.5
中间:
以数值顺序排列时,中值是一组数据的中间值。如果集合具有奇数值,则中值是中间值。如果集合具有均匀数量的值,则中值是两个中间值的平均值。例如,如果我们有一组数据{1、2、3、4、5},则中位数为3。
# Median
median = np.median(data)
print("Median:", median)
Median: 5.5
模式:
该模式是一组数据中最常出现的值。一组数据可以具有多种模式或根本没有模式。例如,如果我们有一组数据{1、2、2、3、4、5},则该模式为2。
# Mode
import statistics as st
mode = st.mode(data)
print("Mode:", mode)
Mode: 1
范围:
范围是一组数据中最高值和最低值之间的差异。例如,如果我们有一组数据{1、2、3、4、5},则范围将为5-1 = 4
# Range
range = np.ptp(data)
print("Range:", range)
Range: 9
方差:
差异是对一组数据中偏离均值的值的度量。它是通过获取每个值和均值之间差异的平方的总和,然后除以集合中的值数量。
# Variance
variance = np.var(data)
print("Variance:", variance)
Variance: 8.25
标准偏差:
标准偏差是对一组数据中如何分散值的度量。它是通过占据方差的平方根来计算的。
# Standard deviation
std_dev = np.std(data)
print("Standard deviation:", std_dev)
Standard deviation: 2.8722813232690143
百分位数和四分位数:
百分位数和四分位数是一组数据的分布的度量。百分位数是将一组数据分为100个相等部分的值。四分位数是将一组数据分为4个相等部分的值。
# Percentiles
percentile = np.percentile(data, [25, 50, 75])
print("25th percentile:", percentile[0])
print("50th percentile (Median):", percentile[1])
print("75th percentile:", percentile[2])
25th percentile: 3.25
50th percentile (Median): 5.5
75th percentile: 7.75
z得分:
z得分是对一个值在标准偏差方面距离平均值的距离的度量。它是通过取值和均值之间的差,然后除以标准偏差来计算的。
# Z-scores
z_scores = (data - mean) / std_dev
print("Z-scores:", z_scores)
Z-scores: [-1.5666989 -1.21854359 -0.87038828 -0.52223297 -0.17407766 0.17407766
0.52223297 0.87038828 1.21854359 1.5666989 ]
摘要:
详细解释了统计数据的关键统计概念,例如均值,中值,模式,方差,标准偏差,百分位数,四分位数和Z分数,以及如何使用python库(例如numpy and Python库)计算这些值的示例熊猫。此外,本文还涵盖了更高级的主题,例如填充缺失值并在数据集中创建新列。该文章适合初学者和经验丰富的数据分析师,为他们提供了与Python中数据合作所需的知识和工具。本文提供了CSV格式的示例数据,可用于练习所解释的概念。