在python中使用pandas.cut()进行数据分析:创建数字和日期间隔
#编程 #python #datascience #分析

在本文中,我们将探讨如何使用pandas.cut()方法创建数据分析的数字和日期间隔。

什么是pandas.cut()?

python pandas.cut()是熊猫库中的一种方法,可让您将连续变量拆分为间隔。

此方法基于您指定的垃圾箱创建一个新的分类变量。

可以将垃圾箱指定为数字列表或许多均匀间隔的间隔。

此方法通常用于数据分析中,将连续数据分为类别或垃圾箱。这对于创建用于数据转换,时间序列分析并更有信息的类别很有用。

如果您想对这些主题有更深入的了解,我建议这本书 Python for Data Analysis ,这是有关如何使用Python处理数据的权威指南。您可以找到它 here

现在,让我们转到有关如何使用 pandas.cut() method的第一个示例。

使用pandas.cut()创建数字间隔

假设我们有一个学生成绩的数据集,我们希望将它们分类为字母等级(a,b,c,d和f)。

我们可以通过基于等级范围创建垃圾箱来做到这一点。

Screenshot of code importing pandas library and creating a series called grades

现在,让我们为成绩创建垃圾箱:

Series called bins

我们想将等级分为以下字母等级:F(60),D(60â69),C(70â79),B(80â89)和A(90â 100)。

我们可以使用 pandas.cut()方法:

letter_grades variable created using pandas.cut()

结果变量 letter_grades 是一个分类变量,数据集中每个等级的字母等级。

letter_grades variable

如果您愿意,您也可以对其进行排序和分组:

letter_grades variable grouped and sorted

使用pandas.cut()创建日期间隔

现在让我们看看如何使用pandas.cut()创建日期间隔。

假设我们有一个日常销售数据集,我们希望将它们分为每月的间隔。我们可以通过根据一个月范围创建垃圾箱来做到这一点。

首先,再次,我们需要导入熊猫库并创建一个示例数据集:

Import pandas library and create a dataset

现在,让我们为销售创建垃圾箱:

Create bins for monthly intervals

和标签:

Create labels for each interval

我们想将销售分为每月的间隔。我们可以使用 pandas.cut()方法来实现这一目标:

Categorize sales data into monthly intervals using pandas.cut() method

的结果是:

Print the resulting data frame

间隔中的数字对绘制简洁图表有用,在这种情况下,使用x轴中的月sales。它使图表更加紧凑,更易于阅读。

呈现数据时至关重要,如 Storytelling with Data 所述,这是有关如何与数据有效通信的确定手册。

找到它 here

结论

总而言之, pandas.cut()是PANDAS库中的一种强大方法,可让您将连续变量拆分为间隔。

通过使用此方法,您可以创建用于数据分析的分类变量,并从原始数据中获取见解。

如果您想通过Python了解有关数据分析的更多信息,我强烈建议您以下书籍: