pandas`get_dummies`:一种完整的方法
#初学者 #编程 #python #pandas

pandas是用于处理和数据速率的最受欢迎,最强大的Python库之一。在其许多功能中,整个get_dummies()是一种工具,是一种将类别变量转换为数据矮人和统计建模的数字表示的工具。在本文中,我们将详细探讨Pandas get_dummies()的功能,了解其工作原理并提供几个实用示例以更好地理解。

什么是get_dummies()

get_dummies()是熊猫库功能,可让您从类别方差创建虚拟变量。各种假人不是分类差异的富裕表示,其中每个类别成为列的新BAM。这些bammer表示原始数据中每个输入的特定类别。

句法:

get_dummies()函数的一般语法如下:

pd.get_dummies(data, prefix=None, prefix_sep='_', columns=None, drop_first=False, dtype=None)

paran¢米:

  • data:包含要转换为假人的类别变体的dataframe pandas或系列。
  • prefix:一个字符串或字符串列表,该字符串将添加为新虚拟列名称的前缀。如果是列表,则必须具有与类别列列表相同的大小。
  • prefix_sep:在新假列的前缀和类别名称之间使用的分离器。
  • columns:要转换为假人的类别列列表。如果None,则将转换数据框中的所有类别列。
  • drop_first:如果是True,则将省略每个分类差异的第一类以避免多连续性。
  • dtype:新虚拟列的数据类型。按模式,它是np.uint8(8位未签名的整数)。

使用示例:

示例1:从类别列创建差异虚拟

让我们从一个简单的示例开始使用dataframe pandas中的类别列:

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({'frutas': ['maçã', 'banana', 'laranja', 'banana', 'maçã']})

# Criando variáveis dummy
dummy_data = pd.get_dummies(data, prefix='fruta', prefix_sep='_')

print(dummy_data)

saãda:

   fruta_banana  fruta_laranja  fruta_maçã
0             0              0           1
1             1              0           0
2             0              1           0
3             1              0           0
4             0              0           1

在上面的示例中,“水果”列转换为新的新列:“ fruit_banana”,“ fruit_launja”和“ fruit_mation£”。每个代表原始列中存在的水果之一,其中值1表示存在果实,值0表示它不是。

示例2:治疗母亲类别列

现在,让我们使用Mother Batiple类别列的DataFrame:

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({
    'frutas': ['maçã', 'banana', 'laranja', 'banana', 'maçã'],
    'cores': ['vermelho', 'amarelo', 'laranja', 'amarelo', 'vermelho']
})

# Criando variáveis dummy para as colunas 'frutas' e 'cores'
dummy_data = pd.get_dummies(data, columns=['frutas', 'cores'], prefix=['fruta', 'cor'])

print(dummy_data)

saãda:

   fruta_banana  fruta_laranja  fruta_maçã  cor_amarelo  cor_laranja  cor_vermelho
0             0              0           1            0            0             1
1             1              0           0            1            0             0
2             0              1           0            0            1             0
3             1              0           0            1            0             0
4             0              0           1            0            0             1

在此示例中,我们为“水果”和“颜色”列创建变量虚拟。新列分别是前缀“ frual_和“ color_”,其次是相应的类别。

示例3:处理第一个省略类别

现在,让我们使用koud14 parano省略每个分类差异的第一类:

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({'frutas': ['maçã', 'banana', 'laranja', 'banana', 'maçã']})

# Criando variáveis dummy com a primeira categoria omitida
dummy_data = pd.get_dummies(data, prefix='fruta', prefix_sep='_', drop_first=True)

print(dummy_data)

saãda:

   fruta_laranja  fruta_maçã
0              0           1
1              0           0
2              1           0
3              0           0
4              0           1

在此示例中,第一个类别(“香蕉”)在每个分类差异中被省略,导致两个新列假人:“ fruit_law”和“fruit_mão£”。

找到£o:

pandas get_dummies()函数是将类别变量转换为数值表示的强大工具,使其适合数据矮人和统计建模。在本文中,您已经学会了如何使用get_dummies()函数并探讨了应用程序的实践示例。请记住,该功能具有多个可选零件以进行个性化,使您可以根据项目的特定需求调整输出。在自己的数据集中体验get_dummies(),并探索

的多功能性