pandas是用于处理和数据速率的最受欢迎,最强大的Python库之一。在其许多功能中,整个get_dummies()
是一种工具,是一种将类别变量转换为数据矮人和统计建模的数字表示的工具。在本文中,我们将详细探讨Pandas get_dummies()
的功能,了解其工作原理并提供几个实用示例以更好地理解。
什么是get_dummies()
?
get_dummies()
是熊猫库功能,可让您从类别方差创建虚拟变量。各种假人不是分类差异的富裕表示,其中每个类别成为列的新BAM。这些bammer表示原始数据中每个输入的特定类别。
句法:
get_dummies()
函数的一般语法如下:
pd.get_dummies(data, prefix=None, prefix_sep='_', columns=None, drop_first=False, dtype=None)
paran¢米:
-
data
:包含要转换为假人的类别变体的dataframe pandas或系列。 -
prefix
:一个字符串或字符串列表,该字符串将添加为新虚拟列名称的前缀。如果是列表,则必须具有与类别列列表相同的大小。 -
prefix_sep
:在新假列的前缀和类别名称之间使用的分离器。 -
columns
:要转换为假人的类别列列表。如果None
,则将转换数据框中的所有类别列。 -
drop_first
:如果是True
,则将省略每个分类差异的第一类以避免多连续性。 -
dtype
:新虚拟列的数据类型。按模式,它是np.uint8
(8位未签名的整数)。
使用示例:
示例1:从类别列创建差异虚拟
让我们从一个简单的示例开始使用dataframe pandas中的类别列:
import pandas as pd
# DataFrame de exemplo
data = pd.DataFrame({'frutas': ['maçã', 'banana', 'laranja', 'banana', 'maçã']})
# Criando variáveis dummy
dummy_data = pd.get_dummies(data, prefix='fruta', prefix_sep='_')
print(dummy_data)
saãda:
fruta_banana fruta_laranja fruta_maçã
0 0 0 1
1 1 0 0
2 0 1 0
3 1 0 0
4 0 0 1
在上面的示例中,“水果”列转换为新的新列:“ fruit_banana”,“ fruit_launja”和“ fruit_mation£”。每个代表原始列中存在的水果之一,其中值1表示存在果实,值0表示它不是。
。示例2:治疗母亲类别列
现在,让我们使用Mother Batiple类别列的DataFrame:
import pandas as pd
# DataFrame de exemplo
data = pd.DataFrame({
'frutas': ['maçã', 'banana', 'laranja', 'banana', 'maçã'],
'cores': ['vermelho', 'amarelo', 'laranja', 'amarelo', 'vermelho']
})
# Criando variáveis dummy para as colunas 'frutas' e 'cores'
dummy_data = pd.get_dummies(data, columns=['frutas', 'cores'], prefix=['fruta', 'cor'])
print(dummy_data)
saãda:
fruta_banana fruta_laranja fruta_maçã cor_amarelo cor_laranja cor_vermelho
0 0 0 1 0 0 1
1 1 0 0 1 0 0
2 0 1 0 0 1 0
3 1 0 0 1 0 0
4 0 0 1 0 0 1
在此示例中,我们为“水果”和“颜色”列创建变量虚拟。新列分别是前缀“ frual_和“ color_”,其次是相应的类别。
示例3:处理第一个省略类别
现在,让我们使用koud14 parano省略每个分类差异的第一类:
import pandas as pd
# DataFrame de exemplo
data = pd.DataFrame({'frutas': ['maçã', 'banana', 'laranja', 'banana', 'maçã']})
# Criando variáveis dummy com a primeira categoria omitida
dummy_data = pd.get_dummies(data, prefix='fruta', prefix_sep='_', drop_first=True)
print(dummy_data)
saãda:
fruta_laranja fruta_maçã
0 0 1
1 0 0
2 1 0
3 0 0
4 0 1
在此示例中,第一个类别(“香蕉”)在每个分类差异中被省略,导致两个新列假人:“ fruit_law”和“fruit_mão£”。
找到£o:
pandas get_dummies()
函数是将类别变量转换为数值表示的强大工具,使其适合数据矮人和统计建模。在本文中,您已经学会了如何使用get_dummies()
函数并探讨了应用程序的实践示例。请记住,该功能具有多个可选零件以进行个性化,使您可以根据项目的特定需求调整输出。在自己的数据集中体验get_dummies()
,并探索