作为学习数据科学技能的新手,您的主要挑战之一就是总是找到要练习的数据,当时您热衷于创建示例模型,并且您对解决问题的有效性非常乐观。您知道,如果您完成了这种预测模型,那肯定会变得更加令人震惊,这将是您的投资组合的极大促进,但是您会迷上头部,您试图发送您的朋友的调查链接,这些链接发布在社交活动上,但没有积极的反馈,也许他们甚至没有看您的链接,我们知道这些天在任何地方都在忙碌。但是,这个想法仍然拒绝离开你的头,你的手渴望留下深刻的印象,你必须得到这些数据!在这里,您将必须考虑其他方法来获取数据源,并且您将知道可能有几种方法,但是在本文中,我们将向您展示一些简单的方法来替代数据。
数据集中的信息
如果您想从一个非常简单的说明开始,使用技术领域的一些公司或研究人员已经制作的数据集是一种领导方式。有些公司或机构的较高地位帮助他们将数据跨越主要数据传感器,并将这些IoT组件处理到您可以使用的数据集中。他们可以为您提供的众多公司或机构之一;
- Google数据集搜索 - Google提供了各种数据集,这些数据集可以在线免费搜索(尽管有一些基于一些基于一些基于的搜索),但它可能不是主要工具,但多年来,Google已成为信息的可靠来源,因此当您尝试尝试一次时尝试使用Google检索数据集的想法,您不会用空手回来。 Kaggle-就像Google一样,他们还为您提供杂项数据集,并从中获取数据是免费的(只需注册),Kaggle于2010年推出,此后已演变为可靠的开放数据平台,他们熟练地提供教育材料来提供教育材料以提供教育材料学习人工智能,他们在与数据科学家进行合作方面也很可靠,他们拥有的许多数据集超出了您可以想象的许多主题。 数据gov-提供数据集的另一家令人印象深刻的公司是数据集,该公司提供了由美国政府编制的外部二级数据,它们使数据集免费提供,并且估计大约200,000个数据集,它们的数据集涵盖了涵盖的数据集从天气预报到犯罪,几乎所有您都可以想象的一切,这是非常用户友好的,它使您有机会导航到地理区域甚至组织类型,搜索结果简化为州,县和城市更好的看法。 UCI机器学习存储库 - 由加利福尼亚大学编写,并提供机器学习数据集,UCIMLR可以免费使用,他们已经对圣保罗的城市交通态度进行了抽样数据集,UCI存储库是由学生,教育工作者,教育工作者,教育工作者,教育工作者,教育者,教育者,教育工作库高度评价的。研究人员是机器学习数据的主要资源。数据集是根据任务(例如分类,回归或聚类),属性(分类或数值),数据类型和专业领域进行精心组织的。这种细致的分类简化了为您参与的任何机器学习项目找到合适数据的过程。 地球数据 - 数据集由美国国家航空航天局(NASA)编辑,提供地球科学数据,在阿拉斯加的秋季驼鹿狩猎季节采样环境条件,如果您对太空项目感兴趣,他们提供的行星数据系统可能会有用,因为1994年,他们一直在提供天气和气候数据,以进行大气观察,海温和营养映射。 全球健康天文台数据存储库 - 联合国世界卫生组织提供有关卫生模式的数据集,这些数据集已在全球范围内吸收,提供的数据集是免费的,其中一些包括全球某些国家的脊髓灰质炎免疫成功。如果您的想法基于卫生系统,这是查找数据集的最佳方向,该门户甚至配备了可以在下载数据表之前可以预览数据表的功能。 除了上面列出的外,您还有其他机构提供免费数据集,例如CERN Open Data Portal,Datahub.io,BFI电影行业统计,纽约市出租车旅行数据,FBI犯罪数据资源管理器。
使用现有平台的数据
另一种简单的外观方法是收集现有平台的数据,因为它可能令人沮丧或乏味,要发送调查或进行面试,如果您的朋友或大学同伴没有耐心来点击您Google表单链接,并帮助您找出发送给实验的问卷,这真是太好了!但是,您是否曾经想过,如果在网上使用一些现有平台的数据,也许在社交媒体上,人们分享了他们的Apple Music或Spotify大多数播放的艺术家或歌曲的结果。好吧,当您向人们发送链接以查看其Spotify或Apple Music最吸引人的歌曲或艺术家时,您可以利用此类平台上的利用,这听起来很有趣,而且与在Google表格上制作tick相比。例如,在Twitter上在Twitter上传播的最后一首10首歌曲链接是您可以大写的,如果您制作了一条推文供人们使用链接,将您自己列表的屏幕截图放置,他们会跳上您的推文带有许多答复和引用自己列表的推文。您已经在以这种方式构建数据,然后您可以编译以构建一个可以用来确定哪种类型,艺术家,国家,唱片公司或任何其他类的预测模型,这对听众都非常感兴趣。
您的朋友和家人的业务。
大多数新数据科学家不考虑的另一种方式是来自家人或朋友拥有的小企业的小数据。您可能会有一个兄弟姐妹或朋友烘烤或说女装。这对您来说是一个优势,您可以创建他们制作的蛋糕或糕点类型的列表,并创建Google表格,或者只是问他们哪些产品获得了更多的销售额,最售出的口味,他们出售给特定性别的单位,只有其他任何问题出来的问题,或者您的朋友制作女装,多少个本地礼服,哪种风格的趋势,客户喜欢给设计师免费的意愿
发挥创造力,或者告诉他们希望自己的衣服看起来如何,对时尚趋势的需求,有多少客户喜欢这个,您可以从他们那里获取数据。这是便宜的,并为您提供了更加灵活和富有成效的空间。
总而言之,当您冒险进入数据科学世界时,寻求质量数据以助您学习旅程可能是一个重大障碍。尽管调查和访谈之类的传统方法可能具有挑战性,但可以使用创新的替代方法。利用Google,Kaggle,Data Gov,UCI机器学习存储库,地球数据和全球健康天文台数据存储库等既定来源的既有数据集都会打开信息的宝库。此外,利用在社交媒体等现有平台上生成的数据,尤其是音乐听力趋势,可以提供宝贵的见解。不要忽视朋友和家人拥有的小企业作为数据源的潜力。通过创造性地调整方法,您可以积累磨练技能和工艺有影响力的预测模型所需的数据。