如何开始数据并帮助您的社区
#database #datascience #machinelearning #gis

(以前在www.adventofdata.com出版)
在2022年打开页面,是时候考虑您的新年决议了。对于那些想提高数据工程,机器学习和数据分析技能的人,为什么不在公共部门数据集上而不是在随机Kaggle数据集上构建您的技能?在这个问题或数据的世界中,并不缺乏,但是缺乏对评估它们的兴趣的专业人员,尤其是在公共和非营利部门!

让我们选择一个问题,例如住房,看看我们在此过程中可以学到什么。

问题陈述

自大萧条以来,公司就一直在美国享用单户住宅,并造成住房危机。特别是在俄亥俄州辛辛那提等“后工业”城市中。辛辛那提港口总裁劳拉·布鲁纳(Laura Brunner)在国会面前的证词中说,曾经私人的家庭使"a cash cow for investors but a money pit for renters."甚至有些人甚至有利用技术来管理来自远方的分散地理的财产,而这些员工的距离很小/p>

自2008年以来,哪些社区看到了更多的单户住宅,从个人所有权到公司所有权,以调整社区规模?

解决方案

在2008年至2022年10月之间,大约有60,000个单户住宅转移,我归类为从公司实体到另一个公司实体,公司实体,个人,个人到公司实体或个人的人。我采取了个人 - >公司减去公司 - >个人的区别,以计算从个人所有权转变为公司所有权的净额。在通过社区进行地理编码和汇总之后,我调整了邻里相对规模的原始计数,发现了Corryville,Cuf,Avondale和North Fairmount等社区是公司所有权的最大目标,而OTR和Pendleton等社区则朝着反向方向发展。

Image description
(描述:Corryville,Cuf,Avondale和North Fairmount的社区拥有最多的单户住宅,转移到了针对规模调整的公司所有权。)

在此过程中使用了哪些技能,如果要复制此技能,您可以学到什么?

数据工程

数据来源:
Cincinnati Area Geographic Information System (CAGIS) Geodatabase
Property Ownership Snapshots
Property Transfer Information
Property Use Code Mapping(单个家庭为510)

学习的技能

  • 批处理数据处理 - 许多组织仍然分批处理数据,无论是快照还是事件处理(转移)。您可以在开始和结束时处理快照,并看到所有权的增加/减少,但是如果有买卖的话,故事可能会在转让中。我在上面的可视化中使用了转移计数。
  • 数据建模(归一化) - 所有文件都是平面文件,这意味着您会发现很多冗余。有冗余的地方,会有错误。请注意,“ Aux Funding LLC”(《 VICE故事》中的自动房东)的所有者地址相同,但拼写方式不同。这可能会在数据分析中引起问题,具体取决于您要解决的问题。通过将所有者分解成自己的桌子,将其归一化将减少那些类型的头痛。
  • 数据建模(缓慢更改维度) - 尝试创建一个使用有效_date字段的II型SCD的主所有权表(当他们获得属性时),end_date字段(当他们放弃所有权时)和current_owner flag (布尔)。
  • 批处理数据管道的传输文件每月更新几次。使用Airflow构建管道,该管道从网站上提取并将新数据添加到您的桌子中!

机器学习

工具:
Hugging Face
SpaCy
Scikit-Learn
MLFlow
没有旗帜可以辨别人所有者与公司实体,因此您必须自己弄清楚。 ML可以协助鉴于有数万记录要走。

学习的技能

  • 标记 - 这是一个传统的分类,因此,它的一种方法是浏览您的数据并标记它。我建议您从蛮力的SQL查询开始,以标记所有人,通常与“%llc%”,“%inc%”,“%trust%”等诸如美国公司相关的单词。您必须谨慎使用这种方法或“ Smith V Inc e”和“ Di Corp Io Lisa”将被列为公司实体。
  • 建模一旦标记了一个不错的数字,请预处理数据。模型了解数字而不是字符串,因此您必须对数据进行矢量化。最简单,最小的计算是为TF-IDF vectorizer出现的每个单词创建一个维度,然后通过Scikit模型运行矢量化数据。
  • ner任命实体识别是自然语言处理中的一个发达的领域,您可以在拥抱面孔上找到许多预训练的模型,以查看您是否可以利用这种很棒的资源。

数据分析

来源/工具:
Neighborhood Geojson(API端点)
Geopandas
Plotly

学习的技能

  • GIS的文章顶部的Cagis数据集具有辛辛那提每个单户包裹的多边形坐标(按税务区的过滤器:1,班级:510)。要通过附近获得计数,请加入与地理杂志的Cagis索引。
  • 统计学 - 在您按附近进行转移的计数之后,您会发现几个社区比其他社区要多得多。那是洞察力吗?不必要。辛辛那提市支付了数万美元的顾问来研究辛辛那提的住宅减税计划,它还发现某些社区的数量很高。仅需计数怎么了?分母。像韦斯特伍德(Westwood)这样的社区(超过6000个单一家庭物业)无法与温顿山(Winton Hills)(不到100个单一家庭物业)进行比较,即韦斯特伍德(Westwood温顿山(Winton Hills)的100个物业中为400。如果Westwood和Winton Hills否则相等,您会希望仅根据100个转移中的大小,其中98个将在Westwood,只有2个在Winton Hills。以下可视化仅描绘仅计数并绘制不同的图片。

Image description

  • 可视化且使用geopandas,您可以使用matplotlib.pyplot,但可以尝试使用其他库!尝试不同类型的可视化效果,例如热图,除了唱片外。

下一步是什么?

尝试一下或尝试使用类似的数据源。如果没有数据集可用,在美国,您可以提交一项信息自由法(FOIA)请求,以从适当的政府组织中获取不同的数据集。人们经常知道存在问题(例如,住房,“食物沙漠”,儿童的铅曝光等),但是通常,对问题的分析从来没有真正做到或在某些截止日期中做出了方便。社区需要像您这样的数据专家来探索和定义问题。在开始与社区分享获得的见解之前,您不必完成。只有领导者确切地了解问题的确切位置,他们才能开始创建解决方案。

另外,您可以利用机会提高自己的数据技能!