使用pd.read_html轻松将HTML表刮入Python!
#教程 #python #datascience #webscraping

在当今数据驱动的世界中,提取合成来自各种在线资源的信息不仅是一项强大的技能 - 通常是必需的!

通常,这些数据以 html <table>的形式出现。挑战就变成了:我们如何提取和转换这些数据在Python中易于访问的形式?

使用pandas.read_html函数,我们提供了一个方便的解决方案将我们的数据提取到高度通用的pd.DataFrame中,并使我们的分析运行 快速有效地

from pandas import read_html

目录

Chris Greening - Software Developer

嘿!我叫克里斯·格林(Chris Greening),我是来自纽约都会区的软件开发人员,具有各种工程经验 - 请给我留言,让我们构建一些很棒的东西!

favicon Christophergreening.com

先决条件

什么是pd.read_html?

koude3是Python中流行的数据操纵库koude6中的功能。它的目的是刮擦 html页面(来自URL或作为字符串)和提取 在页面上找到的所有表

这是其工作原理的快速分解:

  • 指定源:我们告诉pd.read_html在哪里可以找到HTML内容。这可能是 url 指向网页或包含原始HTML代码的字符串
  • 刮擦表格pd.read_html扫描HTML含量,
  • 转变为koude2's :找到桌子后,pd.read_html将它们转换为pd.DataFrames,以便于分析和操纵

因此,仅使用一行代码我们可以在网页上刮擦所有表,而不必担心手动输入或提取

就可以进入我们的分析中

在实践中使用pd.read_html

利用pd.read_html是一个简单的过程,可以节省我们的大量时间和精力

这是逐步指南使用此功能从网页中获取表格到我们的Python环境:

导入pandas :首先让我们将熊猫导入到我们的脚本中:

import pandas as pd

指定源并调用pd.read_html :确定pd.read_html应该在何处寻找HTML内容。它可以是包含HTML代码的URL或字符串。对于此示例,让我们从Python Wiki page中拉出一些桌子:

url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
tables = pd.read_html(url)

Table on the Python wiki page listing the different data types in Python

访问表:结果是pd.DataFrameslist,每个都代表页面上找到的表。我们可以通过他们的索引访问它们:

df = tables[0]

分析和操纵:从这里,我们可以自由地与数据合作,就像我们在pandas中与其他任何DataFrame一样计算统计信息,或可视化数据!

这是完整的片段的外观:

import pandas as pd
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
tables = pd.read_html(url)
df = tables[0]

Screenshot of DataFrame output scraped from the HTML table

结论

使用pd.read_html刮擦HTML字符串提供灵活性和控制在我们使用的内容上

无论我们要处理本地存储 html文件还是刮擦 ,此方法使我们能够完全利用pd.read_html的表提取功能

非常感谢您的阅读,如果您喜欢我的内容,请务必在社交媒体或我的personal websiteð上查看我的其他一些工作或 Connect

Chris Greening - Software Developer

嘿!我叫克里斯·格林(Chris Greening),我是来自纽约都会区的软件开发人员,具有各种工程经验 - 请给我留言,让我们构建一些很棒的东西!

favicon Christophergreening.com