在当今数据驱动的世界中,提取和合成来自各种在线资源的信息不仅是一项强大的技能 - 通常是必需的!
通常,这些数据以 html <table>
的的形式出现。挑战就变成了:我们如何提取和转换这些数据在Python中易于访问的形式?
使用pandas.read_html
函数,我们提供了一个方便的解决方案将我们的数据提取到高度通用的pd.DataFrame
中,并使我们的分析运行 快速有效地!
!
from pandas import read_html
目录
先决条件
什么是pd.read_html?
koude3是Python中流行的数据操纵库koude6中的功能。它的目的是刮擦 html页面(来自URL或作为字符串)和提取 在页面上找到的所有表
这是其工作原理的快速分解:
-
指定源:我们告诉
pd.read_html
在哪里可以找到HTML内容。这可能是 url 指向网页或包含原始HTML代码的字符串 -
刮擦表格:
pd.read_html
扫描HTML含量, -
转变为koude2's :找到桌子后,
pd.read_html
将它们转换为pd.DataFrames
,以便于分析和操纵
因此,仅使用一行代码我们可以在网页上刮擦所有表,而不必担心手动输入或提取
就可以进入我们的分析中在实践中使用pd.read_html
利用pd.read_html
是一个简单的过程,可以节省我们的大量时间和精力
这是逐步指南使用此功能从网页中获取表格到我们的Python环境:
导入pandas
:首先让我们将熊猫导入到我们的脚本中:
import pandas as pd
指定源并调用pd.read_html
:确定pd.read_html
应该在何处寻找HTML内容。它可以是包含HTML代码的URL或字符串。对于此示例,让我们从Python Wiki page中拉出一些桌子:
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
tables = pd.read_html(url)
访问表:结果是pd.DataFrames
的list
,每个都代表页面上找到的表。我们可以通过他们的索引访问它们:
df = tables[0]
分析和操纵:从这里,我们可以自由地与数据合作,就像我们在pandas
中与其他任何DataFrame
一样计算统计信息,或可视化数据!
这是完整的片段的外观:
import pandas as pd
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
tables = pd.read_html(url)
df = tables[0]
结论
使用pd.read_html
刮擦HTML字符串提供灵活性和控制在我们使用的内容上
无论我们要处理本地存储 html文件还是刮擦 ,此方法使我们能够完全利用pd.read_html
的表提取功能
非常感谢您的阅读,如果您喜欢我的内容,请务必在社交媒体或我的personal websiteð上查看我的其他一些工作或 Connect