温馨提示×

怎么用lxml清理和规范化HTML文档

小亿

142

2024-05-14 13:23:16

使用lxml库清理和规范化HTML文档的步骤如下：

导入lxml库：

from lxml import etree

读取HTML文档：

html = """ <html> <head> <title>Example</title> </head> <body> <h1>Hello, World!</h1> <p>This is an example HTML document.</p> </body> </html> """ # 将HTML文档转换为lxml对象 tree = etree.HTML(html)

清理HTML文档：

# 使用tostring方法将lxml对象转换回字符串，清理HTML文档 clean_html = etree.tostring(tree, pretty_print=True, method="html").decode('utf-8')

规范化HTML文档：

# 使用tostring方法的method参数规范化HTML文档 normalized_html = etree.tostring(tree, pretty_print=True, method="xml").decode('utf-8')

通过以上步骤，您可以使用lxml库清理和规范化HTML文档。

0 赞

0 踩

怎么用lxml清理和规范化HTML文档

最新问答

相关标签