提高技能必须掌握！lxml选择器技巧和支持的选择器总结！

hzh932

2年前发布

0517

进阶必备！lxml选择器的使用技巧及支持的选择器一览！

概述：

在进行Web数据抓取或者数据提取时，选择器是一个非常重要的工具。在Python中，有很多选择器库可供选择，其中lxml是一个功能强大的选择器库。本文将介绍lxml选择器的使用技巧以及支持的选择器一览，帮助读者进一步提升数据提取的效率。

一、lxml选择器简介

lxml是一个基于Python的解析器库，它提供了可扩展的XPath选择器和CSS选择器，用于解析HTML和XML文档。lxml选择器的主要优势在于它的速度快、功能强大，适合处理大型文件。在使用lxml选择器之前，需要先安装lxml库，可以通过以下命令进行安装：

pip install lxml

二、lxml选择器的基本用法

lxml选择器的基本用法非常简单，只需要导入相应的模块并创建一个选择器对象，然后利用选择器对象进行数据的提取。

首先，导入lxml库和相应的模块：

from lxml import etree

然后，解析HTML或XML文档，并创建选择器对象：

# 解析HTML文档
html = '''

标题1
内容1


标题2
内容2

'''
# 创建选择器对象
selector = etree.HTML(html)

接下来，可以使用选择器对象提取数据。lxml选择器支持XPath选择器和CSS选择器，下面将分别介绍它们的用法。

XPath选择器

XPath（XML Path Language）是一种用于在XML或HTML文档中进行导航和提取信息的语言。lxml选择器支持XPath选择器，通过XPath选择器可以精确地定位到要提取的元素。

常见的XPath语法包括：

选择元素：/、//、[]
选择属性：@
选择文本：text()
选择父节点：..

以下是几个XPath选择器的示例：

# 提取h1标签的文本
titles = selector.xpath('//h1/text()')
print(titles)  # 输出：['标题1', '标题2']
# 提取p标签的属性class值
classes = selector.xpath('//p/@class')
print(classes)  # 输出：['content', 'content']

CSS选择器

CSS（Cascading Style Sheets）选择器是一种用于在HTML文档中选择元素的语言。lxml选择器也支持CSS选择器，通过CSS选择器可以通过标签、类、ID等方式进行元素的定位。

常见的CSS选择器包括：

选择标签：标签名
选择类：.类名
选择ID：#ID名
选择父子关系：空格
选择相邻兄弟关系：+
选择后续兄弟关系：~

以下是几个CSS选择器的示例：

# 提取h1标签的文本
titles = selector.cssselect('h1')
for title in titles:
print(title.text)  # 输出：标题1、标题2
# 提取p标签的属性class值
classes = selector.cssselect('p.content')
for p in classes:
print(p.get('class'))  # 输出：content、content

三、lxml选择器支持的选择器一览

lxml选择器支持的选择器包括XPath选择器和CSS选择器，下面是一些常用的选择器：

XPath选择器：
- /：选择根节点
- //：选择所有节点
- []：条件选择
- @：选择属性
- text()：选择文本
- ..：选择父节点
CSS选择器：
- 标签选择器：标签名
- 类选择器：.类名
- ID选择器：#ID名
- 父子关系：空格
- 相邻兄弟关系：+
- 后续兄弟关系：~