一般使用xpath咱们直接定位到标签后, 使用/text() 或 //text()来获取标签对之间的文本值,html
但特殊状况下咱们也须要获取标签自己含文本值, 操做以下:app
文件为html, 标签对结构以下:编码
<table id='1h'>
<tr>
<td>Row value 1</td>
<td>Row value 2</td>
</tr>
</table>
代码以下:
from lxml import etree
import requests
from lxml.html import fromstring, tostring
url = "https://www.baidu.com/"
ret = requests.get(url, headers=headers)
code = ret.apparent_encoding # 获取url对应的编码格式
ret.encoding = code
html = ret.text # html文件内容即示例中的标签
tree = etree.HTML(html)
result = tree.xpath('//*[@id="lh"]')[0]
print('看结果这里', tostring(result, encoding=code).decode(code))注: tostring()方法便可把经过xpath定位到的标签(含该标签)及其下的全部标签输出, 切记使用decode()方法来进行解码