网络爬虫基础练习

时间 2019-11-20

原文原文链接

5.练习：spa

取出h1标签的文本code

print(soup.h1.text)

取出a标签的连接blog

for link in soup.select('a'):
    print(link.get('href'))

取出全部li标签的全部内容get

for i in soup.select('li'):
    print(i.contents[1])

取出一条新闻的标题、连接、发布时间、来源it

print(soup.select('.news-list-title')[0].text)
print(soup.select('li')[0].a.attrs['href'])
print(soup.select('.news-list-info')[0].contents[0].text)
print(soup.select('.news-list-info')[0].contents[1].text)