网页解析包 Nokogiri

网页解析包 Nokogiri

网页解析

实际中,咱们常常须要对网页内容进行解析,上文中介绍了两种解析方法,其中一种须要用正则表达式解析,另外一种须要利用已经写好的网页解析包 Nokogiricss

本文只是对 Nokogiri 进行分析,详细介绍还请参见 Nokogiri官网 以及相关博客介绍 Parsing HTML with Nokogirihtml

1.加载页面

require 'nokogiri'
require 'open-uri'

page = Nokogiri::HTML(open("http://en.wikipedia.org/")) 
puts page.class   # => Nokogiri::HTML::Document

2.使用css选择器

简要介绍集中css使用方法,详细方法参见以上博客正则表达式

  • 选择 "title" 元素: page.css('title')
  • 选择 "li" 元素: page.css('li')
  • 选择元素 "li" 中 href 的内容: page.css('li')[1]['href']
  • 经过属性选择元素: page.css('li[data-category='news']')
  • 经过id选择元素: page.css('div#funstuff')[0]
  • 同上: page.css('div#reference a')

本文内容均来自:ruby

  1. http://nokogiri.org/
  2. http://ruby.bastardsbook.com/chapters/html-parsing/
相关文章
相关标签/搜索