有个需求要写网络爬虫,之前接触过一个叫Html Agility Pack这个解析html的库,此次又要用到,然而发现之前咋用的已经不记得了,如今从头开始记录一下使用过程.html
Html Agility Pack官网.你们用的同时也能够去github上star一下这个项目,支持一下.net开源项目.(首页上有其github的项目地址)node
有几种方式能够加载Htmlgit
从流(Stream)中加载github
HtmlWebRequest req = WebRequest.Create("https://www.cnblogs.com/Laggage/p/10740012.html") as HtmlWebRequest; HtmlWebResponse res = req.GetResponse() as HtmlWebResponse; Stream s = res.GetResponseStream(); HtmlDocument doc = new HtmlDocument(); doc.Load(s)
从字符串加载Html(直接用的官网的一个例子)web
var html = @"<!DOCTYPE html> <html> <body> <h1>This is <b>bold</b> heading</h1> <p>This is <u>underlined</u> paragraph</p> <h2>This is <i>italic</i> heading</h2> </body> </html> "; var htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(html); var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body"); Console.WriteLine(htmlBody.OuterHtml);
从文件加载markdown
string path = @"test.html"; HtmlDocument doc = new HtmlDocument(); doc.Load(path); HtmlNode node = doc.DocumentNode.SelectSingleNode("//body"); Console.WriteLine(node.OuterHtml);
还能够直接从网络上加载(套用官网的例子)网络
string html = @"http://html-agility-pack.net/"; HtmlWeb web = new HtmlWeb(); HtmlDocument htmlDoc = web.Load(html); HtmlNode node = htmlDoc.DocumentNode.SelectSingleNode("//head/title"); Console.WriteLine("Node Name: " + node.Name + "\n" + node.OuterHtml);
利用Html Agility Pack解析起html仍是很容易的.主要利用XPath语法.一样套用官网的代码.ide
HtmlDocument htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(html); string name = htmlDoc.DocumentNode .SelectNodes("//td/input") //双斜杠表示查询全部的子节点,若是是只要查询范围在当前节点的下一层子节点,则只用一个子节点. .First() .Attributes["value"].Value;
主要就是利用 HtmlNode.SelectSingleNode()和HtmlNode.SelectNodes()方法来寻找节点.
这是 Html Agility Pack 官网首页的一段html,如今以要拿到其中的pre标签的全部内容为例.flex
string url = @"https://html-agility-pack.net/"; HtmlWeb web = new HtmlWeb(); HtmlDocument doc = web.Load(html); string text = doc.DocumentNode .SelectSingleNode("//div[@class='side-body container-none page-index']/div[@class='container-examples-index d-flex justify-content-center']/pre") .InnerText; Console.WriteLine(text);
具体的XPath语法能够看W3C的教程:W3CXPath教程.url