C#爬虫，让你再也不以为神秘

时间 2020-12-28

标签 html node git github web cookie async 网站 this url 栏目 C# 繁體版

原文原文链接

一、使用第三方类库 HtmlAgilityPack

官方网址：https://html-agility-pack.net/?z=codeplex、html

// From File 从文件获取html信息
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 从字符串获取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web   从网址获取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.一、这里介绍一下最后一种用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中咱们还能够设置cookie、headers等信息，来处理一些特定的网站需求，好比须要登录等。node

1.2 用法解释

网页在你查看网页源代码以后只是一段字符串，而爬虫所作的就是在这堆字符串中，查询到咱们想要的信息，挑选出来。
以往的筛选方法：正则（太麻烦了，写起来有些头疼）
HtmlAgilityPack 支持经过XPath来解析咱们须要的信息。git

1.2.1 在哪里找XPath？

网页右键检查github

经过XPath就能够准确获取你想要元素的所有信息。web

1.2.2 获取选中Html元素的信息？

获取选中元素cookie

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

获取元素信息async

htmlnode.InnerText;
htmlnode.InnerHtml;
//根据属性取值
htmlnode?.GetAttributeValue("src", "未找到")

二、本身封装的类库

/// <summary>
    /// 下载HTML帮助类
    /// </summary>
    public static class LoadHtmlHelper
    {
        /// <summary>
        /// 从Url地址下载页面
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
        {
            HtmlWeb web = new HtmlWeb();
             return await
                 web?.LoadFromWebAsync(url);
        }

        /// <summary>
        /// 获取单个节点扩展方法
        /// </summary>
        /// <param name="htmlDocument">文档对象</param>
        /// <param name="xPath">xPath路径</param>
        /// <returns></returns>
        public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
        {
          return  htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
        }

        /// <summary>
        /// 获取多个节点扩展方法
        /// </summary>
        /// <param name="htmlDocument">文档对象</param>
        /// <param name="xPath">xPath路径</param>
        /// <returns></returns>
        public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
        {
            return htmlDocument?.DocumentNode?.SelectNodes(xPath);
        }

     

        /// <summary>
        /// 获取多个节点扩展方法
        /// </summary>
        /// <param name="htmlDocument">文档对象</param>
        /// <param name="xPath">xPath路径</param>
        /// <returns></returns>
        public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
        {
            return htmlNode?.SelectNodes(xPath);
        }


        /// <summary>
        /// 获取单个节点扩展方法
        /// </summary>
        /// <param name="htmlDocument">文档对象</param>
        /// <param name="xPath">xPath路径</param>
        /// <returns></returns>
        public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
        {
            return htmlNode?.SelectSingleNode(xPath);
        }

        /// <summary>
        /// 下载图片
        /// </summary>
        /// <param name="url">地址</param>
        /// <param name="filpath">文件路径</param>
        /// <returns></returns>
        public async static ValueTask<bool> DownloadImg(string url ,string filpath)
        {
            HttpClient httpClient = new HttpClient();
            try
            {
                var bytes = await httpClient.GetByteArrayAsync(url);
                using (FileStream fs = File.Create(filpath))
                {
                    fs.Write(bytes, 0, bytes.Length);
                }
                return File.Exists(filpath);
            }
            catch (Exception ex)
            {
             
                throw new Exception("下载图片异常", ex);
            }
            
        }
    }

三、本身写的爬虫案例，爬取的网站https://www.meitu131.com/

数据存储层没有实现，懒得写了，靠大家喽，我是数据暂时存在了文件中
GitHub地址：https://github.com/ZhangQueque/quewaner.Crawler.git网站