公司须要抓取新闻,每次手动复制粘贴新闻,太麻烦了,业务人员就提出了要求,须要程序实现自动抓取新闻,所以就写了这个简单的爬虫程序。spa
这是一个.NET下的HTML解析类库,它能够读/写DOM并支持普通的XPATH或XSLT。code
AngleSharp是一个.NET库,能够操做基于<角括号>的超文本,如HTML,SVG,MathML,XML,CSS等。AngleSharp根据官方HTML5规范构建DOM。这也意味着最终的模型是彻底交互式的,能够用于简单的操做。blog
··· 用AngleSharp作的简单爬虫 //1.设置配置 var config = Configuration.Default.WithDefaultLoader(); var context = BrowsingContext.New(config); //2.打开链接 var address = "https://www.sina.com.cn/"; var document = await context.OpenAsync(address); //3.选择内容范围 var cellSelector = ".newslist li"; var cells = document.QuerySelectorAll(cellSelector); //4.获取内容 var titles = cells.Select(m => m.TextContent); foreach (var title in titles) { Console.WriteLine(title); } ···