C# 从须要登陆的网站上抓取数据

背景:昨天一个学金融的同窗让我帮她从一个网站上抓取数据,而后导出到excel,粗略看了下有1000+条记录,人工统计的话确实不可能。虽然说不会,但做为一个学计算机的,我仍是厚着脸皮答应了。 。html

刚开始想的是直接发送GET请求,而后再解析返回的html不就能够获取须要的信息吗?的确,若是是不须要登陆的网站,这样可行,但对于这个网站就行不通。因此首先咱们须要作的就是抓包,即分析用户登陆时浏览器向服务器发送的POST请求。许多浏览器都自带抓包工具,但我仍是更喜欢[httpwatch]浏览器

抓包过程:服务器

1.安装httpwatchcookie

2.用IE浏览器进入网站的登陆页面app

3.打开httpwatch的Record开始跟踪工具

4.输入帐号密码,确认登陆,获得下面的数据:post

重点看POST请求中的Url和postdata,以及服务器返回的cookies网站

cookie里面包含有登陆信息,保险起见,咱们能够把这4个cookie值都传给服务器。url

首先给出C#发送POST请求的代码:(目的是获得服务器返回的cookie).net

        string Url = "URL";
        string postDataStr = "POST Data";//由于上面都是离散的键值对,咱们能够从Stream中直接找到postDataStr
        //登陆并获取cookie
        HttpPost(Url, postDataStr, ref cookie);

        private string HttpPost(string Url, string postDataStr, ref CookieContainer cookie)
        {
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
            request.Method = "POST";
            request.ContentType = "application/x-www-form-urlencoded";

            byte[] postData = Encoding.UTF8.GetBytes(postDataStr);
            request.ContentLength = postData.Length;
            request.CookieContainer = cookie;
            Stream myRequestStream = request.GetRequestStream();
            myRequestStream.Write(postData, 0, postData.Length);
            myRequestStream.Close();

            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            response.Cookies = cookie.GetCookies(response.ResponseUri);
            Stream myResponseStream = response.GetResponseStream();
            StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.GetEncoding("utf-8"));
            string retString = myStreamReader.ReadToEnd();
            myStreamReader.Close();
            myResponseStream.Close();

            return retString;
        }

有了cookie后,就能够从网站上抓取本身须要的数据了,接下来就是经过发送GET请求

         private string HttpGet(string Url, string postDataStr, CookieContainer cookie)
        {
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url + (postDataStr == "" ? "" : "?") + postDataStr);
            request.Method = "GET";
            request.ContentType = "text/html;charset=UTF-8";
            request.CookieContainer = cookie;

            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream myResponseStream = response.GetResponseStream();
            StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.GetEncoding("utf-8"));
            string retString = myStreamReader.ReadToEnd();
            myStreamReader.Close();
            myResponseStream.Close();

            return retString;
        }

由于服务器返回的是html,如何快速从大量的html中获取须要的信息呢?此处,咱们能够引用一个高效且强大的第三方库NSoup(网上也有人推荐使用htmlparser,但经过我我的比较发现,htmlparser不管是在效率仍是简洁性上,都远不如NSoup)

因为网上对于NSoup的教程比较上,你们也能够参考JSoup的教程:http://www.open-open.com/jsoup/

最后给出我从网站上抓取的部分数据:

纸上得来终觉浅,绝知此事要躬行。

相关文章
相关标签/搜索