任何语言都是能够爬虫的,只要你懂的经常使用的http协议啥的就能够模仿浏览器的行为获取你想要的数据。这里我将教你们一个简单实用的案例:如何获取全民K歌的下载连接。
ps: 这主要是教你们一个入门级的爬虫,不是但愿你们去跳过vip下载...
这里有码云的代码片断是main的解析能够参考下: 码云代码片断node
那种专业fildder这类软件抓包我就不提了,省得文章显得更加复杂化。
推荐用谷歌浏览器容易看。git
1.打开浏览器进去一个分享连接
2.按F12进入开发者模式
3.点击NetWork
4.最好从新刷新一下页面看下全部访问路径
![]()
只要是网页浏览器就能够抓到全部的访问请求。接下来就是寻找那个音乐的连接了:
等你找到你会发现很显然,那个路径没有任何规律,也不知道下载路径如何而来。可是只要思想不滑坡,办法总比困难多。咱们找一下是否能够在HTML这些直接找到现成的连接,音乐的播放标签通常都是 audio
咱们去Element查找这个节点的时候能够发现确实有下载连接
这样咱们大概知道连接的地址了!咱们就能够放开手撸代码了!json
这里我推荐用Jsoup,我用的是版本是1.11.2。浏览器
maven: http://www.mvnrepository.com/...
public class QuanMinJousp { public static void main(String[] args)throws Exception { //这里是分享地址: String url ="https://kg2.qq.com/node/play?s=571cI75H1xb495Eq&shareuid=609c9b812624338a&topsource=a0_pn201001006_z11_u21643941_l0_t1534223843__"; Connection tempConn = Jsoup.connect(url); //模拟浏览器的请求头 tempConn.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0"); //开始链接HTTP请求。 Connection.Response demo = tempConn.ignoreContentType(true).method(Connection.Method.GET) .execute(); Document documentDemo = demo.parse(); //这里就是获取该页面的HTML元素。 System.out.println(documentDemo.toString()); } }
打印出来的HTML不出所料,就找不到audio的标签,很明显是后续才加载出这个标签来播放音乐的。那这个下载地址是哪里来的呢。咱们能够在打印出来的HTML能够找到其余线索:
不出所料,在全部script标签中 的第三个咱们发现了猫腻。微信
全部的数据都在这个标签里,包括评论,送花,歌曲连接等等全部都在里面。咱们拿到标签里的内容就能够了。里面的参数居然是标准的json格式更加天助我也!咱们用代码去掉闲杂人等。maven
Elements scriptElements = documentDemo.getElementsByTag("script"); String initScriptStr = scriptElements.get(2).toString(); String jsonStr = initScriptStr.substring(initScriptStr.indexOf("{"), initScriptStr.indexOf("; </script>")); //这就得到全部参数最终的json体了。 System.out.println(jsonStr);
接下来就是Json解析成本身的实体类对象啥的了。这块没啥好说的,不是咱们的教程范围。我通常用的simpleJson,gson,fastJson。阿里巴巴的我用的多一点。学习
最后我把这段代码功能接入个人微信公众号实现效果:
小伙伴们能够关注公众号体验一波:ui
该教程仅供学习参考,不涉及商业,涉及侵权啥的任何问题本人概不负责啊哈哈哈哈哈略略略url