本系列为了总结一下手上的知识,致敬个人2018
本篇的重点在于:使用python爬取数据写入文件,使用okhttp3访问后台接口插入数据
本篇总结的技术点:Python数据抓取
、okhttp3访问api接口插入数据库
、java文件的简单操做
Python是我在学完JavaScript的ES6以后学的,三个字---这么像
因而乎,花了三天看看语法、算算向量、作作爬虫、数数花生后也就没在深究了css
默认加载9个条目,滚到底再加载9个条目
如今问题在于:直接用连接请求,只能加载9条,怎么能让它本身滚动
是问题确定有解决方案,百度下呗,满目的selenium,好吧,就决定是你了
复制代码
须要的数据在note-list的ul中,其中一个li以下:
须要的数据有:content的div下的a标签:href和内容
abstract的p的内容,time的span下的:data-shared-athtml
<li id="note-38135290" data-note-id="38135290" class="have-img">
<a class="wrap-img" href="/p/0baa4b4b81f4" target="_blank">
<img class=" img-blur-done" src="//upload-images.jianshu.io/upload_images/9414344-c7c823aafe6938de.png?imageMogr2/auto-orient/strip|imageView2/1/w/300/h/240" alt="120">
</a>
<div class="content">
<a class="title" target="_blank" href="/p/0baa4b4b81f4">建站三部曲以后端接口篇(SpringBoot+上线)</a>
<p class="abstract">
本系列分为三篇: 建站三部曲以后端接口篇(SpringBoot+上线) 建站三部曲以前端显示篇(React+上线) 建站三部曲之移动端篇(And...
</p>
<div class="meta">
<a target="_blank" href="/p/0baa4b4b81f4">
<i class="iconfont ic-list-read"></i> 3
</a> <a target="_blank" href="/p/0baa4b4b81f4#comments">
<i class="iconfont ic-list-comments"></i> 0
</a> <span><i class="iconfont ic-list-like"></i> 0</span>
<span class="time" data-shared-at="2018-12-11T13:16:57+08:00">43分钟前</span>
复制代码
pip install selenium
复制代码
注意对应版本下载前端
from selenium import webdriver #导包
driver = webdriver.Chrome("I:\Python\chromedriver.exe")#建立driver,参数为插件的路径
driver.get("https://www.jianshu.com/u/e4e52c116681")#打开网页
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')#下滑
复制代码
问题又来了,貌似只能执行一次,那就用轮训任务吧java
from datetime import datetime, timedelta
class TimeTask:
def __init__(self):
self.count = 0 # 成员变量(实例变量)
def runTask(self, func, day=0, hour=0, min=0, second=1, count=20):
now = datetime.now()
period = timedelta(days=day, hours=hour, minutes=min, seconds=second)
next_time = now + period
strnext_time = next_time.strftime('%Y-%m-%d %H:%M:%S')
while self.count < count:
# Get system current time
iter_now = datetime.now()
iter_now_time = iter_now.strftime('%Y-%m-%d %H:%M:%S')
if str(iter_now_time) == str(strnext_time):
func()
self.count += 1
iter_time = iter_now + period
strnext_time = iter_time.strftime('%Y-%m-%d %H:%M:%S')
continue
复制代码
from selenium import webdriver
from utils.TimeTask import TimeTask
def fetch():
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
if __name__ == '__main__':
driver = webdriver.Chrome("I:\Python\chromedriver.exe")
driver.get("https://www.jianshu.com/u/e4e52c116681")
timeTask = TimeTask()
timeTask.runTask(fetch, 0, 0, 0, 1, 5)
复制代码
selenium的强大之处在于能够查询dom结构,哈哈,css没白学
须要的数据都在content类下,选择器为:.note-list li .content
使用find_elements_by_css_selector可使用css选择器获取一个listpython
content = driver.find_elements_by_css_selector('.note-list li .content')
#遍历content就好了
for i in content:
a = i.find_element_by_css_selector(' a.title') #获取a标签
print(a.text) #打印
复制代码
白花花的数据就到手里 react
![]()
for i in content:
a = i.find_element_by_css_selector(' a.title')
info = i.find_element_by_css_selector(' p.abstract')
time = i.find_element_by_css_selector('span.time')
href = a.get_attribute('href')
print(a.text)
print(href)
print(info.text)
print(time.get_attribute("data-shared-at"))
复制代码
将数据稍微装饰一下,以&&&分割每一个条目,以```分割每一个字段android
str = ''
for i in content:
a = i.find_element_by_css_selector(' a.title')
info = i.find_element_by_css_selector(' p.abstract')
time = i.find_element_by_css_selector('span.time')
href = a.get_attribute('href')
str += a.text + "```"
str += href + "```"
str += info.text + "```"
str += time.get_attribute("data-shared-at").split('T')[0] + "```"
str += "&&&"
print(str)
name = 'I:\\Python\\android_data_fetcher\\data\\data.txt'
dirs = os.path.split(name)[0]
is_exist = os.path.exists(dirs)
if not is_exist:
os.makedirs(dirs)
f = open(name, "w")
f.write(str) # 存储到文件中
f.close()
复制代码
Python任务完成,下一个交接棒就交给java了
想一想如今能干吗了——任意一我的的简书主页,点一下均可以自动爬取出文章信息
这对整理本身的文章颇有帮助,若是靠手动一篇一篇拷贝,想一想都要崩溃git
/**
* 读取文件
*
* @param in 文件
* @param charSet 读取的编码
* @return 文件内容
*/
private static String readFile(File in,String charSet) {
if (!in.exists() && in.isDirectory()) {
return "";
}
InputStreamReader fr = null;
try {
fr = new InputStreamReader(new FileInputStream(in), charSet)
//字符数组循环读取
char[] buf = new char[1024];
int len = 0;
StringBuilder sb = new StringBuilder();
while ((len = fr.read(buf)) != -1) {
sb.append(new String(buf, 0, len));
}
return sb.toString();
} catch (Exception e) {
e.printStackTrace();
return "";
} finally {
try {
if (fr != null) {
fr.close();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
复制代码
String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk");
String[] split = result.split("&&&");
for (String s : split) {
String[] item = s.split("```");
String name = item[0];//名称
String jianshuUrl = item[1];//简书首页
String info = item[2];//文章介绍
String time = item[3];//建立时间
}
复制代码
<!-- https://mvnrepository.com/artifact/com.squareup.okhttp3/okhttp -->
<dependency>
<groupId>com.squareup.okhttp3</groupId>
<artifactId>okhttp</artifactId>
<version>3.12.0</version>
</dependency>
复制代码
private static void doPost(String url, String name, String info, String jianshuUrl, String createTime) {
//1.HttpClient对象
OkHttpClient okHttpClient = new OkHttpClient();
//2.构造RequestBody
FormBody body = new FormBody.Builder()
.add("type", "C")
.add("name", name)
.add("localPath", "null")
.add("jianshuUrl", jianshuUrl)
.add("juejinUrl", "null")
.add("info", info)
.add("imgUrl", name + ".png")
.add("createTime", createTime)
.build();
Request request = new Request.Builder().url(url).post(body).build();
//3.将Request封装为Call对象
Call call = okHttpClient.newCall(request);
//4.执行Call
call.enqueue(new Callback() {
public void onFailure(Call call, IOException e) {
}
public void onResponse(Call call, Response response) throws IOException {
System.out.println(response.body().string());
}
});
}
复制代码
public static void main(String[] args) {
String url = "http://192.168.43.60:8089/api/android/note";
String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk");
String[] split = result.split("&&&");
for (String s : split) {
String[] item = s.split("```");
String name = item[0];
String jianshuUrl = item[1];
String info = item[2];
String time = item[3];
System.out.println(name+" "+jianshuUrl);
try {
Thread.sleep(10);
} catch (InterruptedException e) {
e.printStackTrace();
}
doPost(url,name,info,jianshuUrl,time);
}
}
复制代码
因为本地和服务器上的配置都同样,改下ip运行一下就好了:
www.toly1994.com:8089/api/android… 可查全部数据
图片打算本身来挑选,或制做,类型的分类仍是本身来吧
数据,就这样吧,虽然简陋了些...之后慢慢来,毕竟0到1是质变,1到2是量变github
先拿一些测试图片来用,数据库中只要存
文章名称.png
就好了
service层读取的时候作了一些小处理,如今也就是要对测试图片进行重命名web
"imgUrl":"http://192.168.10.101:8089/imgs/android/01-React搭建react环境及SCSS的配置.png"
复制代码
ArrayList<String> names = new ArrayList<String>();
String[] split = result.split("&&&");
for (String s : split) {
String[] item = s.split("```");
String name = item[0];
names.add(name);
}
复制代码
private static void renameImg(ArrayList<String> names, File dir) {
File[] files = dir.listFiles();
for (int i = 0; i < names.size(); i++) {
File file = files[i];
file.renameTo(new File(file.getParent(),names.get(i)+".png"));
}
}
复制代码
发现有些名字不能作文件名,好吧,考虑步骤,MD5处理一下
//插入数据库时:
.add("imgUrl", Md5Util.getMD5(name) + ".png")
//重命名时:
file.renameTo(new File(file.getParent(), Md5Util.getMD5(names.get(i)) + ".png"));
复制代码
public class Md5Util {
/**
* 获取一个字符串的Md5值
*
* @param content 内容
* @return Md5值
*/
public static String getMD5(String content) {
content = content + "芝麻开门";
try {
MessageDigest digest = MessageDigest.getInstance("MD5");
digest.update(content.getBytes());
return getHashString(digest);
} catch (NoSuchAlgorithmException e) {
e.printStackTrace();
}
return null;
}
private static String getHashString(MessageDigest digest) {
StringBuilder builder = new StringBuilder();
for (byte b : digest.digest()) {
builder.append(Integer.toHexString((b >> 4) & 0xf));
builder.append(Integer.toHexString(b & 0xf));
}
return builder.toString();
}
}
复制代码
ok,数据和图片准备齐全,下一站React前端
项目源码 | 日期 | 备注 |
---|---|---|
V0.1 | 2018-12-12 | 建站四部曲之Python爬虫+数据准备篇(selenium) |
笔名 | 微信 | 爱好 | |
---|---|---|---|
张风捷特烈 | 1981462002 | zdl1994328 | 语言 |
个人github | 个人简书 | 个人掘金 | 我的网站 |
1----本文由张风捷特烈原创,转载请注明
2----欢迎广大编程爱好者共同交流
3----我的能力有限,若有不正之处欢迎你们批评指证,一定虚心改正
4----看到这里,我在此感谢你的喜欢与支持