感谢做者分享-http://bjbsair.com/2020-04-07...html
郑智化-别哭,我最爱的人.mp3微信
03:32.34200000000001学习
来自居家IT男优化
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。网站
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。编码
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。spa
版本:v1.43d
更新说明:code
在可提供txt连接的小说网站进行爬取小说连接进行下载。htm
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!感谢做者分享-http://bjbsair.com/2020-04-07...
郑智化-别哭,我最爱的人.mp3
03:32.34200000000001
来自居家IT男
v1.2及以前版本主要是爬取小说单章节内容并下载到本地保存为txt文件,主要熟悉了Python爬虫的基本代码,但缺乏实用性。
我的观点:对于小说爬取,主要有两个方面能够尝试进一步优化,一是直接在可提供下载txt连接的小说网站直接爬取txt文件,可节省代码运行时间;二是对于还在更新中的小说,不定时检测小说更新状态,并推送最新更新信息,可尝试经过邮件、微信、短信等方式推送信息。
功能:提供小说名称,检索小说网站,爬取网站小说txt连接,并下载。
版本:v1.4
更新说明:
在可提供txt连接的小说网站进行爬取小说连接进行下载。
开发环境:Python3和PyCharm;
网上搜索了一下,可实现小说txt下载的网站较多,这里以无限小说网为例,网址为:https://www.555x.org/。
选择一本小说,其小说主页面网址为:https://www.555x.org/html/xua...;下载页面网址为:https://www.555x.org/down/160...。由此能够看出,每一本小说有惟一对应编号,《卡徒》的编号为16089。
查看下载地址源码,具体以下:
从图中能够看出,小说txt下载连接为:https://www.555x.org/home/dow...,其代码结构很简单,网址中"16089"编号表明小说《卡徒》,网址中其余固定不变,只改变最后编号能够对其余小说进行下载。
尝试改变了一下编号,发现"16090"编号是小说《调教初唐》,"16088"编号书籍不存在,由此能够尝试对全站小说尝试进行下载。
1) 提供小说名称;
2) 在小说网站检索小说,提取小说对应编号;
3) 下载小说;
实现下说下载的代码:
if __name__ == "__main__": start_time = time.time() r = requests.get("https://www.555x.org/home/down/txt/id/16089") print(r.status_code) print(r.encoding) with open("a.txt","a",encoding="ISO-8859-1") as f: f.write(r.text) end_time = time.time() print("下载时间:" + str(round(end_time - start_time)) + "s")
非完整代码,后续其余功能尝试成功后会陆续更新。
6 代码问题汇总
小说下载后保存下来的txt为乱码,查看下载网址反馈的编码格式为ISO-8859-1,在写入本地txt时进行编码格式定义。
7 相关学习知识点
小说网站编码格式的查看:r.encoding;
8 结束语
本次代码只是实现了根据小说下载连接对小说进行下载,代码较简单;在以后要完善小说的检索代码,即提供输入窗口,输入小说名称,在网站检索小说,提取下载连接。
将这次编码的过程及源码分享给你们,供你们参考。对于错误的地方,或有更好的建议,但愿你们提出来,不胜感激!