做者 | A字头
来源 | 数据札记倌
有些朋友在工做中会有这样的困惑:明明我从早忙到晚,为何获得的评价还不高?html
要知道,企业对一个员工的评价是出于“产出”而非“付出”。因此,若是把大量时间花在机械重复的工做上,不但工做效率不高,对我的发展来讲也无甚帮助。python
而这些工做,若是对于会点编程的人来讲,每每经过几行代码就能够快速搞定了。web
因而,我去了解了一下身边不一样岗位(HR、产品、运营、市场、数据分析师等)天天须要面对的重复性劳动(确定会有不全,欢迎补充~),总结了一些在工做中很是常见的例子,而且将源码整理好供参考。但愿这些程序可让你的工做更高效!(升职加薪了别忘了回来发红包哦~)正则表达式
那么如何将这些通通实现呢?sql
我将这些分为如下几类,你们能够自行评估,各取所需:数据库
因为你常常须要不断的将一些信息录入系统,每一次录入的过程当中你可能须要不断的点击一些按钮,面对这种状况,彻底能够写一个自动脚本,每次代替你来执行这些点击的行为。编程
这里咱们须要用到splinter:小程序
pip install splinter
这里写了一个自动登陆邮箱的脚本,能够实现文本输入和网页点击:api
#coding=utf-8 import time from splinter import Browser def splinter(url): browser = Browser() #login 126 email websize browser.visit(url) #wait web element loading time.sleep(5) #fill in account and password browser.find_by_id('idInput').fill('xxxxxx') browser.find_by_id('pwdInput').fill('xxxxx') #click the button of login browser.find_by_id('loginBtn').click() time.sleep(8) #close the window of brower browser.quit() if __name__ == '__main__': websize = 'https://mail.163.com/' splinter(websize)
同理能够写一个简单的游戏挂机脚本,游戏挂机脚本,无非就是自动移动鼠标,自动点击,进行重复操做,因此,第一步就是如何控制鼠标。服务器
import win32api import time def move_click(x, y, t=0): # 移动鼠标并点击左键 win32api.SetCursorPos((x, y)) # 设置鼠标位置(x, y) win32api.mouse_event(win32con.MOUSEEVENTF_LEFTDOWN | win32con.MOUSEEVENTF_LEFTUP, x, y, 0, 0) # 点击鼠标左键 if t == 0: time.sleep(random.random()*2+1) # sleep一下 else: time.sleep(t) return 0 # 测试 move_click(30, 30) def resolution(): # 获取屏幕分辨率 return win32api.GetSystemMetrics(0), win32api.GetSystemMetrics(1)
值得注意的是,必定要在管理员权限下的cmd中运行,不然点击无效。
这个时候,你已经能够写个循环,不停地点击屏幕上不一样的几个点,最基础的挂机脚本就实现了。
Excel合并
在实际应用中可能会有不一样月份的数据或者不一样周的报告等等的Excel数据,都是单个独立的文件,若是想要总体使用的话就须要合并一下,那么如何利用python把指定目录下的全部Excel数据合并成一个文件呢?
思路:利用python xlrd包读取excle文件,而后将文件内容存入一个列表中,再利用xlsxwriter将内容写入到一个新的excel文件中。
# -*- coding: utf-8 -*- #将多个Excel文件合并成一个 import xlrd import xlsxwriter #获取excel中全部的sheet表 def getsheet(fh): return fh.sheets() #获取sheet表的行数 def getnrows(fh,sheet): table=fh.sheets()[sheet] return table.nrows #读取文件内容并返回行内容 def getFilect(file,shnum): fh=open_xls(file) table=fh.sheets()[shnum] num=table.nrows for row in range(num): rdata=table.row_values(row) datavalue.append(rdata) return datavalue
或者直接用concat+一个循环来实现:
for i in var_list: df_0 = data[['var_1','var_2','var_3','var_4',i]][data[i]=='信息'] df_0['month'] = date_replace(i) df_0 = df_0[['var_1','var_2','var_3','var_4','var_5']] li.append(df_0) writer = pd.ExcelWriter(r'C:\Users\mapping.xlsx') df = pd.concat(li) df.to_excel(writer,'Sheet1',index=False,header = None) df
Excel中添加数据图表整理好excel文件后下一步须要作的是处理文件里的数据,根据数据来生成一些本身须要的图表:
import xlsxwriter #设置一个例子 data = [20, 45, 26, 18, 45] #建立表格 workbook = xlsxwriter.Workbook("temp.xlsx") worksheet = workbook.add_worksheet("data") #添加数据 worksheet.write_column('A1', data) #建立图表 chart = workbook.add_chart({'type': 'line'}) #图表添加数据 chart.add_series({ 'values': '=data!$A1:$A6', 'name': '图表名称', 'marker': { 'type': 'circle', 'size': 8, 'border': {'color': 'black'}, 'fill': {'color': 'red'} } , 'data_labels': {'values': True}, 'trendline': { 'type': 'polynomial', 'order': 2, 'name': '趋势线', 'forward': 0.5, 'backward': 0.5, 'display_equation':True, 'line': {'color': 'red', 'width':1, 'dash_type': 'long_dash'} } }) worksheet.insert_chart('c1', chart) workbook.close()
实现效果:
假设你收到1万份简历,你想先根据学校作一些筛选,这时候利用python将大量的简历进行信息汇总,只提取关键信息用excel查看起来更加方便。
docx文件本身自己是压缩文件,打开压缩包以后居然发现里面有个专门存储word里面文本的文件。 那么步骤就变得简单了:1. 打开docx的压缩包2. 获取word里面的正文信息3. 利用正则表达式匹配出咱们想要的信息4. 将信息存储到txt中(txt能够用excel打开)5. 批量调用上述过程,完成一万份简历的提取工做利用正则匹配获取关键信息:
import re def get_field_value(text): value_list = [] m = re.findall(r"姓 名(.*?)性 别", table) value_list.append(m) m = re.findall(r"性 别(.*?)学 历", table) value_list.append(m) m = re.findall(r"民 族(.*?)健康情况", table) value_list.append(m) ''' 此处省略其余字段匹配 ''' return value_list
在平时的工做中,必定会有对运营状况的监控,假设你管理一家店铺,那么一些关键指标确定是你须要天天查看到的,好比店铺访问数,商品浏览数,下单数等等,这个时候不用天天重复地去统计这些数据,这须要写一个自动化程序,天天将数据保存在固定的文件夹下就能够实现报表的实时监控。
若是你的数据来源是线下文件:
from impala.dbapi import connect from impala.util import as_pandas import datetime conn = connect(host='host',port=21050,auth_mechanism='PLAIN',user='user',password='password') #host:数据库域名 #user:数据库用户名 #password:数据库密码 df_data = pd.read_excel('temp.xlsx') rows =[] for index, row in df_data.iterrows(): rows.append('('+'"'+str(row['case_id']).replace('nan','null')+'"'+','+'"'+str(row['birth_date'])+'"'+')'+',') a= ''' INSERT into table (case_id, birth_date) values ''' for i in rows: a += i a = a[:-1] cursor1 = conn.cursor() cursor1.execute(a) cursor1.close() conn.close() print('成功导入数据至数据库...') del a del rows
若是你的数据来源是线上文件(存在数据库)
import sql #sql是封装的sql文件 sql_end = sql.sql_end cursor1 = conn.cursor() for i in sql_end.split(';'): print(i) cursor1.execute(i) cursor1.close() conn.close() print('程序运行结束,请执行下一步。')
使用Python实现自动化邮件发送,可让你摆脱繁琐的重复性业务,节省很是多的时间。数据分析师常常会遇到一些取数需求,有些数据需求是天天都须要的,有些数据需求是每周一次的。对于这些周期性的数据需求,每次都重复性地手动导出这些数据,并回传给需求方,是很繁琐且浪费时间的。因此彻底能够设置自动邮件来解决。"Talk is cheap, show you the code"常见的邮件确定有三部分:一、正文二、图片三、附件OK导入咱们须要用到的包
from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from email.mime.image import MIMEImage import smtplib msg = MIMEMultipart()
在邮件中插入正文:
##在邮件中插入文本信息 df_text='''<html> <body> <p> Hi all ,</p> <p> 这是一个测试邮件,详情请参考附件 </p> <p> 状况以下图: </p> </body></html>''' msgtext = MIMEText(df_text, 'html', 'utf-8') msg.attach(msgtext)
若是你须要插入图片,利用一样的方法,在邮件中插入图片:
##在邮件中插入图片信息 image = open('temp.jpg','rb') msgimage = MIMEImage(image.read()) msg.attach(msgimage)
在邮件中插入附件:
##在邮件添加附件 msgfile = MIMEText(open('temp.xlsx', 'rb').read(), 'base64', 'utf-8') msgfile["Content-Disposition"] = 'attachment; filename="temp.xlsx"' msg.attach(msgfile)
剩下的就是设置一些邮件参数来发送邮件:
#设置邮件信息常量 email_host= '' # 服务器地址 sender = '' # 发件人 password ='' # 密码,若是是受权码就填受权码 receiver = '' # 收件人
发送邮件:
try: smtp = smtplib.SMTP(host=email_host) smtp.connect(email_host) smtp.starttls() smtp.login(sender, password) smtp.sendmail(sender, receiver.split(',') , msg.as_string()) smtp.quit() print('发送成功') except Exception: print('发送失败')
而后将你的任务设置定时执行就能够轻松实现啦
实现效果:
平时的工做中,真的有太多能够去自动化的任务,因为经验受限这里不能一一举例说明,只能尽可能分享一些我遇到过或者据说过的例子。但愿你们都愈来愈高效,边偷懒边完成工做~
扫码进入CDA官方小程序,解锁更多新鲜资讯和优质内容,还有免费试听课程,不要错过哟!