实现服务器数据采集脚本技术点总结

时间 2021-02-02

标签 html python mysql sql shell 数据库 json api 服务器 app 栏目网络爬虫繁體版

原文原文链接

上周对服务器数据采集脚本进行了优化和改进，在作的过程当中遇到了一些问题，学到了一些知识点，如今总结出来，以供后续学习参考，欢迎你们批评指正，共同窗习进步！
html

1、从别的目录导入模块的两种方式python

方式1、 mysql

    sys.path.append(“想要导入的文件的存放目录”)
    import 模块名

方式2、sql

在文件夹创建一个空文件__init__.py文件，使文件夹变为一个包；而后使用os模块调整此文件所在的路径，使其在所要访问的包的上一级目录shell

    BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
    sys.path.append(BASE_DIR)

而后就能够导入所想要导入的模块了数据库

2、python操做mysql数据库json

  import MySQLdb

一、对数据库执行增、删、改操做 api

    def exec_curr(sql):
        try:
        #打开数据库链接
      cnn=MySQLdb.connect(host=host,port=port,user=db_user,passwd=db_passwd,charset='utf8',db=db)
      #使用cursor()方法获取操做游标
      cur=cnn.cursor()
      #使用execute方法执行SQL语句
      cur.execute(sql)
      cnn.commit()
    except MySQLdb.Error,e:
      print e

二、对数据库执行查询操做服务器

    def connet_curr(host=host,port=port,db=db,db_user=db_user,db_passwd=db_passwd,sql="select ip from nosql_ip"):
        result=[]
    try:
        cnn=MySQLdb.connect(host=host,port=port,user=db_user,passwd=db_passwd,charset='utf8',db=db)
        cur = cnn.cursor()
        cur.execute(sql)
        #获取全部记录列表
        rows=cur.fetchall()
        for row in rows:
            result.append(row)
        return result
    except MySQLdb.Error,e:
        print e

3、python的序列化和反序列化app

在作数据采集的时候，用到了公司其余部门同事作好的api，从api取到的数据为字符串格式，须要经过loads转换一下，成为字典格式以方便操做（固然，这里不转化为字典的话，可使用操做字符串的方式进行操做，但使用字典方式更加方便和准确）

一、可使用pickle模块

    pickle.dumps(dic)
    pickle.loads(byte_data)

二、可使用json模块（我这里用到的是json）

    str = json.dumps(dic)
    dic_obj = json.loads(dic_str)

4、操做字典的方式方法（字典是无序的，字典的key必须惟一）

  假设字典为 info = {'staff1': "小明",'staff2': "小红",'staff3': "小李"}
    一、增长操做
        info['staff4'] = “小刘”
    二、修改操做
        info['staff3'] = "小樊"
    三、删除操做
          1）info.pop("staff1")
      2）del info['staff3']
    四、查询操做
      1）"staff2" in info
      2）info.get("staff2")  若是一个key不存在，只返回None
      3）info["staff2"]   若是一个key不存在，就报错
    五、嵌套字典的查询只须要 ：字典名[ ][ ] . . .
    六、循环字典
     1）for key in info:
          print(key,info[key])
     2）for k,v in info.items(): #会先把dict转成list
         print(k,v)

5、经过ssh链接到其余服务器执行命令的方法

    def    ssh_execute_shell(host,command):                                  
      ssh_shell = ( '''/usr/bin/ssh -n -i 跳板机的私钥地址 -p 26387 -o '''
              '''StrictHostKeyChecking=no -o ConnectTimeout=2 root@'%s' '''
              ''' "%s" ''' % (host, command))
        p=subprocess.Popen(ssh_shell,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
        out = p.communicate()
        return out

6、python的多进程

一、多进程使用模块

    from multiprocessing import Process
  import time
  def f(name):
      time.sleep(2)
    print('hello', name)
  if __name__ == '__main__':
      p = Process(target=f, args=('process1',))
    p.start()
    p.join()

二、因为进程间内存不共享，进程间共享数据的方式有如下几种

Queues(消息队列)

Pipes（管道）

Managers

三、进程池

    from multiprocessing import Process,Pool
  import time
  def Foo(i):
      time.sleep(2)
      return i+100
  pool = Pool(5)
  for i in range(10):
      pool.apply_async(func=Foo, args=(i,))
      #pool.apply(func=Foo, args=(i,))
  pool.close()
  pool.join()#进程池中进程执行完毕后再关闭，若是注释，那么程序直接关闭。

7、使用python发邮件

    import smtplib
  from email.MIMEText import MIMEText
  mailto_list = ["收件人用户名@staff.sina.com.cn"]
  mail_host = "mail.staff.sina.com.cn"
  mail_user = "发件人用户名"
  mail_pass = "发件人邮箱密码"
  mail_postfix = "staff.sina.com.cn"
  def send_mail(to_list, sub, content):
    me = "hello" + "<" + mail_user + "@" + mail_postfix + ">"
    msg = MIMEText(content, _subtype='html', _charset='UTF-8')
    msg['Subject'] = sub
    msg['From'] = me
    msg['To'] = ";".join(to_list)
    try:
      s = smtplib.SMTP()
      s.connect(mail_host)
      s.login(mail_user, mail_pass)
      s.sendmail(me, to_list, msg.as_string())
      s.close()
      return True
    except Exception as e:
      print str(e)
      return False

欢迎批评指正！