python处理excel总结

时间 2019-11-06

原文原文链接

工做中，你们常常会使用excel去处理数据以及展现，可是对于部分工做咱们能够借助程序帮忙实现，达到高效解决问题的效果，好比将接口返回的json解析并保存结果到excel中，按必定规律处理excel中的数据而后写入到新的excel文件中，汇总来自多个文件的内容到一个excel中，等等。
平时在工做中遇到比较繁琐的数据须要写入到excel中，除非excel的内置公式能够处理，我会第一时间想到使用python处理。在这个过程当中，研究并尝试了一些工具，闲着没事，我整理并记录下来。

各个工具对比

	XlsxWriter	xlrd&xlwt&xlutils	OpenPyXL	Microsoft Excel API
介绍	能够建立和写Excel 2007+ XLSX文件	xlrd、xlwt、xlutils三大模块分别提供读、写和其余功能	能够读、写Excel 2007+ /xlsm/xltx/xltm文件	直接经过COM组件与Microsoft Excel进程通讯调用各类功能实现对excel文件操做
读	✘	√	√	√
写	√	√	√	√
修改	✘	√	⚠️	√
.xls	✘	√	✘	√
.xlsx	√	xlrd: 0.8.0+ √ * xlwt：✘	√	√
大文件	√	✘	√	✘
功能	强	弱	通常	超强
速度	快	快	快	超慢

|系统|无限制|无限制|无限制|Windows + excel|html

|使用场景|* 须要建立xlsx文件
* 不须要读取已有文件
* 须要实现比较复杂的功能
* 数据量可能会比较大
* 须要跨平台|* 须要读取xls或者xlsx文件
* 要生成xls文件
* 须要对文件处理的功能不太复杂
* 须要跨平台|* 须要处理xlsx文件
* 须要修改已有文件或者在写入过程当中不断修改
* 须要对文件处理的功能比较复杂
* 数据量可能会很大
* 须要跨平台|* 须要处理各类文件格式
* 须要用到特别复杂功能
* 在修改文件时不但愿对原有信息形成任何意外破坏
* 数据量很小，或者愿意等待
* 仅在Windows中使用|python

1、XlsxWriter

XlsxWriter是我最终选择的用于写操做的工具。顾名思义，它只能用来写文件。
这应该是个比较新的项目，在GitHub上看它最先的提交是在2013年1月份。

其官方文档中宣称它支持（See the full documentation at: https://xlsxwriter.readthedocs.io）：json

100% compatible Excel XLSX files.
Full formatting.
Merged cells.
Defined names.
Charts.
Autofilters.
Data validation and drop down lists.
Conditional formatting.
Worksheet PNG/JPEG images.
Rich multi-format strings.
Cell comments.
Memory optimisation mode for writing large files.

优势

功能比较强
相对而言，这是除Excel自身以外功能最强的工具了。好比我就用到了它提供的：字体设置、前景色背景色、border设置、视图缩放（zoom）、单元格合并、autofilter、freeze panes、公式、data validation、单元格注释、行高和列宽设置等等。
最让我惊奇的是，用它生成的带有单元格注释的Excel文件，不管是Excel 2007仍是Excel 2013均可正常打开。
支持大文件写入
若是数据量很是大，能够启用constant_memory，这是一种顺序写入模式，获得一行数据就马上写入一行，而不会把全部的数据都保持在内存中。

缺点

不支持读取和修改
做者并无打算作一个XlsxReader来提供读取操做。不能读取，也就无从修改了。它只能用来建立新的文件。我是利用xlrd把须要的信息读入后，用XlsxWriter建立全新的文件。
另外，即便是建立到一半Excel文件，也是没法读取已经建立出来的内容的（信息应该在，可是并无相应的接口）。由于它的主要方法是write而不是set。当你在某个单元格写入数据后，除非你本身保存了相关的内容，不然仍是没有办法读出已经写入的信息。从这个角度看，你没法作到读出->修改->写回，只能是写入->写入->写入。
不支持XLS文件
XLS是Office 2013或更早版本所使用的格式，是一种二进制格式的文件。XLSX则是用一系列XML文件组成的（最后的X表明了XML）一个压缩包。若是非要建立低版本的XLS文件，就请移步xlwt吧。
暂时不支持透视表（Pivot Table）
透视表是很是麻烦的东西，除了自身复杂的结构外，还须要一套数据缓存。

举例

 1     import xlsxwriter
 2     # Create an new Excel file and add a worksheet.
 3     workbook = xlsxwriter.Workbook('demo.xlsx')
 4     worksheet = workbook.add_worksheet()
 5     # Widen the first column to make the text clearer.
 6     worksheet.set_column('A:A', 20)
 7     # Add a bold format to use to highlight cells.
 8     bold = workbook.add_format({'bold': True})
 9     # Write some simple text.
10     worksheet.write('A1', 'Hello')
11     # Text with formatting.
12     worksheet.write('A2', 'World', bold)
13     # Write some numbers, with row/column notation.
14     worksheet.write(2, 0, 123) # 第二3行第1列
15     worksheet.write(3, 0, 123.456) # 第四行第1列
16     # Insert an image.
17     worksheet.insert_image('B5', 'logo.png')
18     workbook.close()

2、xlrd&xlwt&xlutils

xlrd&xlwt主要是针对Office 2013或更早版本的XLS文件格式。xlutils使用须要依赖xlrd和xlwt，扩充这两个库的功能。(更多信息请见：http://www.python-excel.org/)api

优势

支持XLS格式
XlsxWriter和OpenPyXL都不支持XLS格式，从这个角度看，xlrd&xlwt仍然有必定的不可替代性。

缺点

对XLSX支持比较差
目前xlrd0.8.0+版本已经能够读取XLSX文件了，有限地支持。至于xlwt还仅仅只支持xls文件。
对修改的支持比较差
xlrd和xlwt是两个相对独立的模块，虽然xlutils提供方法帮助你把xlrd.Book对象复制到xlwt.Workbook对象，但跟XlsxWriter相似，只是提供write方法，使得你没法很容易地获取当前已经写入的数据并进行有针对性的修改。若是非要这样作，你要不断地保存，而后再用新的xlrd.Book对象读取你要的信息，仍是比较麻烦的。
功能很弱
除了最基本的写入数据和公式，xlwt所提供的功能很是少（Excel 2013自己支持的功能也就不多）。对于读取也是同样的，不少信息在读入时就丢失掉了。

举例

写数据到xls文件

 1     import xlwt
 2     from datetime import datetime
 3     style0 = xlwt.easyxf('font: name Times New Roman, color-index red, bold on',
 4     　　num_format_str='#,##0.00')
 5     style1 = xlwt.easyxf(num_format_str='D-MMM-YY')
 6     wb = xlwt.Workbook()
 7     ws = wb.add_sheet('A Test Sheet')
 8     ws.write(0, 0, 1234.56, style0)
 9     ws.write(1, 0, datetime.now(), style1)
10     ws.write(2, 0, "hello world")
11     ws.write(3, 0, 1)
12     ws.write(3, 1, 3)
13     ws.write(3, 2, xlwt.Formula("A4+B4"))
14     wb.save('example.xls')

读取文件内容

 1     import xlrd
 2     # 打开文件
 3     workbook = xlrd.open_workbook('example.xls')
 4     sheet2_name = workbook.sheet_names() # 获取全部sheet名称
 5     print(sheet2_name)
 6     # 根据sheet索引或者名称获取sheet内容
 7     sheet1 = workbook.sheet_by_index(0) # sheet索引从0开始
 8     # sheet1 = workbook.sheet_by_name('sheet2')
 9     # sheet1的名称，行数，列数
10     print(sheet1.name, sheet1.nrows, sheet1.ncols)
11     # 获取整行和整列的值（数组）
12     rows = sheet1.row_values(2) # 获取第三行内容
13     cols = sheet1.col_values(0) # 获取第1列内容
14     print(rows)
15     print(cols)
16     # 获取单元格内容
17     print(sheet1.cell(2, 0).value.encode('utf-8'))
18     print(sheet1.cell_value(2, 0).encode('utf-8'))
19     print(sheet1.row(2)[0].value.encode('utf-8'))
20     # 获取单元格内容的数据类型
21     print(sheet1.cell(2, 0).ctype)

输出：
['A Test Sheet']
A Test Sheet 4 3
['hello world', '', '']
[1234.56, 43262.66097222222, 'hello world', 1.0]
b'hello world'
b'hello world'
b'hello world'
1

3、OpenPyXL

OpenPyXL是比较综合的一个工具，能读能写能修改，功能还算能够但网上有人说有很大的缺陷。(更多信息请见：http://www.python-excel.org/， https://openpyxl.readthedocs.io/en/stable/index.html)

优势

能读能写能修改
OpenPyXL的工做模式跟XlsxWriter和xlwt有很大的区别，它用的是getter/setter模式。你能够随时读取某个单元格的内容，并根据其内容进行相应的修改，OpenPyXL会帮你记住每一个单元格的状态。
特别须要注意的一点：虽然它支持修改已有文件，但因为其所支持的功能有限，读入文件时会忽略掉它所不支持的内容，再写入时，这些内容就丢失了。所以使用时必定要慎重。好比下面的缺点中提到它没法读入公式，那若是你修改一个带有公式的文件，保存以后，全部的公式就都没有了。
功能还算能够
总体来说，它所支持的功能介于XlsxWriter和xlwt之间。

缺点

不支持XLS
这件事情只能让xlrd和xlwt去作。
不支持读取公式
这实际上是个不太简单的事情，虽然我没尝试过，但相信xlrd也作很差这件事。
Excel的单元格若是是一个公式，它内部会同时保存公式自己和运算结果的缓存。用OpenPyXL读取单元格内容，它不会告诉你这个单元格的公式是什么，甚至不会告诉你这个单元格存的是公式，它只会拿到这个缓存的运算结果。我原本想利用它判别单元格是否是用了公式，而后作出不一样的处理。结果遇到了这个问题，最后只好采起了其余变通的方式去作。

举例

简单例子

    from openpyxl import Workbook
    wb = Workbook()
    # grab the active worksheet
    ws = wb.active
    # Data can be assigned directly to cells
    ws['A1'] = 42
    # Rows can also be appended
    ws.append([1, 2, 3])
    # Python types will automatically be converted
    import datetime
    ws['A2'] = datetime.datetime.now()
    # Save the file
    wb.save("sample.xlsx")

写入数据到文件

from openpyxl import Workbook
from openpyxl.compat import range
from openpyxl.utils import get_column_letter
wb = Workbook()
dest_filename = 'book.xlsx'
ws1 = wb.active
ws1.title = "range names"
for row in range(1, 5):
ws1.append(range(0, 10))
ws2 = wb.create_sheet(title="Pi")
ws2['F5'] = 3.14
ws3 = wb.create_sheet(title="Data")
for row in range(2, 10):
for col in range(27, 40):
_ = ws3.cell(column=col, row=row, value="{0}".format(get_column_letter(col)))
wb.save(filename=dest_filename)

读取数据

1     from openpyxl import load_workbook
2     wb = load_workbook(filename='book.xlsx')
3     sheet_ranges = wb['range names']
4     print(sheet_ranges['D2'].value)

输出：
3数组

4、Microsoft Excel API

大部分Windows环境的开发人员都会选择Microsoft Excel API。实际上不只仅是Python，几乎各类语言都有相应的方法使用它，由于核心的逻辑彻底是由Microsft Excel自身提供的。语言相关的部分只是负责跟Windows的COM组件进行通讯。
在Python中首先须要安装Python for Windows extensions（pywin32），具体的文档能够查阅Win32 Modules和Python COM。
固然你还必需要安装某一个版本的Microsoft Office Excel，它内部的DLL负责实际的操做。缓存

优势

最大的优势：强大无极限
由于直接与Excel进程通讯，你能够作任何在Excel里能够作的事情。
文档丰富
MSDN上的文档绝对是世界上最优秀的文档。没有之一。
调试方便
你彻底能够直接在Excel里面用宏先调试你想要的效果。甚至若是你不清楚怎么用程序实现某个操做，你能够经过宏录制的方法获得该操做的处理代码。

缺点

致命的缺点：慢到死
由于须要与Excel进程通讯，其效率是很是低的。
若是让Excel窗口可见，随着程序的运行，你能够看到每一句程序所带来的变化，单元格的内容一个一个地改变。若是要写入的数据不少，那速度是没法忍受的。
平台限制
目前尚未发现能够在非Windows系统使用它的方法。
另外，基于它的程序能作什么事情，很大程度上依赖于当前系统所安装的Excel版本。不一样的版本在功能上有很大的差别，API也会有差别。用起来会比较麻烦。
Excel自身bug致使的问题
和Python没有任何关系，能够彻底在Excel中手动复现。在Excel 2007中随便建立一个文件，给某个单元格添加注释，保存。换台电脑，用Excel 2013打开，就会报错，而后注释就消失了。一样若是你的程序在一台装有Excel 2007的机器上建立一个带有注释的Excel文件，把这个文件拿到Excel 2013中打开也会报错，也看不到注释。反过来也同样。

5、pyexcel工具

一个包装器，他提供了一个接口去读、写、操做数据。经过该包装器能够根据场景下载安装不一样的插件（好比前面提到的：xlrd、xlwt、OpenPyXL、XlsxWriter），而后使用该包装器可使用相同的一套api去操做excel。

不过该工具若是是公司使用须要支付必定费用，大概$10，我的使用的话是免费的。（详情可参见：https://pypi.org/project/pyexcel/）。app

可用插件以下：
ide

举例(以xls文件为例，xlsx文件下载相应插件便可，api一致)

保存数据

 1     import pyexcel as p # make sure you had pyexcel-xls installed
 2     a_list_of_dictionaries = [
 3     {
 4     "Name": 'Adam',
 5     "Age": 28
 6     },
 7     {
 8     "Name": 'Beatrice',
 9     "Age": 29
10     },
11     {
12     "Name": 'Ceri',
13     "Age": 30
14     },
15     {
16     "Name": 'Dean',
17     "Age": 26
18     }
19     ]
20     pyexcel.save_as(records=a_list_of_dictionaries, dest_file_name="your_file.xls")

读取数据

1     import pyexcel as p # make sure you had pyexcel-xls installed
2     records = p.iget_records(file_name="your_file.xls")
3     for record in records:
4     print("%s is aged at %d" % (record['Name'], record['Age']))
5     p.free_resources()

输出：
Adam is aged at 28
Beatrice is aged at 29
Ceri is aged at 30
Dean is aged at 26工具