可⽤于解析Excel⽂件的程序语⾔
Excel⽂件是常见的数据⽂件,数据分析过程中经常会⽤到。有时我们需要⽤程序代码对 Excel ⽂件进⾏⼀些⾃动化处理,这需要程序语⾔能够⽅便地解析 Excel 数据。
可以⽤于解析和处理 Excel ⽂件的程序语⾔⼀般有以下⼏种:
1、 常规⾼级编程语⾔,⽐如 Java
2、 Excel VBA
3、 Python
4、 esProc SPL
本⽂依次介绍以上⼏种程序语⾔解析Excel⽂件的特点,重点放在如何将Excel⽂件读出为结构化数据,之后是⽤来再计算或是⼊库或是其它⽤途,就只作简单介绍。
⼀、⾼级语⾔(以Java为例)
⾼级语⾔⼏乎都可以读取Excel数据⽂件,但要看有没有第三⽅提供专业的API来读取,若是没有,就需要
程序员⾃⼰去了解Excel数据⽂件的结构,编写程序来读取数据,⼯作量⾮常⼤。幸运的是, Apache为Java提供了开源包poi⽤以读写Excel⽂件,它能读取每个单元格的数据和属性。让我们来看看⽤poi如何将Excel⽂件读成结构化的数据。
先看⼀个很简单的⽂件:第⼀⾏是列标题,第⼆⾏开始直到最后⼀⾏都是数据⾏。⽂件内容如下图:
⽤java调⽤poi读取数据,写出来的程序是这样:
DataSet ds = null; //此类⽤来保存从Excel中读取的数据,需要⾃⼰编写
HSSFWorkbook wb = new HSSFWorkbook( new FileInputStream( "simple.xls" ) );
HSSFSheet sheet = wb.getSheetAt( 0 ); //假定要读取的数据在第⼀个sheet中
int rows = LastRowNum();
int cols = Row(0).getLastCellNum();
ds = new DataSet( rows, cols );
for( int row = 0; row <= rows; row++ ) {
HSSFRow r = Row( row );
for( int col = 0; col <= cols; col++ ) {
HSSFCell cell = r.getCell( col );
int type = CellType();
Object cellValue; //单元格数据值对象
switch( type ) { //根据单元格数据类型,将格值处理成对应的Java对象
case HSSFCell.CELL_TYPE_STRING:
......
case HSSFCell.CELL_TYPE_NUMERIC:
.
.....
......
//格值处理代码⽐较长,此处省略
}
if( row == 0 ) ds.setColTitle( col, (String)cellValue );
else ds.setCellValue( row, col, cellValue );
//如果是第⼀⾏,则将格值设成列标题,否则设成数据集单元格数据
}
}
这段代码只能读取最简单格式的Excel⽂件,中间还省略了很多格值处理的代码,但代码已经不短了。如果⽂件格式更复杂,⽐如有合并格、复杂的多⾏表头表尾、数据记录分散于多⾏、交叉表等,读取数据的程序代码就会变得更长更复杂。
可以看出,即使有了poi这样强⼤的开源包,使⽤Java来解析Excel仍然是⾮常⿇烦的。
⽽且,⾼级语⾔只提供⽐较基础的底层函数,缺乏专业的结构化数据计算函数,⽐如数据集的过滤、排序、分组统计、连接等,都需要程序员⾃⼰去编写,因此即使数据读出来了,但要进⾏后续的计算,仍然有⼤量的⼯作要做。
⼆、 Excel VBA
VBA(Visual Basic for Applications)是的⼀种语⾔,主要能⽤来扩展的应⽤程序功能,特别是软件如Word、Excel、Access等。VBA⽤于Excel的⽬的是为了增强Excel的灵活性和数据处理能⼒。VBA可以直接获取单元格的数据,相当于天然有了解析能⼒,这⼀点⽐Java等⾼级语⾔⽅便了很多。但除此之外,它与⾼级语⾔⼀样,仍然缺乏专业的结构化计算函数,读取数据以后的后续计算,还是需要编写⼤量的程序代码。
⽐如写⼀段分组汇总(对sheet1的A列分组,对B列求和)的代码是这样的:
Public Sub test()
Dim Arr
Dim MyRng As Range
Dim i As Long
Dim Dic As Object
Set MyRng = Range("A1").CurrentRegion
Set MyRng = MyRng.Offset(1).Resize(MyRng.Rows.Count - 1, 2)
Set Dic = CreateObject("Scripting.dictionary")
Arr = MyRng
For i = 1 To UBound(Arr)
If ists(Arr(i, 1)) Then
Dic.Add Arr(i, 1), Arr(i, 2)
Else
Dic.Item(Arr(i, 1)) = Dic.Item(Arr(i, 1)) + Arr(i, 2)
End If
Next i
Sheet2.Range("A1") = "subject"
Sheet2.Range("A2").Resize(Dic.Count) = Application.WorksheetFunction.Transpose(Dic.keys)
Sheet2.Range("B1") = "subtotal"
Sheet2.Range("B2").Resize(Dic.Count) = Application.WorksheetFunction.Transpose(Dic.items)
Set Dic = Nothing
End Sub
resize函数vba毕竟我们解析Excel⽂件是为了后续计算和处理,仅仅解析本⾝是没有⽤处的。VBA能天然解析Excel⽂件,但后续处理能⼒并不⽅便。三、 Python
Python pandas提供了读取Excel⽂件的接⼝,对于前述⽤Java读取的那个简单格式的Excel⽂件,⽤Python读取的代码如下:
import pandas as pd
file = 'simple.xls'
data = pd.read_excel(file,sheet_name='Sheet1',header=0)
参数header=0表明第⼀⾏是列标题,data就是读出来的结构化数据集。
对于表头结构⽐较复杂的Excel,⽐如下图:
⽤Python读取这个⽂件的程序如下:
import pandas as pd
file = 'complex.xls'
data = pd.read_excel(file,sheet_name='Sheet1',header=None,skiprows=[0,1,2,3])
在读取时⽤参数指定没有表头且读数时跳过前⾯4⾏,从第5⾏数据区开始读(如果有表尾,还可以指定忽略最后⼏⾏),程序最后⼀⾏设置数据集data的列名。
Excel⽂件中还常有交叉表数据,例如下图:
读取这个交叉表的程序如下:
import pandas as pd
file = 'cross.xls'
data = pd.read_excel(file,sheet_name='Sheet1',header=1)
data = lt(id_vars=['Unnamed: 0'],
value_vars=['West', 'East','Center', 'North','South', 'Northwest','Southwest'],
var_name='Area',
value_name='Amount')
读出来的data数据如下图:
可以看出来,Python读取Excel⽂件的代码⽐较简单,⽐Java前进了⼀⼤步。⽽且pandas封装了不少结构化数据的处理函数,对于后续计算也⽐Java和VBA提供了较好的⽀持。如果是可读⼊内存的⼩⽂件,它可以很简单地处理。
可惜的是,pandas没有针对⼤⽂件提供直接分批处理的⽅法,⽆论读取还是运算仍然要⾃⼰写,⾮常⿇烦。可参考。
四、 esProc SPL
esProc是专业的数据处理⼯具,提供了各种读取Excel⽂件的⽅法,其脚本语⾔SPL中封装了丰富的结构化数据计算函数,可以完美地⽀持各种后续计算、数据导出及⼊库等⼯作。
esProc读取Excel⽂件的程序⾮常简单,只要写⼀⾏代码就可以:
1、 简单格式
=file("simple.xls").xlsimport@t()
选项@t表⽰第⼀⾏是列标题
2、 复杂表头
=file("complex.xls"). xlsimport(;1,5).rename(#1:No,#2:ItemCode,#3:ItemName,
#4:Unit,#5:Quantity,#6:Price,#7:Sum)
参数1,5表⽰读第1个sheet,从第5⾏开始读(也可以指定结束⾏),读数以后再⽤rename修改列名
3、 交叉表
=file("cross.xls").xlsimport@t(;1,2).rename(#1:Type).pivot@r(Type;Area,Amount)
pivot函数中以Type分组对表数据进⾏⾏列转置,选项@r表⽰将列数据转换为⾏数据,转换后新的列名分别为“Area”、“Amount”。
从代码上可以看出来,对于解析Excel⽂件,esProc SPL⽐Python pandas更为简洁。事实上,SPL做后续处理计算⽐pandas有更⼤优势,具体可参考。
⽽且,esProc还可以很⽅便地进⾏⼤⽂件数据的读取和计算,它提供游标机制,允许数据分析师⽤类似处理⼩数据量的语法,直观地处理较⼤的数据量,程序代码和处理⼩⽂件⼀样简单,⽐如简单格式的⼤数据量⽂件,⽤游标读数的程序代码是:
=file("big.xlsx").xlsimport@tc()
通过⽐较,我们可以看到,Python pandas和esProc SPL⽤于解析Excel⽂件的代码都很简练,⽽且也都具备丰富的结构化计算函数,可以实现⽇常⼯作中的数据处理。两者相⽐,esProc SPL更为简洁,并且还能⽅便地处理⼤⽂件。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论