可用于解析Excel文件的程序语言--688IT编程网

可⽤于解析Excel⽂件的程序语⾔

Excel⽂件是常见的数据⽂件，数据分析过程中经常会⽤到。有时我们需要⽤程序代码对 Excel ⽂件进⾏⼀些⾃动化处理，这需要程序语⾔能够⽅便地解析 Excel 数据。

可以⽤于解析和处理 Excel ⽂件的程序语⾔⼀般有以下⼏种：

1、常规⾼级编程语⾔，⽐如 Java

2、 Excel VBA

3、 Python

4、 esProc SPL

本⽂依次介绍以上⼏种程序语⾔解析Excel⽂件的特点，重点放在如何将Excel⽂件读出为结构化数据，之后是⽤来再计算或是⼊库或是其它⽤途，就只作简单介绍。

⼀、⾼级语⾔（以Java为例）

⾼级语⾔⼏乎都可以读取Excel数据⽂件，但要看有没有第三⽅提供专业的API来读取，若是没有，就需要

程序员⾃⼰去了解Excel数据⽂件的结构，编写程序来读取数据，⼯作量⾮常⼤。幸运的是， Apache为Java提供了开源包poi⽤以读写Excel⽂件，它能读取每个单元格的数据和属性。让我们来看看⽤poi如何将Excel⽂件读成结构化的数据。

先看⼀个很简单的⽂件：第⼀⾏是列标题，第⼆⾏开始直到最后⼀⾏都是数据⾏。⽂件内容如下图：

⽤java调⽤poi读取数据，写出来的程序是这样：

DataSet ds = null; //此类⽤来保存从Excel中读取的数据，需要⾃⼰编写

HSSFWorkbook wb = new HSSFWorkbook( new FileInputStream( "simple.xls" ) );

HSSFSheet sheet = wb.getSheetAt( 0 ); //假定要读取的数据在第⼀个sheet中

int rows = LastRowNum();

int cols = Row(0).getLastCellNum();

ds = new DataSet( rows, cols );

for( int row = 0; row <= rows; row++ ) {

HSSFRow r = Row( row );

for( int col = 0; col <= cols; col++ ) {

HSSFCell cell = r.getCell( col );

int type = CellType();

Object cellValue; //单元格数据值对象

switch( type ) { //根据单元格数据类型，将格值处理成对应的Java对象

case HSSFCell.CELL_TYPE_STRING:

......

case HSSFCell.CELL_TYPE_NUMERIC:

.....

......

//格值处理代码⽐较长，此处省略

}

if( row == 0 ) ds.setColTitle( col, (String)cellValue );

else ds.setCellValue( row, col, cellValue );

//如果是第⼀⾏，则将格值设成列标题，否则设成数据集单元格数据

}

这段代码只能读取最简单格式的Excel⽂件，中间还省略了很多格值处理的代码，但代码已经不短了。如果⽂件格式更复杂，⽐如有合并格、复杂的多⾏表头表尾、数据记录分散于多⾏、交叉表等，读取数据的程序代码就会变得更长更复杂。

可以看出，即使有了poi这样强⼤的开源包，使⽤Java来解析Excel仍然是⾮常⿇烦的。

⽽且，⾼级语⾔只提供⽐较基础的底层函数，缺乏专业的结构化数据计算函数，⽐如数据集的过滤、排序、分组统计、连接等，都需要程序员⾃⼰去编写，因此即使数据读出来了，但要进⾏后续的计算，仍然有⼤量的⼯作要做。

⼆、 Excel VBA

VBA(Visual Basic for Applications)是的⼀种语⾔，主要能⽤来扩展的应⽤程序功能，特别是软件如Word、Excel、Access等。VBA⽤于Excel的⽬的是为了增强Excel的灵活性和数据处理能⼒。VBA可以直接获取单元格的数据，相当于天然有了解析能⼒，这⼀点⽐Java等⾼级语⾔⽅便了很多。但除此之外，它与⾼级语⾔⼀样，仍然缺乏专业的结构化计算函数，读取数据以后的后续计算，还是需要编写⼤量的程序代码。

⽐如写⼀段分组汇总(对sheet1的A列分组，对B列求和)的代码是这样的：

Public Sub test()

Dim Arr

Dim MyRng As Range

Dim i As Long

Dim Dic As Object

Set MyRng = Range("A1").CurrentRegion

Set MyRng = MyRng.Offset(1).Resize(MyRng.Rows.Count - 1, 2)

Set Dic = CreateObject("Scripting.dictionary")

Arr = MyRng

For i = 1 To UBound(Arr)

If ists(Arr(i, 1)) Then

Dic.Add Arr(i, 1), Arr(i, 2)

Else

Dic.Item(Arr(i, 1)) = Dic.Item(Arr(i, 1)) + Arr(i, 2)

End If

Next i

Sheet2.Range("A1") = "subject"

Sheet2.Range("A2").Resize(Dic.Count) = Application.WorksheetFunction.Transpose(Dic.keys)

Sheet2.Range("B1") = "subtotal"

Sheet2.Range("B2").Resize(Dic.Count) = Application.WorksheetFunction.Transpose(Dic.items)

Set Dic = Nothing

End Sub

resize函数vba毕竟我们解析Excel⽂件是为了后续计算和处理，仅仅解析本⾝是没有⽤处的。VBA能天然解析Excel⽂件，但后续处理能⼒并不⽅便。三、 Python

Python pandas提供了读取Excel⽂件的接⼝，对于前述⽤Java读取的那个简单格式的Excel⽂件，⽤Python读取的代码如下：

import pandas as pd

file = 'simple.xls'

data = pd.read_excel(file,sheet_name='Sheet1',header=0)

参数header=0表明第⼀⾏是列标题，data就是读出来的结构化数据集。

对于表头结构⽐较复杂的Excel，⽐如下图：

⽤Python读取这个⽂件的程序如下：

import pandas as pd

file = 'complex.xls'

data = pd.read_excel(file,sheet_name='Sheet1',header=None,skiprows=[0,1,2,3])

在读取时⽤参数指定没有表头且读数时跳过前⾯4⾏，从第5⾏数据区开始读(如果有表尾，还可以指定忽略最后⼏⾏)，程序最后⼀⾏设置数据集data的列名。

Excel⽂件中还常有交叉表数据，例如下图：

读取这个交叉表的程序如下：

import pandas as pd

file = 'cross.xls'

data = pd.read_excel(file,sheet_name='Sheet1',header=1)

data = lt(id_vars=['Unnamed: 0'],

value_vars=['West', 'East','Center', 'North','South', 'Northwest','Southwest'],

var_name='Area',

value_name='Amount')

读出来的data数据如下图：

可以看出来，Python读取Excel⽂件的代码⽐较简单，⽐Java前进了⼀⼤步。⽽且pandas封装了不少结构化数据的处理函数，对于后续计算也⽐Java和VBA提供了较好的⽀持。如果是可读⼊内存的⼩⽂件，它可以很简单地处理。

可惜的是，pandas没有针对⼤⽂件提供直接分批处理的⽅法，⽆论读取还是运算仍然要⾃⼰写，⾮常⿇烦。可参考。

四、 esProc SPL

esProc是专业的数据处理⼯具，提供了各种读取Excel⽂件的⽅法，其脚本语⾔SPL中封装了丰富的结构化数据计算函数，可以完美地⽀持各种后续计算、数据导出及⼊库等⼯作。

esProc读取Excel⽂件的程序⾮常简单，只要写⼀⾏代码就可以：

1、简单格式

=file("simple.xls").xlsimport@t()

选项@t表⽰第⼀⾏是列标题

2、复杂表头

=file("complex.xls"). xlsimport(;1,5).rename(#1:No,#2:ItemCode,#3:ItemName,

#4:Unit,#5:Quantity,#6:Price,#7:Sum)

参数1,5表⽰读第1个sheet，从第5⾏开始读(也可以指定结束⾏)，读数以后再⽤rename修改列名

3、交叉表

=file("cross.xls").xlsimport@t(;1,2).rename(#1:Type).pivot@r(Type;Area,Amount)

pivot函数中以Type分组对表数据进⾏⾏列转置，选项@r表⽰将列数据转换为⾏数据，转换后新的列名分别为“Area”、“Amount”。

从代码上可以看出来，对于解析Excel⽂件，esProc SPL⽐Python pandas更为简洁。事实上，SPL做后续处理计算⽐pandas有更⼤优势，具体可参考。

⽽且，esProc还可以很⽅便地进⾏⼤⽂件数据的读取和计算，它提供游标机制，允许数据分析师⽤类似处理⼩数据量的语法，直观地处理较⼤的数据量，程序代码和处理⼩⽂件⼀样简单，⽐如简单格式的⼤数据量⽂件，⽤游标读数的程序代码是：

=file("big.xlsx").xlsimport@tc()

通过⽐较，我们可以看到，Python pandas和esProc SPL⽤于解析Excel⽂件的代码都很简练，⽽且也都具备丰富的结构化计算函数，可以实现⽇常⼯作中的数据处理。两者相⽐，esProc SPL更为简洁，并且还能⽅便地处理⼤⽂件。

688IT编程网

可用于解析Excel文件的程序语言

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

可用于解析Excel文件的程序语言

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式