python调用(百度云、腾讯云)API接口表格识别并保存为excel--688IT编程网

python调⽤（百度云、腾讯云）API接⼝表格识别并保存为excel Python表格识别

图像识别具有较⾼的商业价值，本节主要通过python调⽤(百度云、腾讯云)API接⼝表格识别并保存为excel分析表格识别的能⼒；

提⽰：需分别申请密钥，在相应位置添加⾃⼰密钥即可；

⽂章⽬录

前⾔

提⽰：以下是本篇⽂章正⽂内容，下⾯案例可供参考

⼀、图像识别应⽤分析

背景：

1、现场每天有⼤量的⼿⼯报表需要汇总；

2、⼈员⼿动将报表录⼊电脑耗费⼤量时间；

3、在信息量⾮常⼤的时代，图⽚、PDF等格式的信息占很⼤部分，但是我们不能直接提取其中的信息；

近年来，在深度学习的加持下，OCR(Optical Character Recognition，光学字符识别)的可⽤性不断提升，⼤量⽤户借助OCR软件，从图⽚中提取⽂本信息。然⽽对于表格场景，应⽤还未普及。

步骤：

1、通过⾼拍仪或扫描仪拍照；

2、读⼊图⽚灰度化(将彩⾊图⽚变为灰⾊图⽚)；

3、图⽚⼆值化(将图⽚变为只有⿊⽩两种颜⾊)；

4、识别出表格的横线、竖线(如果图⽚不够清晰可以加⼊腐蚀、膨胀等)；

5、得到横竖线的交点，进⽽得到单元格坐标；

6、通过坐标提取单元格图像，进⽽⽤pytesseract识别⽂字；

7、将得到的信息写⼊excel；

⼆、百度云表格识别测试

通过调⽤百度云识别指定⽂件夹下所有图⽚表格，将图⽚内容输出为excel⽂本格式，并将输出⽂件保存到指定⽂件夹下。

# encoding: utf-8

import os

import sys

import requests快速排序 java

import time

import tkinter as tk

from tkinter import filedialog

from aip import AipOcr

#转载来源

#wwwblogs/mrlayfolk/p/12630128.html

#代码运⾏环境：win10 python3.7

#需要aip库，使⽤pip install baidu-aip即可

# 定义常量

APP_ID ='APP_ID'

API_KEY ='API_KEY'

SECRET_KEY ='SECRET_KEY'

# 初始化AipFace对象

client =AipOcr(APP_ID, API_KEY, SECRET_KEY)

# 读取图⽚

def get_file_content(filePath):

with open(filePath,'rb') as fp:

ad()

#⽂件下载函数

def file_download(url, file_path):

r = (url)

with open(file_path,'wb') as f:

f.t)

if __name__ =="__main__":

root = tk.Tk()

root.withdraw()

data_dir = filedialog.askdirectory(title='请选择图⽚⽂件夹')+'/'

result_dir = filedialog.askdirectory(title='请选择输出⽂件夹')+'/'

num =0

for name in os.listdir(data_dir):

print('{0} : {1} 正在处理：'.format(num+1, name.split('.')[0]))

image =get_file_content(os.path.join(data_dir, name))

res = client.tableRecognitionAsync(image)

# print("res:", res)

if'error_code' in res.keys():

print('Error! error_code: ', res['error_code'])

req_id = res['result'][0]['request_id'] #获取识别ID号

for count in range(1,20): #OCR识别也需要⼀定时间，设定10秒内每隔1秒查询⼀次 res = TableRecognitionResult(req_id) #通过ID获取表格⽂件XLS地址print(res['result']['ret_msg'])

if res['result']['ret_msg']=='已完成':

break #云端处理完毕，成功获取表格⽂件下载地址，跳出循环

else:

time.sleep(1)

url = res['result']['result_data']

xls_name = name.split('.')[0]+'.xls'

file_download(url, os.path.join(result_dir, xls_name))java贪吃蛇源码

num +=1

print('{0} : {1} 下载完成。'.format(num, xls_name))

三、腾讯云表格识别测试

通过调⽤腾讯云识别指定⽂件夹下所有图⽚表格，将图⽚内容输出为excel⽂本格式，并将输出⽂件保存到指定⽂件夹下。代码如下（⽰例）：

# from PIL import Imagecashl是什么意思

# import pytesseract

##导⼊通⽤包

import numpy as np

import pandas as pd

import os

import json

import re

import base64

import xlwings as xw

##导⼊腾讯AI api

from tencentcloudmon import credential

from tencentcloudmon.profile.client_profile import ClientProfile

from tencentcloudmon.profile.http_profile import HttpProfile

t_cloud_sdk_exception import TencentCloudSDKException

v20181119 import ocr_client, models

#定义函数

def excelFromPictures(picture,SecretId,SecretKey):

try:

with open(picture,"rb") as f:

html代码爱心树img_data = f.read()

img_base64 = base64.b64encode(img_data)

cred = credential.Credential(SecretId, SecretKey) #ID和Secret从腾讯云申请

httpProfile =HttpProfile()

clientProfile =ClientProfile()

clientProfile.httpProfile = httpProfile

client = ocr_client.OcrClient(cred,"ap-shanghai", clientProfile)

req = models.TableOCRRequest()

params ='{"ImageBase64":"'+str(img_base64,'utf-8')+'"}'

req.from_json_string(params)

resp = client.TableOCR(req)

# _json_string())

except TencentCloudSDKException as err:

print(err)

##提取识别出的数据，并且⽣成json

result1 = json._json_string())

rowIndex =[]

colIndex =[]

content =[]

for item in result1['TextDetections']:

rowIndex.append(item['RowTl'])

colIndex.append(item['ColTl'])

content.append(item['Text'])

python入门教程网盘

##导出Excel

##ExcelWriter⽅案

rowIndex = pd.Series(rowIndex)

colIndex = pd.Series(colIndex)

index = rowIndex.unique()

columns = colIndex.unique()

columns.sort()

data = pd.DataFrame(index = index, columns = columns)

for i in range(len(rowIndex)):

data.loc[rowIndex[i],colIndex[i]]= re.sub(" ","",content[i])

writer = pd.ExcelWriter("../tables/"+ re.match(".*\.",f.name).group()+"xlsx", engine='xlsxwriter') _excel(writer,sheet_name ='Sheet1', index=False,header = False)

writer.save()

#xlwings⽅案

# wb= xw.Book()

# sht= wb.sheets('Sheet1')

# for i in range(len(rowIndex)):

# sht[rowIndex[i],colIndex[i]].value = re.sub(" ",'',content[i])

# wb.save("../tables/"+ re.match(".*\.",f.name).group()+"xlsx")

# wb.close()

if not('tables') in os.listdir():

os.mkdir("./tables/")

os.chdir("./image2/")

pictures = os.listdir()

for pic in pictures:

excelFromPictures(pic,"SecretId","SecretKey")

sidebar是什么软件

print("已经完成"+ pic +"的提取.")

总结

有不对的地⽅希望⼤家可以评论留⾔，帮助⼤家不迷路！！

期待⼤家的加⼊，⼀起学习，⼀起交流！！。

688IT编程网

python调用(百度云、腾讯云)API接口表格识别并保存为excel

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python调用(百度云、腾讯云)API接口表格识别并保存为excel

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式