Python统计数据集标签的类别及数目操作--688IT编程网

Python统计数据集标签的类别及数⽬操作看了⼤神统计voc数据集标签框后，针对⾃⼰标注数据集，灵活应⽤，感谢！

看代码吧~

import re

import os

ElementTree as ET

class1 = 'answer'

class2 = 'hand'

class3 = 'write'

class4 = 'music'

class5 = 'phone'

'''class6 = 'bus'

class7 = 'car'

class8 = 'cat'

class9 = 'chair'

class10 = 'cow'

class11 = 'diningtable'

class12 = 'dog'

class13 = 'horse'

class14 = 'motorbike'

class15 = 'person'

class16 = 'pottedplant'

class17 = 'sheep'

class18 = 'sofa'

class19 = 'train'

class20 = 'tvmonitor'

'''

annotation_folder = '/home/.../train/' #改为⾃⼰标签⽂件夹的路径

#annotation_folder = '/home/.../VOC2007/Annotations/'

list = os.listdir(annotation_folder)

def file_name(file_dir):

L = []

for root, dirs, files in os.walk(file_dir):

for file in files:

if os.path.splitext(file)[1] == '.xml':

L.append(os.path.join(root, file))

return L

total_number1 = 0

total_number2 = 0

total_number3 = 0

total_number4 = 0

total_number5 = 0

'''total_number6 = 0

total_number7 = 0

total_number8 = 0

total_number9 = 0

total_number10 = 0

total_number11 = 0

total_number12 = 0

total_number13 = 0

total_number14 = 0

total_number15 = 0

total_number16 = 0

total_number17 = 0

total_number18 = 0

total_number19 = 0

total_number20 = 0'''

total = 0

total_pic=0

pic_num1 = 0

pic_num2 = 0

pic_num3 = 0

pic_num4 = 0

pic_num5 = 0

'''pic_num6 = 0

pic_num7 = 0

pic_num8 = 0

pic_num11 = 0

pic_num12 = 0

pic_num13 = 0

pic_num14 = 0

pic_num15 = 0

pic_num16 = 0

pic_num17 = 0

pic_num18 = 0

pic_num19 = 0

pic_num20 = 0'''

flag1 = 0

flag2 = 0

flag3 = 0

flag4 = 0

flag5 = 0

'''flag6 = 0

flag7 = 0

flag8 = 0

flag9 = 0

flag10 = 0

flag11 = 0

flag12 = 0

flag13 = 0

flag14 = 0

flag15= 0

flag16 = 0

flag17 = 0

flag18 = 0

flag19 = 0

flag20 = 0'''

xml_dirs = file_name(annotation_folder)

for i in range(0, len(xml_dirs)):

print(xml_dirs[i])

#path = os.path.join(annotation_folder,list[i])

#print(path)

annotation_file = open(xml_dirs[i]).read()

root = ET.fromstring(annotation_file)

#tree = ET.parse(annotation_file)

#root = t()

total_pic = total_pic + 1

for obj in root.findall('object'):

label = obj.find('name').text

if label == class1:

total_number1=total_number1+1

flag1=1

total = total + 1

#print("bounding box number:", total_number1) if label == class2:

total_number2=total_number2+1

flag2=1

total = total + 1

if label == class3:

total_number3=total_number3+1

flag3=1

total = total + 1

if label == class4:

total_number4=total_number4+1

flag4=1

total = total + 1

if label == class5:

total_number5=total_number5+1

flag5=1

total = total + 1

'''if label == class6:

total_number6=total_number6+1

flag6=1

total = total + 1

if label == class7:

total_number7=total_number7+1

if label == class8:

total_number8=total_number8+1 flag8=1

total = total + 1

if label == class9:

total_number9=total_number9+1 flag9=1

total = total + 1

if label == class10:

total_number10=total_number10+1 flag10=1

total = total + 1

if label == class11:

total_number11=total_number11+1 flag11=1

total = total + 1

if label == class12:

total_number12=total_number12+1 flag12=1

total = total + 1

if label == class13:

total_number13=total_number13+1 flag13=1

total = total + 1

if label == class14:

total_number14=total_number14+1 flag14=1

total = total + 1

if label == class15:

total_number15=total_number15+1 flag15=1

total = total + 1

if label == class16:

total_number16=total_number16+1 flag16=1

total = total + 1

if label == class17:

total_number17=total_number17+1 flag17=1

total = total + 1

if label == class18:

total_number18=total_number18+1 flag18=1

total = total + 1

if label == class19:

total_number19=total_number19+1 flag19=1

total = total + 1

if label == class20:

total_number20=total_number20+1 flag20=1

total = total + 1'''

if flag1==1:

pic_num1=pic_num1+1

#print("pic number:", pic_num1)

flag1=0

if flag2==1:

pic_num2=pic_num2+1

flag2=0

if flag3==1:

pic_num3=pic_num3+1

flag3=0

if flag4==1:

pic_num4=pic_num4+1

flag4=0

if flag5==1:

pic_num5=pic_num5+1

flag5=0

'''if flag6==1:

pic_num6=pic_num6+1

flag6=0

if flag7==1:

pic_num7=pic_num7+1

python处理xml文件if flag8==1:

pic_num8=pic_num8+1

flag8=0

if flag9==1:

pic_num9=pic_num9+1

flag9=0

if flag10==1:

pic_num10=pic_num10+1

flag10=0

if flag11==1:

pic_num11=pic_num11+1

flag11=0

if flag12==1:

pic_num12=pic_num12+1

flag12=0

if flag13==1:

pic_num13=pic_num13+1

flag13=0

if flag14==1:

pic_num14=pic_num14+1

flag14=0

if flag15==1:

pic_num15=pic_num15+1

flag15=0

if flag16==1:

pic_num16=pic_num16+1

flag16=0

if flag17==1:

pic_num17=pic_num17+1

flag17=0

if flag18==1:

pic_num18=pic_num18+1

flag18=0

if flag19==1:

pic_num19=pic_num19+1

flag19=0

if flag20==1:

pic_num20=pic_num20+1

flag20=0'''

print(class1,pic_num1,total_number1)

print(class2,pic_num2,total_number2)

print(class3,pic_num3, total_number3)

print(class4,pic_num4, total_number4)

print(class5,pic_num5, total_number5)

'''print(class6,pic_num6, total_number6)

print(class7,pic_num7, total_number7)

print(class8,pic_num8, total_number8)

print(class9,pic_num9, total_number9)

print(class10,pic_num10, total_number10)

print(class11,pic_num11,total_number11)

print(class12,pic_num12,total_number12)

print(class13,pic_num13, total_number13)

print(class14,pic_num14, total_number14)

print(class15,pic_num15, total_number15)

print(class16,pic_num16, total_number16)

print(class17,pic_num17, total_number17)

print(class18,pic_num18, total_number18)

print(class19,pic_num19, total_number19)

print(class20,pic_num20, total_number20)'''

print("total", total_pic, total)

补充：【数据集处理】Python对⽬标检测数据集xml⽂件操作（统计⽬标种类、数量、⾯积、⽐例等&修改⽬标名字）1. 根据xml⽂件统计⽬标种类以及数量

# -*- coding:utf-8 -*-

#根据xml⽂件统计⽬标种类以及数量

import os

ElementTree as ET

import numpy as np

np.set_printoptions(suppress=True, threshold=np.nan)

import matplotlib

from PIL import Image

def parse_obj(xml_path, filename):

tree=ET.parse(xml_path+filename)

objects=[]

for obj in tree.findall('object'):

obj_struct={}

obj_struct['name']=obj.find('name').text

objects.append(obj_struct)

return objects

def read_image(image_path, filename):

im=Image.open(image_path+filename)

W=im.size[0]

H=im.size[1]

area=W*H

im_info=[W,H,area]

return im_info

if __name__ == '__main__':

xml_path='/home/dlut/⽹络/make_database/数据集——合集/VOCdevkit/VOC2018/Annotations/'

filenamess=os.listdir(xml_path)

filenames=[]

for name in filenamess:

place('.xml','')

filenames.append(name)

recs={}

obs_shape={}

classnames=[]

num_objs={}

obj_avg={}

for i,name in enumerate(filenames):

recs[name]=parse_obj(xml_path, name+ '.xml' )

for name in filenames:

for object in recs[name]:

if object['name'] not in num_objs.keys():

num_objs[object['name']]=1

else:

num_objs[object['name']]+=1

if object['name'] not in classnames:

classnames.append(object['name'])

for name in classnames:

print('{}:{}个'.format(name,num_objs[name]))

print('信息统计算完毕。')

2.根据xml⽂件统计⽬标的平均长度、宽度、⾯积以及每⼀个⽬标在原图中的占⽐

# -*- coding:utf-8 -*-

#统计

# 计算每⼀个⽬标在原图中的占⽐

# 计算⽬标的平均长度、

# 计算平均宽度，

# 计算平均⾯积、

# 计算⽬标平均占⽐

import os

ElementTree as ET

import numpy as np

#np.set_printoptions(suppress=True, threshold=np.nan) #10,000,000

np.set_printoptions(suppress=True, threshold=10000000) #10,000,000

import matplotlib

from PIL import Image

def parse_obj(xml_path, filename):

tree = ET.parse(xml_path + filename)

objects = []

for obj in tree.findall('object'):

obj_struct = {}

obj_struct['name'] = obj.find('name').text

688IT编程网

Python统计数据集标签的类别及数目操作

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python统计数据集标签的类别及数目操作

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式