【Python技巧系列】Python中key-value格式数据存储方案--688IT编程网

【Python技巧系列】Python中key-value格式数据存储⽅案

key-value格式的存储的应⽤场景很多，通⽤的描述是『输⼊⼀个唯⼀标识的input，返回（查）⼀个对应的output』。Python中字典（dictionary）就是⼀个内置的解决⽅案 - Python的字典本质上是⼀个哈希表，功能可对应Java的HashMap，但据说被尽可能地优化过（没有研究过细节，不随意展开），因此输⼊key的查询速度可以说是Python本⾝能达到的极致了。但是，并不是每个场景都是以查询速度为第⼀条件的。Python字典在建⽴的过程中同时也要建⽴⼀个C long型的哈希表（以及其他？），因此会额外占据很多空间。若是需要在内存中保持⼀个很⼤的key-value数据结构，并可以牺牲查询速度的话，也可以⽤其他⽅案替代。

这篇整理⼀下Python中各种常⽤的key-value⽅案以及适⽤场景。

优点：⽅便简洁，查询速度No.1

缺点：占⽤内存空间。

适⽤场景：内存⾜够。

这⾥我们主要关⼼的是，Series / DataFrame的索引中，⽤户⾃定义索引和内部建⽴的数值型索引的映射是怎么实现的？（重点 - 是字典吗？答案：是。）

拿Series来举例：

class Series(base.IndexOpsMixin, strings.StringAccessorMixin,

generic.NDFrame,):

def __init__(self, data=None, index=None, dtype=None, name=None,

copy=False, fastpath=False):

...

self._set_axis(0, index, fastpath=True)

def _set_axis(self, axis, labels, fastpath=False):

...

self._data.set_axis(axis, labels)

...

其中._data是generic.NDFrame初始化设置的对象属性值：

class NDFrame(PandasObject):

def __init__(self, data, axes=None, copy=False, dtype=None,

fastpath=False):

...

object.__setattr__(self, '_data', data)

...

因此，我们追溯到.ic.NDFrames中定义的set_axis⽅法：

def set_axis(self, axis, labels):

""" public verson of axis assignment """

setattr(self, self._get_axis_name(axis), labels)

⼜追溯到同类中的_get_axis_name⽅法：

def _get_axis_name(self, axis):

axis = self._(axis, axis)

if isinstance(axis, string_types):

if axis in self._AXIS_NUMBERS:

return axis

else:

try:

return self._AXIS_NAMES[axis]

except:

pass

raise ValueError('No axis named {0} for object type {1}'

.format(axis, type(self)))

其中⽤到的._AXIS_ALIASES，_AXIS_NUMBERS，_AXIS_NAMES⼜追溯到了当前类的_setup_axes⽅法：

@classmethod

def _setup_axes(cls, axes, info_axis=None, stat_axis=None, aliases=None,

slicers=None, axes_are_reversed=False, build_axes=True,

ns=None):

cls._AXIS_ORDERS = axes

cls._AXIS_NUMBERS = dict((a, i) for i, a in enumerate(axes))

cls._AXIS_LEN = len(axes)

cls._AXIS_ALIASES = aliases or dict()

python 定义数组

cls._AXIS_IALIASES = dict((v, k) for k, v in cls._AXIS_ALIASES.items())

cls._AXIS_NAMES = dict(enumerate(axes))

cls._AXIS_SLICEMAP = slicers or None

cls._AXIS_REVERSED = axes_are_reversed

这个函数在series.py这个⽂件中是在class series外使⽤的，也就是⼀import就直接被执⾏，为以上的⼏个属性进⾏赋值（初始化？）:

Series._setup_axes(['index'], info_axis=0, stat_axis=0, aliases={'rows': 0})

因此我们可以看到，axes，或者说axis，index的alias别名和实际使⽤⽤来查的内部使⽤的index序号是⽤字典来映射的。也就是说，如果我们仅仅要⽤Series来存储⼀个key-value的数据结构，在存储上是和字典⼀个级别的。

优点：数据分析功能多样。

缺点：同字典。

适⽤场景：内存⾜够，并且需要进⾏数据分析的活动。

优点：可选择在硬盘上存储。

缺点：同⼀时间只能被⼀个连接访问修改，其他连接被加锁。

适⽤场景：⽐较通⽤。不介意密集I/O操作，不介意查询速度。

元组是定长数组，列表是不定长数组。元组在存储空间上⽐列表节省16byte，估计是⼀个指针空位（？）

优点：简洁快速。

缺点：太过简陋。

适⽤场景：key可以被序列化，key可以被⼀个公式映射成唯⼀的index，因此能够直接⽤key得知index。

688IT编程网

【Python技巧系列】Python中key-value格式数据存储方案

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

【Python技巧系列】Python中key-value格式数据存储方案

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式