pandas取第⼀⾏数据_适⽤初学者的5种Python数据输⼊技术摘要:数据是数据科学家的基础,因此了解许多加载数据进⾏分析的⽅法⾄关重要。在这⾥,我们将介绍五种Python数据输⼊技 摘要
术,并提供代码⽰例供您参考。
数据是数据科学家的基础,因此了解许多加载数据进⾏分析的⽅法⾄关重要。在这⾥,我们将介绍五种Python数据输⼊技术,并提供代码⽰例供您参考。
作为初学者,您可能只知道⼀种使⽤ad_csv函数读取数据的⽅式(通常以CSV格式)。它是最成熟,功能最强⼤的功能之⼀,但其他⽅法很有帮助,有时肯定会派上⽤场。
我要讨论的⽅法是:
1. Manual 函数
2. loadtxt 函数
3. genfromtxtf 函数
4. read_csv 函数
5. Pickle
我们将⽤于加载数据的数据集可以在此处到 。它被称为100-Sales-Records。
Imports
我们将使⽤Numpy,Pandas和Pickle软件包,因此将其导⼊。
1. Manual Function
这是最困难的,因为您必须设计⼀个⾃定义函数,该函数可以为您加载数据。您必须处理Python的常规归档概念,并使⽤它来读取 .csv ⽂件。
让我们在100个销售记录⽂件上执⾏此操作。
嗯,这是什么似乎有点复杂的代码!!!让我们逐步打破它,以便您了解正在发⽣的事情,并且可以应⽤类似的逻辑来读取 ⾃⼰的 .csv⽂件。
在这⾥,我创建了⼀个 load_csv 函数,该函数将要读取的⽂件的路径作为参数。
我有⼀个名为data 的列表, 它将具有我的CSV⽂件数据,⽽另⼀个列表 col 将具有我的列名。现在,在⼿动检查了csv之后,我知道列名在第⼀⾏中,因此在我的第⼀次迭代中,我必须将第⼀⾏的数据存储在 col中, 并将其余⾏存储在 data中。
为了检查第⼀次迭代,我使⽤了⼀个名为checkcol 的布尔变量, 它为False,并且在第⼀次迭代中为false时,它将第⼀⾏的数据存储在col中 ,然后将checkcol 设置 为True,因此我们将处理 数据列表并将其余值存储在 数据列表中。
逻辑
这⾥的主要逻辑是,我使⽤readlines() Python中的函数在⽂件中进⾏了迭代 。此函数返回⼀个列表,其中包含⽂件中的所有⾏。
当阅读标题时,它会将新⾏检测为 n 字符,即⾏终⽌字符,因此为了删除它,我使⽤了 place 函数。
由于这是⼀个 的.csv ⽂件,所以我必须要根据不同的东西 逗号 ,所以我会各执⼀个字符串, ⽤ string.split(“”) 。对于第⼀次迭代,我将存储第⼀⾏,其中包含列名的列表称为 col。然后,我会将所有数据附加到名为data的列表中 。
为了更漂亮地读取数据,我将其作为数据框格式返回,因为与numpy数组或python的列表相⽐,读取数据框更容易。
输出量
利弊
重要的好处是您具有⽂件结构的所有灵活性和控制权,并且可以以任何想要的格式和⽅式读取和存储它。
您也可以使⽤⾃⼰的逻辑读取不具有标准结构的⽂件。
它的重要缺点是,特别是对于标准类型的⽂件,编写起来很复杂,因为它们很容易读取。您必须对需要反复试验的逻辑进⾏硬编码。
仅当⽂件不是标准格式或想要灵活性并且以库⽆法提供的⽅式读取⽂件时,才应使⽤它。
2. Numpy.loadtxt函数
这是Python中著名的数字库Numpy中的内置函数。加载数据是⼀个⾮常简单的功能。这对于读取相同数据类型的数据⾮常有⽤。
当数据更复杂时,使⽤此功能很难读取,但是当⽂件简单时,此功能确实⾮常强⼤。
要获取单⼀类型的数据,可以下载 此处 虚拟数据集。让我们跳到代码。
这⾥,我们简单地使⽤了在传⼊的定界符中 作为 ','的 loadtxt 函数 , 因为这是⼀个CSV⽂件。
现在,如果我们打印 df,我们将看到可以使⽤的相当不错的numpy数组中的数据。
由于数据量很⼤,我们仅打印了前5⾏。
利弊
使⽤此功能的⼀个重要⽅⾯是您可以将⽂件中的数据快速加载到numpy数组中。
缺点是您不能有其他数据类型或数据中缺少⾏。
3. fromtxt()
我们将使⽤数据集,即第⼀个⽰例中使⽤的数据集“ 100 Sales Records.csv”,以证明其中可以包含多种数据类型。
让我们跳到代码。
为了更清楚地看到它,我们可以以数据框格式看到它,即
这是什么?哦,它已跳过所有具有字符串数据类型的列。怎么处理呢?
只需添加另⼀个 dtype 参数并将dtype 设置 为None即可,这意味着它必须照顾每⼀列本⾝的数据类型。不将整个数据转换为单个dtype。
然后输出
⽐第⼀个要好得多,但是这⾥的“列”标题是“⾏”,要使其成为列标题,我们必须添加另⼀个参数,即 名称 ,并将其设置为 True, 这样它将第⼀⾏作为“列标题”。
python怎么读csv数据
我们可以将其打印为
4. ad_csv()
Pandas是⼀个⾮常流⾏的数据操作库,它⾮常常⽤。read_csv()是⾮常重要且成熟的 功能 之⼀,它 可以⾮常轻松地读取任何 .csv ⽂件并帮助我们进⾏操作。让我们在100个销售记录的数据集上进⾏操作。
此功能易于使⽤,因此⾮常受欢迎。您可以将其与我们之前的代码进⾏⽐较,然后进⾏检查。
你猜怎么着?我们完了。这实际上是如此简单和易于使⽤。ad_csv肯定提供了许多其他参数来调整我们的数据集,例如在我们的convertcsv.csv ⽂件中,我们没有列名,因此我们可以将其读取为
我们可以看到它已经读取了没有标题的 csv ⽂件。您可以在此处查看官⽅⽂档中的所有其他参数 。
5. Pickle
如果您的数据不是⼈类可以理解的良好格式,则可以使⽤pickle将其保存为⼆进制格式。然后,您可以使⽤pickle库轻松地重新加载它。
我们将获取100个销售记录的CSV⽂件,并⾸先将其保存为pickle格式,以便我们可以读取它。
这将创建⼀个新⽂件 test.pkl ,其中包含来⾃ Pandas 标题的 pdDf 。
现在使⽤pickle打开它,我们只需要使⽤ pickle.load 函数。
在这⾥,我们已成功从pandas.DataFrame 格式的pickle⽂件中加载了数据 。
本⽂分享⾃华为云社区《Python加载数据的5种不同⽅式》,原⽂作者:⼀只⽆脑程序员
点击关注,第⼀时间了解华为云新鲜技术~

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。