带有双引号的熊猫数据

小编典典

python

我正在尝试读取.csv格式的大型数据集，该数据集使用熊猫库自动更新。问题在于，在我的数据中，第一行是不带双引号的字符串，而其他列是带双引号的字符串。我无法手动调整.csv文件。

简化的数据集看起来像这样

我需要将数据存储为单独的列，且不带引号，例如：

我尝试使用

import pandas as pd
df_csv = pd.read(path_to_file,delimiter=',')

这给了我完整的标题作为最后一列的单个变量

与我需要的结果最接近的结果是使用以下命令

df_csv = pd.read(path_to_file,delimiter=',',quoting=3)

可以正确识别每列，但会添加一堆额外的双引号。

将引号设置为0到2之间的值只会将整行读取为单列。

有谁知道在读取.csv文件时如何删除所有引号？

阅读 217

2020-12-20

共1个答案

小编典典

只需加载数据，pd.read_csv()然后使用.replace('"','', regex=True)

一行中将是：

df = pd.read_csv(filename, sep=',').replace('"','', regex=True)

设置列名称：

df.columns = df.iloc[0]

然后删除第0行：

df = df.drop(index=0).reset_index(drop=True)

2020-12-20