小编典典

防止熊猫将'NA'解释为字符串中的NaN

python

熊猫的read_csv()方法将’NA’解释为nan(不是数字),而不是有效的字符串。

在下面的简单情况下,请注意,第1行第2列(基于零的计数)的输出为’nan’而不是’NA’。

sample.tsv (制表符分隔)

PDB链SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_EN​​D SP_BEG SP_END
5d8b N P60490 1146 1146 1146
5d8b NA P80377 1 126
1126 1126 5d8b O P60491 1 118 1 118 1 118

read_sample.py

import pandas as pd

df = pd.read_csv(
    'sample.tsv',
    sep='\t',
    encoding='utf-8',
)

for df_tuples in df.itertuples(index=True):
    print(df_tuples)

输出

(0,u‘5d8b’,u’N’,u’P60490’,1,146,1,146,1,146)
(1,u‘5d8b’,nan,u’P80377’,1,126,1 ,
126,1,126 )(2,u‘5d8b’,u’O’,u’P60491’,1,118,1,118,1,118)

附加信息

用’CHAIN’列中的数据引号重写文件,然后使用quotechar参数quotechar='\''具有相同的结果。并且通过dtype参数传递类型的字典dtype=dict(valid_cols)不会更改结果。

请注意,按照iterrows文档中的描述,itertuples()用于保留dtype:“要在迭代行时保留dtype,最好使用itertuples()返回值的元组,并且通常在迭代时更快。”

该示例已在Python 2和3上使用pandas版本0.16.2、0.17.0和0.17.1进行了测试。


有没有办法捕获有效的字符串“ NA”,而不是将其转换为nan?


阅读 207

收藏
2020-12-20

共1个答案

小编典典

您可以使用参数keep_default_nana_values手动设置所有的NA值文档

import pandas as pd
from io import StringIO

data = """
PDB CHAIN SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END SP_BEG SP_END
5d8b N P60490 1 146 1 146 1 146
5d8b NA P80377 _ 126 1 126 1 126
5d8b O P60491 1 118 1 118 1 118
"""

df = pd.read_csv(StringIO(data), sep=' ', keep_default_na=False, na_values=['_'])

In [130]: df
Out[130]:
    PDB CHAIN SP_PRIMARY  RES_BEG  RES_END  PDB_BEG  PDB_END  SP_BEG  SP_END
0  5d8b     N     P60490        1      146        1      146       1     146
1  5d8b    NA     P80377      NaN      126        1      126       1     126
2  5d8b     O     P60491        1      118        1      118       1     118

In [144]: df.CHAIN.apply(type)
Out[144]:
0    <class 'str'>
1    <class 'str'>
2    <class 'str'>
Name: CHAIN, dtype: object

编辑

na值中的所有默认NA值(自1.0.0起):pandas

NaN识别的默认值是[‘-1。#IND’,‘1.#QNAN’,‘1.#IND’,’-1.#QNAN’,’#N / AN / A’,’#N / A’,’N
/ A’,’n / a’,’NA’,’,’#NA’,’NULL’,’null’,’NaN’,’-NaN’,’nan’,’- nan’,’‘]。

2020-12-20