尝试合并2个数据框但出现ValueError

小编典典

尝试合并2个数据框但出现ValueError

python

这是我保存在两个变量中的两个数据框：

> print(df.head())
>
          club_name  tr_jan  tr_dec  year
    0  ADO Den Haag    1368    1422  2010
    1  ADO Den Haag    1455    1477  2011
    2  ADO Den Haag    1461    1443  2012
    3  ADO Den Haag    1437    1383  2013
    4  ADO Den Haag    1386    1422  2014
> print(rankingdf.head())
>
           club_name  ranking  year
    0    ADO Den Haag    12    2010
    1    ADO Den Haag    13    2011
    2    ADO Den Haag    11    2012
    3    ADO Den Haag    14    2013
    4    ADO Den Haag    17    2014

我正在尝试使用以下代码合并这两个：

new_df = df.merge(ranking_df, on=['club_name', 'year'], how='left')

添加how =’left’的原因是，我的ranking_df中的数据点少于标准df中的数据点。

预期的行为是这样的：

> print(new_df.head()) 
>

      club_name  tr_jan  tr_dec  year    ranking
0  ADO Den Haag    1368    1422  2010    12
1  ADO Den Haag    1455    1477  2011    13
2  ADO Den Haag    1461    1443  2012    11
3  ADO Den Haag    1437    1383  2013    14
4  ADO Den Haag    1386    1422  2014    17

但是我得到这个错误：

ValueError：您正在尝试合并object和int64列。如果要继续，则应使用pd.concat

但是我不希望使用concat，因为我想合并树而不只是添加它们。

我想到的另一种行为是，如果我将第一个df保存到.csv，然后将该.csv加载到数据帧中，则我的代码将起作用。

该代码：

df = pd.DataFrame(data_points, columns=['club_name', 'tr_jan', 'tr_dec', 'year'])
df.to_csv('preliminary.csv')

df = pd.read_csv('preliminary.csv', index_col=0)

ranking_df = pd.DataFrame(rankings, columns=['club_name', 'ranking', 'year'])

new_df = df.merge(ranking_df, on=['club_name', 'year'], how='left')

我认为这与index_col = 0参数有关。但是我不知道有没有保存就修复它的想法，这没什么大不了，但是我不得不这样做。

阅读 192

2020-12-20

共1个答案

小编典典

在您的一个数据帧中，年份是一个字符串，而另一个则是int64，您可以先将其转换然后再加入（例如，df['year']=df['year'].astype(int)或按RafaelC的建议df.year.astype(int)）

编辑：还请注意Anderson
Zhu的评论：万一您None在一个数据框中有或缺少值，则需要使用Int64而不是int。请参阅此处的参考。

2020-12-20