如何使用 pandas 从一个数据帧创建测试和训练样本？

小编典典

all

我有一个相当大的数据框形式的数据集，我想知道如何将数据框分成两个随机样本（80% 和 20%）进行训练和测试。

谢谢！

阅读 94

2022-03-16

共1个答案

小编典典

我只会使用 numpy 的randn：

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

只是为了看到这有效：

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79

2022-03-16