我有一个相当大的数据框形式的数据集,我想知道如何将数据框分成两个随机样本(80% 和 20%)进行训练和测试。
谢谢!
我只会使用 numpy 的randn:
randn
In [11]: df = pd.DataFrame(np.random.randn(100, 2)) In [12]: msk = np.random.rand(len(df)) < 0.8 In [13]: train = df[msk] In [14]: test = df[~msk]
只是为了看到这有效:
In [15]: len(test) Out[15]: 21 In [16]: len(train) Out[16]: 79