我正在寻找一种算法或一个建议来改进我的代码,以生成其总和等于某个任意数字的随机数列表。在下面的代码中,由于第一个数字往往会更高,因此总是会有偏差。
有没有一种方法可以使数字选择更加有效?
#!/usr/bin/python ''' Generate a list of 'numbs' positive random numbers whose sum = 'limit_sum' ''' import random def gen_list(numbs, limit_sum): my_sum = [] for index in range(0, numbs): if index == numbs - 1: my_sum.append(limit_sum - sum(my_sum)) else: my_sum.append(random.uniform(0, limit_sum - sum(my_sum))) return my_sum #test import pprint pprint.pprint(gen_list(5, 20)) pprint.pprint(gen_list(10, 200)) pprint.pprint(gen_list(0, 30)) pprint.pprint(gen_list(1, 10))
输出
## output [0.10845093828525609, 16.324799712999706, 0.08200162072303821, 3.4534885160590041, 0.031259211932997744] [133.19609626532952, 47.464880208741029, 8.556082341110228, 5.7817325913462323, 4.6342577008233716, 0.22532341156764768, 0.0027495225618908918, 0.064738336208217895, 0.028888697891734455, 0.045250924420116689] [] [10]
好吧,假设要求是生成长度为N的随机向量,该向量 均匀地分布 在允许的空间内,我们将解决该问题,具体如下:
给定
生成长度为N的随机向量V,以使随机变量V在其允许空间内均匀分布。
我们可以通过注意到可以计算V = U * S来简化问题,其中U是具有期望总和1的相似随机向量,并且允许范围[0,b]的范围为b = B / S。值b必须在1 / N和1之间。
首先考虑N =3。允许值{U}的空间是垂直于矢量[1 1 1]的平面的一部分,该平面穿过点[1/3 1/3 1/3],位于矢量的内部。分量在0到b之间的多维数据集。这组点{U}的形状像六边形。
(TBD:图片。我现在无法生成一个图像,我需要访问MATLAB或另一个可以进行3D绘图的程序。我无法安装Octave。)
最好使用一个向量= [1 1 1] / sqrt(3)的正交加权矩阵W(请参阅我的其他答案)。一种这样的矩阵是
octave-3.2.3:1> A=1/sqrt(3) A = 0.57735 octave-3.2.3:2> K=1/sqrt(3)/(sqrt(3)-1) K = 0.78868 octave-3.2.3:3> W = [A A A; A 1-K -K; A -K 1-K] W = 0.57735 0.57735 0.57735 0.57735 0.21132 -0.78868 0.57735 -0.78868 0.21132
再次是正交的(W * W = I)
如果考虑立方体[0 0 b],[0 bb],[0 b 0],[bb 0],[b 0 0]和[b 0 b]的点,它们形成一个六边形,并且都是a b * sqrt(2/3)与立方体对角线的距离。这些不能满足所讨论的问题,但是在一分钟内很有用。另外两个点[0 0 0]和[bbb]在立方体的对角线上。
正交加权矩阵W允许我们生成在{U}内均匀分布的点,因为正交矩阵是旋转/反射并且不缩放或不倾斜的坐标变换。
我们将生成在W的3个向量定义的坐标系中均匀分布的点。第一个分量是立方体对角线的轴。U分量的总和完全取决于该轴,而不完全取决于其他轴。因此,沿该轴的坐标被强制为1 / sqrt(3),它对应于点[1 / 3、1 / 3、1 / 3]。
其他两个分量的方向垂直于立方体的对角线。由于距对角线的最大距离为b * sqrt(2/3),因此我们将在-b * sqrt(2/3)和+ b * sqrt(2/3)之间生成均匀分布的数字(u,v)。
这给了我们一个随机变量U’= [1 / sqrt(3)uv]。然后,我们计算U = U’*W。某些结果点将超出允许范围(U的每个分量必须在0到b之间),在这种情况下,我们将拒绝并重新开始。
换一种说法:
对于更高的尺寸(在与超立方体的主对角线垂直的超平面的一部分内均匀分布的点),解决方案相似:
预先计算等级N的加权矩阵W。
范围k(N)是N的函数,N表示侧面1的超立方体的顶点与其主对角线之间的最大距离。我不确定通用公式,但对于N = 3是sqrt(2/3),对于N = 5是sqrt(6/5),可能在某个地方有一个公式。