问题具体描述:
1、现在手上有数以十万计个数组,每个数组所包含的元素个数多少不等,而且同一数组内可能有相同的数值。
2、想对数组进行如下操作:首先判断一个数组的变异系数是否大于某一固定值(比如15%),如果数组的变异系数>15%,则借鉴类似K均值聚类的思想,用迭代算法,剔除数组内一个数值,直到数组的变异系数≤15%,要求算法最大限度的保留了原数组内的数值,而且留下来的数值相似度比较高。
不知道问题表述清楚没有?比如现在就有一列数:
25 47 55 20 36 60 38 35 47 50 36
它的变异系数已经超过了15%,如何用迭代算法对其实现上述操作呐?程序做好用SQL语句写,其他的R或者sas、spss也可以。
小弟在此先谢谢各位高手了!
1、现在手上有数以十万计个数组,每个数组所包含的元素个数多少不等,而且同一数组内可能有相同的数值。
2、想对数组进行如下操作:首先判断一个数组的变异系数是否大于某一固定值(比如15%),如果数组的变异系数>15%,则借鉴类似K均值聚类的思想,用迭代算法,剔除数组内一个数值,直到数组的变异系数≤15%,要求算法最大限度的保留了原数组内的数值,而且留下来的数值相似度比较高。
不知道问题表述清楚没有?比如现在就有一列数:
25 47 55 20 36 60 38 35 47 50 36
它的变异系数已经超过了15%,如何用迭代算法对其实现上述操作呐?程序做好用SQL语句写,其他的R或者sas、spss也可以。
小弟在此先谢谢各位高手了!