=== 次世代idol是谁? 専业的6个组合分析 ===
*** blog和break之间的关系 ***
图表:
(看他是以月作单位)
假如B_t 是某月t 的blog数目
Let B_t to be the totol number of blog at month t
蓝线和左轴代表blog累计数目
The Blue line is the accumulate blog is :
A_t = sum_{t <= i} B_t
红线和右轴代表blog的平均增加率
The Red line is the increase in number of blog in precentage:
I_t = B_t / A_t * 100 %
结果在以下图表显示:
(* 虽然不知为何smileage有负数增加率)
因为累计blog数越来越大,所以分母增加了,增加率也会下降。从图中可以看到, 30-40%增加率表示团体的break,但能break的idol跟以后的发展并没有关系。像桃草番虾中有10%左右的增张表示仍然在成长期。图中表示桃草和虾中都符合break的法则,有潜力。
要cd打入oricon 100 大, 2011就需要77,000只, 在调查中能达标的只有akb和桃草。
** 小道消息中预测cd初售数 ***
以 independent variables: 推定售出数, 初回售出数(一周间)
和 dependent variables: cd发售月的blog总数, cd发售月为止的blog累计总数, cd发售前12个月间的blog 数目
得出 2 x 3 = 6 个不同组合的 (linear) regression analysis 回归分析, 当中最有关系的为以下组合:
初回售出数 vs cd发售前12个月间的blog 数目, regression的结果为:
初回售出数 = 1.4611 x cd发售前12个月间的blog 数目 - 8,329
以调查团体初回售出数占总售出数83% 来算, 要达到 77,000只cd大约要12个月间有5万左右blog的数目.
在桃草第9只single 「サラバ、爱しき悲しみたちよ」看, 过去12个月间(2011年10月到2012年9月)的blog数目来看...是"35,203"。
所以预计初回售出数有43,106。
*** 追加 ***
1. 估计忙中看错图表吧...35,203大概是smileag和berry工房的12个月数目,假设图表和算式的coefficient正确, 过去10个月有10万blog左右, 所以
预计初回售出数 = 1.4611 x 100,000 - 8,329 = 137,781总售出数 = 137,781 / .83 = 166,001
不错的计算呢
2. 不知道regression analysis 过程如何, 是只用桃草的cd还是全部的cd, 但大概2个unknown太少, 估计4 - 5个左右就差不多
3. 除了linear regression, 也可试试 time decayed effect, so that y = (r .^ (n-1:-1:1)) .* (x) + c只有2个parameter, 但r 就控制了decay的程度, 可以以grid search/ non-linear optimization找出maximum likelihood vale of r, c, 应该会比linear regression好
4. 在linear regression中其中一个问题是normal distributed assumption, 其实使用least sqaure 最大原因是假设所有data point independent identitically normally distributed. 但在这情况总不合用, 例如很多初回只有10,000左右的cd 和一只有100,000的cd一起作regression, 使假设是全部都以一样的standard deviation, 会令大的数据主导结果, 但现实人很明显10,000 的sd会有2,000左右, 但100,000的sd就应在20,000.
5. 标题内容纯綷恶搞吐糟
*** blog和break之间的关系 ***
图表:
(看他是以月作单位)
假如B_t 是某月t 的blog数目
Let B_t to be the totol number of blog at month t
蓝线和左轴代表blog累计数目
The Blue line is the accumulate blog is :
A_t = sum_{t <= i} B_t
红线和右轴代表blog的平均增加率
The Red line is the increase in number of blog in precentage:
I_t = B_t / A_t * 100 %
结果在以下图表显示:
(* 虽然不知为何smileage有负数增加率)
因为累计blog数越来越大,所以分母增加了,增加率也会下降。从图中可以看到, 30-40%增加率表示团体的break,但能break的idol跟以后的发展并没有关系。像桃草番虾中有10%左右的增张表示仍然在成长期。图中表示桃草和虾中都符合break的法则,有潜力。
要cd打入oricon 100 大, 2011就需要77,000只, 在调查中能达标的只有akb和桃草。
** 小道消息中预测cd初售数 ***
以 independent variables: 推定售出数, 初回售出数(一周间)
和 dependent variables: cd发售月的blog总数, cd发售月为止的blog累计总数, cd发售前12个月间的blog 数目
得出 2 x 3 = 6 个不同组合的 (linear) regression analysis 回归分析, 当中最有关系的为以下组合:
初回售出数 vs cd发售前12个月间的blog 数目, regression的结果为:
初回售出数 = 1.4611 x cd发售前12个月间的blog 数目 - 8,329
以调查团体初回售出数占总售出数83% 来算, 要达到 77,000只cd大约要12个月间有5万左右blog的数目.
在桃草第9只single 「サラバ、爱しき悲しみたちよ」看, 过去12个月间(2011年10月到2012年9月)的blog数目来看...是"35,203"。
所以预计初回售出数有43,106。
*** 追加 ***
1. 估计忙中看错图表吧...35,203大概是smileag和berry工房的12个月数目,假设图表和算式的coefficient正确, 过去10个月有10万blog左右, 所以
预计初回售出数 = 1.4611 x 100,000 - 8,329 = 137,781总售出数 = 137,781 / .83 = 166,001
不错的计算呢
2. 不知道regression analysis 过程如何, 是只用桃草的cd还是全部的cd, 但大概2个unknown太少, 估计4 - 5个左右就差不多
3. 除了linear regression, 也可试试 time decayed effect, so that y = (r .^ (n-1:-1:1)) .* (x) + c只有2个parameter, 但r 就控制了decay的程度, 可以以grid search/ non-linear optimization找出maximum likelihood vale of r, c, 应该会比linear regression好
4. 在linear regression中其中一个问题是normal distributed assumption, 其实使用least sqaure 最大原因是假设所有data point independent identitically normally distributed. 但在这情况总不合用, 例如很多初回只有10,000左右的cd 和一只有100,000的cd一起作regression, 使假设是全部都以一样的standard deviation, 会令大的数据主导结果, 但现实人很明显10,000 的sd会有2,000左右, 但100,000的sd就应在20,000.
5. 标题内容纯綷恶搞吐糟