送交者: xj 于 2005-3-07, 23:51:19:
回答: 论文标题:基于星座对网络论坛用户的数据挖掘研究 由 松鼠 于 2005-3-07, 23:23:16:
那个聚类分析好像有问题。如果纯粹为了把访问次数分成几组,根本没必要做聚类,直接频数表一看,找个百分点就行了。
偶觉得根据星座来做那树状分析(TREE)本身就很有用,直接拿来解释数据的cluster.估计那夥计不知道如何解释这些复杂的统计结果。高炮打蚊子了。
还有那列联表分析有问题。经常访问,有时访问,较少访问是有次序的,不应该用general pearson chisquare, 应该用行有序的order 统计量,比如cochran-mantel-haenszel。偶根据他的数据稍微弄了一下,卡方值是7.4533,p=0.0588.正好没意义。:-)
如果手里有访问次数,为啥还要用列联表?直接用regression 就是了。那个ANOVA 没太多信息。为啥没给出各组的均值及两两比较?
还有一个问题就是其他变量如学生的系别,男女性别等,一个系的联系会多一点。
整个框架还有个问题,应该是先提出假设再检验。
现在最后的结论就是纯粹的事后解释,data driven interpretation.
这伪科学正规化还得有很长路要走哪。