好!伪科学也上正轨了。但是有几个问题



所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl

送交者: xj 于 2005-3-07, 23:51:19:

回答: 论文标题:基于星座对网络论坛用户的数据挖掘研究 由 松鼠 于 2005-3-07, 23:23:16:

那个聚类分析好像有问题。如果纯粹为了把访问次数分成几组,根本没必要做聚类,直接频数表一看,找个百分点就行了。

偶觉得根据星座来做那树状分析(TREE)本身就很有用,直接拿来解释数据的cluster.估计那夥计不知道如何解释这些复杂的统计结果。高炮打蚊子了。


还有那列联表分析有问题。经常访问,有时访问,较少访问是有次序的,不应该用general pearson chisquare, 应该用行有序的order 统计量,比如cochran-mantel-haenszel。偶根据他的数据稍微弄了一下,卡方值是7.4533,p=0.0588.正好没意义。:-)

如果手里有访问次数,为啥还要用列联表?直接用regression 就是了。那个ANOVA 没太多信息。为啥没给出各组的均值及两两比较?

还有一个问题就是其他变量如学生的系别,男女性别等,一个系的联系会多一点。

整个框架还有个问题,应该是先提出假设再检验。

现在最后的结论就是纯粹的事后解释,data driven interpretation.

这伪科学正规化还得有很长路要走哪。





所有跟贴:


加跟贴

笔名: 密码(可选项): 注册笔名请按这里

标题:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项):


所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl