庄主's profile竹家庄BlogLists Tools Help

竹家庄

传播学实证研究方法研讨

庄主

我不查本信箱,请去zjz06.blogspot.com留言。

Search

Loading...

你从哪里来?

常见英文关键词

Loading...
June 30

如何在模型拟合度与模型合理性之间选择?

hz @ 2009-06-25: 我对四个变量之间的关系做了SEM检验,从拟合指数看第一个模型略优于第二个模型;两个模型路径系数显著性如图所示,实线代表通过显著检验,虚线代表没有。你觉得四个变量之间的关系应该如何解释比较好?

image庄主 @ 2009-06-30:

从逻辑上说,模型2是合理的、而模型1是有问题的,因为模型1没有检验W和Z对YL的直接影响,而只是假定X是前两者的中介变量。

从实证结果(比较模型1和模型2)来看,Z对Y有直接影响、而X即不是一个中介变量、甚至也不是一个对Y有影响的自变量。这些发现,说明模型1中的X -> Y的显著影响其实是一个由于遗落了Z这个“第三者”而造成的 spurious(虚假)关系。

你提到,模型2的拟合度不如模型1。这是因为模型2比模型1多用了2个自由度。如果去掉W –> Y 和X –>Y这两对不显著的关系之后,两个模型的拟合度应该相似。但是,其实没有必要节省这2个自由度。如果少了2个自由度而使得原先可以拟合(即p > 0.05)的模型变成不可拟合(p < 0.05),说明你的样本太小,原先可以拟合的模型也是在边缘线上挣扎。

我们检验模型拟合度的目的是看该理论模型与实证数据之间的差别是否小到可以接受的程度、而不是追求模型的最佳拟合度。其实后者很容易通过其它不值得提倡的方法来做到(参见我前些日子的有关帖子)。

June 27

如何在SEM中处理dummy变量和显示R平方?

月出 @ 2009-06-09:

祝老师,您好!您的伯克真的很好,blogspot我一直登不上。我初学LISREL,有几个问题想请教您:

1、虚拟变量在SEM中一样用0、1处理吗?我在原先运行得出的模型里加入了性别变量,但就显示

W_A_R_N_I_N_G: PHI is not positive definite
W_A_R_N_I_N_G: PSI is not positive definite
W_A_R_N_I_N_G: The solution was found non-admissible after  50 iterations. The following solution is preliminary and is provided only for the purpose of tracing the source of the problem. Setting AD> 50 or AD=OFF may solve the problem. 这是怎么回事?

2、子模型原先得出的变量之间的关系为什么进入母模型后显著性发生变化?路径系数的正负也反了?正常吗?怎么解释?比方说总风险和各类风险之间本来是这么个关系,加入信任置于总风险前,总风险和各类风险之间的关系就变化了。可能有什么问题存在吗?

3、我怎么在LISREL中显示可决系数R平方阿?

庄主 @ 2009-06-27:

1、SEM中可以包括虚拟变量(dummy variables)。一般是先用LISREL中的PRELIS工具将含虚拟变量的相关系数矩阵转化成tetrachoric correlation矩阵(参见http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm),然后再进行分析。

你得到的出错信息由很多种原因造成,可能是你模型的设置有问题(如性别要factor loading = 1、factory error = 0)、也许是性别与某些其它观测变量之间的高度相关、等等,很难一下子知道是什么原因。如果用了上述转化矩阵,仍有类似问题,那么更有可能是模型设置的问题。

2、子模型的关系进入母模型之后显著性出现变化是常见的、但是如果系数方向也反了,说明母模型中含有一个disorter的第三者变量(具体参见我前些日子的有关帖子)。你也可以将先后两个模型的系数用表格的形式贴出来给大家看看。

3、LISREL将R平方叫做 Sqaured Multiple Correlations (SMC)。如果你是用SIMPLIS,需要加一句“LISREL OUTPUT EF“ 来显示。需要尤其注意的是,LISRE同时给出计算Structural Form 和 Reduced Form两种结果,前者中的SMC是错的,要看后者。(具体参见Joreskog的文章 What is the interpretation of R2?)

June 20

如何处理Power-law(幂律)分布的数据?

Anonymous @ 2009-06-11:

祝老师:您好!看了您关于“如何在SPSS中做数据正态转化”的帖子受益匪浅。 我做的研究是关于web 2.0 的,所以数据来源都是secondary source,有很多变量的分布都是power law的形式,其中有的自变量数据有点类似count variable(0值有意义,非missing value)占了很大的比例。想就数据转化继续请教您两个问题:

1。比如两个自变量IV1和IV2都是高度偏态,在对其进行对数变换后转化为正态。但是IV1和IV2可能对因变量DV存在交互影响, 那么在检测交互影响的时候interaction term是应该用lnIV1*lnIV2么?因为这里有个疑问是lnIV1+lnIV2=ln(IV1*IV2),如果lnIV1和lnIV2进入后R Squared Change显著的话是不是就代表已经存在交互影响了么?还需要继续进入lnIV1*lnIV2么?对这个问题我感觉有点钻到牛角尖里了,想了很久都不太清楚?

2。另外是关于前面0值太多的自变量 (单峰非正态),有点类似于medical research里面的account variable,0代表没发生,但他们是自变量,而不是因变量, 所以感觉不能用Logistic回归。 我试着用了log之类的转换, 很难变成正态分布,目前我将其转换成了dummy variable 0 和1做了一个model,然后再选择所有不为0的obsevation做了一个model,但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢?

庄主 @ 2009-06-20:

问题一较简单:交互影响模型中的自变量是否可以取对数?答案是肯定的。因为在你的模型 Y = b0 + b1ln(IV1) + b2ln(IV2) + b3ln(IV1)ln(IV2) 中的右边前两项,即IV1和IV2各有一个回归系数b1和b2,所以它们不会被约简为另一个b3ln(IV1)ln(IV2) 。

同理,模型右边第三项 b3ln(IV1)ln(IV2) 简约后成为 b3 (IV1 + IV2),也不等同于前两项 b1ln(IV1) + b2ln(IV2)。当然,第三项的变量 (IV1 + IV2 中的联合分布比IV1和IV2原先的独立分布更加不对称,即更加偏离正态分布。但是,据我的理解,当你将 ln(IV1)ln(IV2) 输入OLS回归时,计算程序是将 ln(IV1)ln(IV2) 当做一个值处理而不会将它分析成IV1 + IV2的。

问题二很复杂:如何处理服从power-law(幂律)分布的数据?这种分布特征的数据,具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸(left-censored),而全部堆积在一起。也有人称其为 "floor effects” (“地板效应”)数据(如下图a)。初看,这些最小值(本例是1)堆起来不像是地板效应、而像 “ceiling effects”(“天花板”效应)。但如果将图a作90度旋转,就可以理解“地板”的意思。当然,这种分布的反面,即一组数据中有很多个无法更大的最大值(right-censored values),就是“天花板”了。

 image

以上图a中的X,按三个不同的幂律值(1、2、4)而形成三种不同的“地板”分布(即P(X)=X-1、P(X)=X-2、和P(X)=X-4。具体说来,当幂律=-1时,X的最小值占了总体的19%;当幂律=-2时,X的最小值占了总体的61%;而当当幂律=-3时,X的最小值占了总体的92%!在经典的“正态分布世界”(the world of normal distribution) 里,我们都是用log来转换服从幂律分布的数据。以下图b就是对图a中的三组X用log转换以后的分布形状:

image

与图a相比,图b中的三种分布的形状不那么“地板”了,但是还远远不是正态分布的。如果将X的频数(即P(X))也作log转换,即得到一个单调递减的线性分布(图c):

image

图c也不是正态分布。但在“正态世界”里,线性分布是我们对付幂律数据的(相对)最好方法了;就是说,幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗?有,那就要离开正态世界而进入“变态世界”(the world of abnormality)、做一个研究“变态行为”的“变态学者”。“变态”这个字太刺眼。做“变态研究”的绝大多数是拘谨的物理学家,当然无法承受世俗的歧视,所以将变态世界叫做“复杂系统”(complex system)。我一开始说“这个问题很复杂”,意思就是“这是一个复杂世界的问题”。当然,复杂系统也不能点石为金,将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。(参见A. Clauset, C.R. Shalizi, and M.E.J. Newman, "Power-law distributions in empirical data" SIAM Review, 2009)。

好了,别再继续问我变态世界的事,我刚刚开始接触他们的那些事,可能受正态世界的毒害太深,理智上或感情上都还没有入门。

回到你的实际问题,你可以试试以下几种方法:一、对X取log之后、再取log(当然,如果log(X)有非正值、需要先对其做线性转换成正值);二、将X转换成0-1值的dummy variable后直接进入模型(而不是用来分拆成两个模型);三、将X与其他相关的自变量合成新的变量;等等。注意,上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。

June 14

如何设计博士生学习计划?

W @ 2009-06-13:

我是学习传播理论方向的博士生,有志于从事科研,但非常担心自己把博士读成了“5年制的硕士研究生”,于是想做一个合理的读博计划,特别想听听您的建议与看法。我的问题如下:

1、读博期间应该定一个怎样的目标?

2、如何突破研究方法的局限和英语的缺陷?

3、如何培养捕捉一个有创新意义的研究课题的能力?

4、如果方便,很想知道您是如何度过博士生活的。

5、香港的传播学博士是如何读的,您一般对他们有何要求。

6、请您帮我推荐几本您认为应该读的书。

庄主@ 2009-06-14:

你的绸缪未雨想法很好。“博士生=五年制的硕士生”一说我还是第一次听到,但仔细想想,好像很深刻、有道理。同理,硕士生要防止做“六年制的本科生”。也许博士生还要防止做“九年制的本科生”。(申明:我没有任何贬低本科生的意思。事实上,包括我在内的很多海外教授,认为中国本科生的基础训练是非常好的,所以大家更喜欢招中国本科生做博士生。)

你的六个问题涉及了博士生学习的各个方面,我都没有“权威”的答案,但愿意分享自己的体会。由于时间限制,我先简单谈谈,希望各位(包括我在的学生,其实以下很多是以他们作为对象而写的)补充和辩论。

1、目标:扎实基础、广博知识之类笼统的话,我就不说了。我的基本原则:目标一定要高,取法乎上、得乎其中嘛。同时要可操作,如以下两条:一、能教三门课(分别为理论、方法和应用。应用课可以是采编写、也可以是广告策略、公关写作、网页设计、视频编辑,等等,至少能教其中之一。我最近几年每年教的课里,就有理论、方法和网页设计);二、在高水平期刊上发表一两篇论文(如SSCI中JMCQ或更好的期刊,国内期刊则要比《新闻与传播》等更有挑战性的)。

2、方法与英语的局限:一语以蔽之,只有多动手练习。方法上,对初学者来说,一定要严格遵循规则、步骤、要求,不要马虎、妥协、变通,否则不如不学。英语,对国内学生来说,标准是能写出别人看得懂的论文。最大的敌人是自己(Chinglish、汉式英文)。如何克服?找个native sepaker批改你的几篇文章,然后从中找出自己问题的规律,贴在墙上天天看。

3、创新能力:除了经验,好像没有捷径。而经验来自年份。我的体会是进入学术圈(不一定是从博士生开始)后,努力工作十年后才会发生。自然科学研究也许不需要这么长的周期。社会科学中除了少数天才之外,很少有在博士生期间、甚至在毕业后几年内有真正的重大创新。所以我不把创新当做自己读博士时的目标、也不以它来要求我的学生。

4、我的博士生活:与其他留美博士生一样,大部分时间在上课。我在三年八个学期(包括两个暑期)中大概修了20门课、另外旁听了4、5门课。然后通过四门资格考试(基础、方法、两个专业方向)。最后写论文(那倒是最省时的,只花了半年)。事后觉得收获最大的一是方法训练、二是英文写作、三是体验老师们的人格魅力(不通人情的认真、自我贬低的幽默感、平民的心态、凡事先质疑的精神、等等)。其它的,如看了无数的文献等,在有了wikipedia和youtube的今天,都算不了什么。

5、我对自己博士生的要求:以前我是沿用美国老师教我的方法,即除了学校(和市场)的要求之外,从来没有其它特别的要求。学校的要求是最低限度的,保证能够毕业。市场(用人单位)的要求,对学生来说是看不见摸不着的。最近(在你来信之前),我已开始反思这种hands-off传统的优缺点,并计划从今年开始,给新生提些具体要求,目前想到的就是目标里的三门课、一两篇论文。当然这些只是建议,即使做不到,照样可以毕业,但很难被市场认可。

6、推荐书:以下是对国内新闻传播学博士生的建议(日后也许会有补充):

方法:

  1. Earl Babbie: The practice of social research, 11th ed. (清华影印版)
  2. Publication Manual of the American Psychological Association, 5th ed. (俗称APA Style,尽量不要看中译本)
  3. Jacob Cohen & Patricia (2002). Applied multiple regression/correlation analysis for the behavioral sciences, 3rd ed., (books.google.com上有免费的部分章节;或其它类似统计书,第一本看原版、也许可以接着看我们的传播统计学。)

理论:

  1. Denis McQuail & Sven WIndahl (1993). Communication models for the study of mass communication, 2nd ed. (同样,先看原版,也许可以接着看我的翻译本).
  2. Werner J. Severin & James W. Tankard, Jr. (2001). Communication theories: Origins, methods, and uses in the mass media, 5th ed. (不要看中译本)
  3. 新闻传播学实证研究的经典报告(可参见我的传播原理课程的补充阅读目录
June 13

如何处理和解读三角关系中的扭曲变量(distorter)?

龙猫 @ 2009-06-08:

庄主好,日前在研究中遇到一难题,想请您赐教。自变量ABCD通过中介变量E影响因变量F,但加入自变量G后导致E到F的路径系数由原来的显著正相关变成了负值,不知如何解释和处理?我自己的推断是G变量对F变量的解释力过强,压制了E变量对F变量的影响,但我不确定这样推理对不对。另外,也不知如何处理这类问题。故在此请教庄主,谢谢您。(注:研究的样本量为320,
测题数目为30.)

庄主 @ 2009-06-13:

为了便于其他读者的理解,我根据你的叙述,将你的两个模型分别复原在图1a和图1b中(注:图b中红线部分为我所加)。由于你没有说明G与A-D的关系,我假定G不是从A-D到E的另一个中介变量(如果是,问题会更复杂一些)。也因为如此,你的问题其实只涉及E、F、G的三角关系,与所以我加了一个红框,以下来集中讨论三角关系中可能出现的各种问题。

image

再重复一下你的发现:在没有控制G之前,bFE是正值;而引入G之后,b’FE(注意b的上标中的“’”记号)成了负值。你认为G是一个压抑变量(suppressor),不知如何处理G。

先讲讲三角关系的基本原理:

  1. 一个第三者(G)当且仅当同时满足以下两种条件时,才会改变原有自变量(E)和因变量(F)的关系:一是G与E相关、二是G与F相关。(你的数据看来同时满足了这两条。)
  2. 所谓“改变原有关系”,包括了三种不同的变化:一是改变了significance of the relationship(显著水平,即b值从不显著变显著或反之);二是改变了strength of the relationship(强度,即b值从小变大或反之);三是改变了direction of the relationship(方向,即b值从正变负或反之)。注意:这三种变化不是互斥而是独立的,即三者中的任何组合都可能同时发生。(你只说了你的数据中出现了方向的变化,不知原有关系的显著水平或强度是否也有变化?)
  3. 所有上述三种情况的变化,都说明E和F的原有关系是spurious(虚假)、靠不住,而引入第三者G是必要和合适的。(即你的模型a是错的而模型b是对的,应该接受后者,哪怕后者否定了你原先的假设。其实,对有经验的研究者来说,后者的出现更令人振奋,因为突破也许就在其中!)
  4. 第三者的角色,根据上述不同变化而分为distorter(扭曲变量)和suppressor(压抑变量)两种,当然也可能是两者兼顾(详见下表)。简单说来,扭曲变量的缺失导致了Type I的错误(如不应该显著的成了显著、微弱关系的成了强势关系、正的关系成了负的、负的成了正的,等等);而压抑变量的缺失则导致了Type II的错误(如应该显著的成了不显著、强关系的成了弱关系、等等)。大家知道,Type I后果更严重,所以对扭曲变量的控制更有必要(也正因为如此,发现扭曲变量往往会令人兴奋甚至亢奋。)

表一、压抑变量与扭曲变量之一览表

G as a Suppressor
G as a Distorter
Change in Significance-level
Nonsig->Sig
Y
-
Sig->Nonsig
-
Y
Change in Strength
Small->Large
Y
 
Large->Small
-
Y
Change in Direction
Postive->Negative
-
Y
Negative->Positive
-
Y

Source: J. J. H. Zhu (2009), All rights reserved.

回到你的数据,很显然,G是一个扭曲变量,所以一定要引入模型,原先的bFE是错的而b’FE是对的(当然,假定没有其它第三者的缺失)。至于G是否也是一个压抑变量,则要看bFE和b’FE的数值和各自的显著水平才能知道。你不妨补充报告一下,以飨读者。

也许你还会问,为什么G会改变原先关系的方向?我记得曾在以前的帖子中讲过(但一下子搜不到),G与E(即rEG)或G与F(即bFG)的两对关系中,必定(而其只能)有一对是负的(请你验证一下)。这是因为任何一组完整(即此外没有其它显著的第三者)的三角关系之乘积(即rEG X bFE X bFG)必须为一个正值(见图2)。传播学中的cognitive dissonance理论就是据此而来的(以下12字为广告:详见我译的《大众传播模式论》)。

image

如果想更进一步探讨这种三角关系的话,那么可以将G当做是一个交互变量来处理(事实上G与E的交互项往往就是显著的),其结果大多有助于解开这种扭曲现象之谜。我记不得是否曾经说过,一般说来,交互影响比中介影响更有“革命性”意义。That’s why I was excited, rather than depressed, when reading your message.

May 17

如何选择Intraclass correlation coefficient (组内相关系数) 的模型?

Liu Yang @ 2009-05-15:

祝老师:您好!经常来您这看看,获益非浅。有一个问题想向您请教。我现在在做一个关于学龄儿童健康行为问卷的重测信度研究。如在过去一周你有几天参与体力活动至少60分钟?选项 1,2,3,4,5,6,7 天。因为数据是interval level,所以打算计算ICC。根据组内效应和项目效应是否随机,Single Measure ICC有三种类型,ICC(1,1), ICC(2,1) 和 ICC(3,1)。按我的理解,学生在不同时间回答同一道问题可以认为是two same judges in different time with fixed effect,因此应该采用ICC(3,1)。但是看过去的文献,针对同一道问题,如上题,三种算法都被用过,所以比较迷惑,希望您能指点,谢谢!

庄主 @ 2009-05-17:

你提到的ICC,指Intraclass Correlation Coefficient(通常翻成“组内相关系数”)。ICC在心理学和教育学研究中用得较多,但本庄大多数读者来自新闻传播学界,可能不甚了解,所以我先简单交代一下有关背景。

ICC涉及到多种用途,含义各有所不同。你是将其用于检验变量的信度(reliability),所以我这里也就仅谈谈信度检验中的ICC模型问题。(但是,要真正理解ICC,还是应该放在ANOVA的框架下进行。以下涉及到一点ANOVA、但我无意从ANOVA的ABC讲起,只假定大家已经掌握了。)

有人也许会问,检验信度不是已经有Cronbach’s alpha,为什么还要用ICC?这与被检验的变量之性质有关。我们通常检验的“信度”是指 the consistency between two or more concepts(两个或更多概念之间的一致性),这时我们确实是用Cronbach’s alpha,其实alpha只是根据Pearson r(即经典的相关系数)而计算出来的衍生物,而Pearson r 则是一种Interclass Correlation Coefficient(注意其中的“Interclass”,即“组间相关系数”,与ICC是相反的一对统计量)。相反,如果我们想检验的信度,涉及到的却是 the stability between two or more measures of the same concept(同一个概念的两个或多个测量指标之间的稳定性),这时Pearson r及其衍生物Cronbach’s alpha不不合适了(参见我的旧贴Difference vs. Correlation,虽然文中没有出现组间和组内相关的名词,但谈到的是同一问题),而可以用ICC。你面临的“健康行为”的“重测信度”,就是涉及一个概念(健康行为)的两个测量指标。内容分析中的inter-coder reliability也是一个概念(即内容分析的某个变量)的多个coders决策之间的稳定性。

顺便提一下,在ICC研究的文献中,上述“同一个概念的不同测量”是被叫做“different variables of a common class”。这里所涉及到的名词,如class,cases, variable(以及可能会出现的measurements, raters, judges, items, objects等等),如果翻成中文、都很容易产生望文生义的误导。不知你的迷惑,是否与这些名词有所关系?我一开始接触有关文献时,也曾迷惑过,后来把ICC的公式(右下)与Pearson r公式(左下)比较一下,就清楚了这些名词的真正含义。所以,我们还是不能不看公式。

image image

在r的公式中,xi和yi分别是概念X和Y的测量值、clip_image002[9]clip_image002[13]分别是X和Y的均值、Sx和Sy分别是X和Y的标准差,n是样本数。(由此可见,X和Y的取值范围可以完全不一样,如X可以是从-1到1而Y可以从0到10000;两者的标准差也由此可以完全不一样。其结果根本不会影响r的值。)而在icc中,为了强调“组内”的意义,我将X改写成X1、Y改写成X2(当然改写前后变量并没有本质区别)。两个公式的真正区别在于均值及标准差的计算,r中的X和Y均值及标准差是分别独立计算的、而icc中的clip_image002[11]是X1和X2的pooled mean(联合均值)、而clip_image002[15]也是X1和X2的pooled variance(联合方差、即联合标准差之平方)。由于ICC值是每个观察值减去“联合均值”(而不是各自的独立均值)、加总后再除以“联合方差”(而不是除以各自的独立标准差之乘积),所以其计算结果反映了“组内”的相关系数。(注意,“联合方差”背后有一个更严格的要求,即X1和X2的方差要相等。这一要求不是很容易满足的。如果你的两次测试之间有一定的时间间隔而其中有发生过什么重要的事件,如学校开设了卫生课或召开了运动会,使得学生之间健康行为的差异缩小了或扩大了,那么就不适合用ICC了。)

image

好了,在上述简单背景的基础上,我们来讨论你的问题:如何检验ICC?具体来说,就是如何选择合适的ICC模型。让我们从计算ICC所需要的数据结构说起(右图)。图a是最常见的结构,其中每个row(行)代表一个case(本例是ID从1到n的学生),每个column(列)是同一概念的某个观测指标(本例中是X1和X2前后两次观测),每个cell(格)中是每个学生的每次观测值(即上述公式中的x1i或x2i,在本例中取值1到7)。按ANOVA的术语,每个xi受到三个来源的影响:一是between-columns effects(在本例中是over-time effects,但内容分析的inter-coder reliability则是两个coders之间的coder effects、等等);二是within-columns effects(在本例中是within-subjects effects,即每个学生的特定因素);三、无法被columns和rows所解释的残差。三者之间,残差和within-columns effects 总是(假定为)random(随机)的,前者是ANOVA能够成立的必要前提、而后者则是因为n个学生是从N总体中随机抽取的一个样本。剩下的between-columns effects则需要根据研究设计、数据采集方式等各种因素而来确定是fixed(固定)还是随机的,因此而形成了你所提到的三种模型:

Source of Variance

One-way Random Model
ICC (1)

Two-way Random Model
ICC (2)

Two-way Mixed Model
ICC (3)

Within-columns effects

Random

Random

Random

Between-columns effects

--

Random

Fixed

首先来看ICC(1)。它并不考虑X1和X2的区别,所以实际上是将数据表中的X1和X2两列数据合成一列(即图b的结构,其中共有2n行),为了说明图a和图b的相等性,我在图b中加了变量Time,但实际上ICC(1)模型是估算Time的,而是只含一个因子(即自变量)的one-way ANOVA(单因子方差分析)。其自变量是ID,当只有两个重测指标时,自变量的values(即unique的ID数)很多、但每个value下面只有2个cases(所以是个很奇怪的模型),其F值是用来检验每个学生的均值全部为零的假设。由此可见,ICC(1) 并不能检验X的重测信度(当然它有很多其它用途,尤其是作为一个基准模型)。你说看到“过去的文献,针对同一道问题,如上题,三种算法都被用过”。我很难想象这种情况。建议你搞清作者用ICC(1)检验的零假设到底是什么。

回到图a的常见数据。如上所说,它可以用来同时分解columns和rows的影响,也就是ICC(2) 和 ICC(3) 所需要的数据。所以ICC(1) 和 ICC(2) 都可以用来检验重测信度。两者的区别在于如何看待我开始时说的“同一概念的各种测量指标”的产生机制。这不是一个统计问题、而是研究设计问题或数据采集方法问题,即取决于每个研究的具体情况。一般而言,如果X1和X2是该概念的所有可能测量指标(最极端的例子是“匹配”样本,如夫妻、双胞胎、师生、上下级等“对子”对同一问题的回答),那么它们应该是fixed。反之,如果该概念除了Xk和X2之外,还可以有X3、… Xk指标,那么它们应该是random的。同理,检验在内容分析的inter-coder reliability时,coders应该都是从一个理论上无限大的总体中抽出来的样本,所以也应该是random的。你说你的两次测试是“two same judges in different time with fixed effect”,我没有足够信息来否定你,但直觉上感到它们是无限空间中的两个时间样本点,所以为什么不是random的?

我们还可以从模型结果的使用来理解between-columns effects到底是fixed还是random的。如果你只想(或只能)将其结果限制在本研究的具体时空中(如这两个特定测量时间点、这两个特定coders、等等),那么可以采用fixed模型(3);反之如果你希望将结果推及其它时间或空间(其它任何测量时点、任何coders、等等),那么就应该用random模型(2)。

除了between-columns effects的不同选择之外,ICC还涉及其它两个层面的选择,一是估算的ICC是consistency还是absolute agreement(两者的差别就是我上面提到的旧帖中描述的correlation与difference),二是single 还是average。这些分别涉及到一些新的问题,暂且不谈了。

如果谁真的要用ICC,应该认真读一下ICC的权威文献:K. O. McGraw & S. P. Wong (1996). Forming inferences about some intraclass correlation coefficients、以及该文的纠错补充

最后,想说几句感受。常有网友在此问及各种进阶的统计问题、如SEM、multilevel、ICC等等。我是又喜又愁。喜的是后生可畏,敢于玩前沿。愁的是(从提问中推测),有关网友缺乏必要的基础知识,借助于统计软件而捷径上山、一步到顶峰。定量分析与其它绝大多数知识不同,只能循序渐进、一个台阶一个台阶往上爬。如果对进阶的方法不甚了了,与其大胆试用(大部分情况下会用错,而且错了还不知道原因何在),我强烈建议使用熟悉的经典方法,如回归、方差、crosstabs等等。经典方法也许用到你的数据上会有些问题、但那是已知的问题,而新方法可能带来的风险是无法预知。如果医生不了解某一新药,绝不敢乱用,而会使用已知作用有限并有副作用的旧药。我们是给数据看病的Data Doctor,也要有如此的基本医德。共勉。

May 10

不要做Modification Indices的奴隶!

Erin @ 2009-05-07:

有时在Lisrel的out文件中,有条message说“No Non-zero Modification Indices for PHI”,有时得到“No Non-zero Modification Indices for Lambda-x”或“No Non-zero Modification Indices for Lambda-y”。没有给出MI是因为什么?是因对相应的矩阵的设定么?

庄主 @ 2009-05-11:

理解这个问题的关键是弄懂Modification Indices (MI,修正指数) 到底是个什么东西,如它从何而来、说明什么、如何解读、等等?

简单说来,MI是将你现有模型的拟合度(Chi-squares)与如果你对某一没有被估计的参数(即fixed parameter,如PHI、Lambda等)作出估计(即改成free parameter)后模型的拟合度之间作比较的差别,其值也是一个Chi-squares值。(这句话也许用英文来表达更容易理解:A modification index tells the difference in the goodness-of-fit (as measured in Chi-squares) between an existing model and a modified model in which a fixed parameter (such as PHI or Lambda) is free to be estimate.)

image

左图是一个范例。假定你根据理论而设置了一个含X、Y和Z三个隐含因子的测量模型,其中X是观测变量X1-X3的来源、Y是观察变量Y1-Y3的来源、Z是观测变量Z1-Z3的来源,而三个因子之间容许存在一定的相关程度(注意X、Y和Z之间的双向箭头)。你在LISREL或AMOS里,用该模型对某数据做了拟合,发现其拟合度为显著(即模型与数据有显著差别)。为了改进模型的拟合度,你查看了LISREL或AMOS给出的MI结果,看到上述的“No Non-zero Modification Indices for PHI”,但是在 Modification Indices for LAMBDA-X(以下简称LMI)和Modification Indices for THETA-DELTA(以下简称TDMI)中,各有一组数值。比如,LMI中最大的是Lambday1X = 10.555、TDMI中最大的是Deltz2z3 = 12.222,其次是Thetax3z1 = 8.333。它们分别说明,如果你将Y1加到因子X上去,修正后的模型的Chi-squares会减去10.555;或者如果你在Z2和Z3的残差项之间建立相关关系,新模型的Chi-squares会减去12.222;或者如果你容许X3和Z1的残差项之间相关,新模型的Chi-squares会减去8.333。(注意:如果你同时做两项或三项修正,新模型的Chi-squares不一定会减少10.555+12.222+8.333之和那么多。)我们知道,在一个自由度的条件下,Chi-squares的显著性临界值为3.84,也就是说,如果一个MI的值大于4,就值得注意了。

那么,为什么LISREL或AMOS有时会“罢工”,不报告MI呢?简单说来有两种情况:一是你的“所有可估计参数”(all estimable parameter)已被全部用完。注意,这里的“所有可估计参数”不等于“所有参数”。如上例的理论模型共有45个自由度(如果你不能一眼看出来,说明还得看点书再来玩SEM),其中估计了21个参数(如果你连这个也看不出来,那就麻烦了),还有24个自由度,也就是说还可以估计24个参数。但是,在PHI矩阵(外生因子的方差-协方差,详见“LISREL的八个矩阵”)中已经没有可用的参数了,因为X、Y、Z三者之间的三对相关关系已经用尽了其所有的信息。所以,如上所述,LISREL或AMOS已经发了No Non-zero Modification Indices for PHI的“罢工通知”。事实上,除了PHI之外,结构模型的其它参数(other parameters of structural model),如GAMMA(外生因子对内生因子的影响)、BETA(内生因子对内生因子的影响)、PSI(内生因子的方差-协方差)等,也经常没有MI,因为它们多半已按理论模型的假定而被用尽。说到底,结构模型参数是绝大多数研究的最终目的,谁会将它们闲置在一边,等到看过MI之后再做决定是否进行估价?(我还会回到这一点的。)

但是,测量模型的参数(parameters of measurement model)还有大量闲置的参数。如本例中的LAMBDA矩阵中,还有18个可被估计的参数(包括X对Y1-Y3、X对Z1-Z3、Y对X1-X3、Y对Z1-Z3、Z对X1-X3、Z对Y1-Y3),THETA-DELTA中则有更多(36个)参数可以被估计。 当然,你不可能将它们(总共54个)穷尽,因为你只有24个自由度。你甚至不应该将自由度全部用掉(见后面的讨论)。这里先回答一下,为什么LISREL或AMOS有时不提供其中某些参数的MI?这是没有MI的两种可能之二,即你的原始模型虽然拟合得不太好、但相比任何一种其它的修正模型来说,它的拟合度是最好的,这往往是观测变量之间缺乏任何关系造成的。当然,这种情况较罕见,尤其是你的模型有两个或以上隐含因子时,总会有某个没被估计的测量模型参数可以修正的吧?总之,一切从自由度出发,做任何事前先看看你还有多少自由度?这些自由度存放在哪个矩阵里?

总之,如果LISREL或AMOS没有提供某一参数或某一矩阵(某类参数的的集合)的MI,说明该个或该组参数或者无法估计(结构性的问题)或被估计之后并不能给现有模型带来任何改进(实证性的问题)。由此看来,MI是个不错的工具,它可以帮助我们找到改进模型拟合度的“捷径”。但是,盲目使用MI,也会造成很多错觉或谬误。在我看来,不知情者对MI的误用和知情者对MI的滥用,是SEM应用中的一个主用问题。何谓“误用”、何谓“滥用”?我无意写篇论文来讨论,仅以上图中的三条虚线为例,说一下我的看法。

1、一般情况下,不要碰LAMBDA,即不要仅仅根据MI而增添cross-factor loading(跨因子负荷?),如上图中根据Lambday1X 的值而将Y1挂到X上去。估计跨因子负荷是EFA的做法,也是EFA为人诟病的一大原因。Y和X可以相关(如图中已做到了)。但是,如果再将Y1连到X上去,确实可以改进模型的拟合度,但同时牺牲了Y(以及X)因子的效度,得不偿失。也许有人说,我的理论要求Y1同时受X和Y的影响,怎么办?记住:everything is related to everything的理论一般不是好理论。

2、在任何情况下,绝对不要碰DELTA(或EPS),即不要在一个因子内部的各变量之间增添correlated errors within a factor ,如上图中的Deltz2z3 ,不管其值有多少,也不能将其释放出来估计。一个因子中的各变量之间的相关部分,已经充分反映在它们在该因子的负荷之上,如果再将各变量的残差连起来,说明该因子之内还有因子,这在理论上是说不通的。当然,如果一个因子下各变量之间出现很大的MI值,说明这个因子模型有问题,也是该因子不是unidimensional的、也许是某变量有异常值(或者严重偏离正态分布)、等等。这些问题,需要通过清理数据或调整模型、而不是简单的在因子内变量残差建立相关关系。

3、在一定条件下,可以考虑估计THETA中correlated errors between corresponding observed variables cross factors(跨因子对应变量残差之间的相关系数),如在上图中的Thetax3z1 。这里的“一定条件下”的“对应变量”,往往指不同因子之间的两(或多)个变量之间是采用相同的测量方法(如问卷中相同的提问及回答)、或者同一变量在不同时间点上的测量值、等等。这时,建立其残差的相关关系,就相当于在各因子之间建立一个测量方法之共同因子(或者为MMMT模型的做法)。

总之,正确使用MI的关键,取决于我们的目的是什么?是为了提高模型的拟合度以便能够发表、还是为了改进模型的结构参数以降低Type II误差?如果仅是为了前者,即使能够蒙过审稿人、也无法混过所有读者的仔细阅读。而如果为了后者,那么我开始时的叙述其实已经暗示了,MI对结构参数往往没有什么帮助。

May 01

如何检验一个同时为调节和中介的变量?

Anonymous @ 2009-04-22:

祝老师您好: 我想请问两个困扰很久的问题:1.是否可能存在着这样的情形:在变量a对变量b有影响的前提下,变量c对它们之间关系的中介效应和调节效应同时存在?2.在用SEM做全显变量路径分析时,应该怎样看待这些拟合指数,是否和做CFA或结构模型的标准完全一样?

庄主 @ 2009-05-01:

我还没有见到过这种理论或这类数据。我估计,如果有某理论能合理假设出这种情形(你能否举个例子?),test(检验)并不难(见以下讨论),但却很难verify(证明),因为交互关系和中介关系各自都是不容易验证的小概率事件、而两个小概率事件交将是一个特小概率事件(传说中的“黑天鹅”事件?)。

说说如何检验交互关系+中介关系吧。当然需要借助公式和图像来说明。为了与为我其它帖子使用的符号一致,我将你的a、b、c分别改为X(自变量)、Y(因变量)和Z(调节和中介变量),并生成XZ(交互变量)。以下分别是交互关系、中介关系和交互+中介关系的模型:

image

注意:为了简便起见,三个模型都省却了常数项。模型a和模型c中的X、Z、XZ之间都假定为0相关。模型2和模型3中的b1也都假定为0。

模型1和模型2是用来说明模型3的来历,而模型3是需要被检验的模型,具体步骤为:

1、中介关系的检验:估计模型3(包括b1)、然后设b1为0,比较两者的拟合度,如果没有显著差别,则说明b1=0;如果b2和b4同时显著地不等于0,并且b2b4显著地大于b1,则中介关系成立(具体参见如何检验两个中介变量的效应?和其它帖子);

2、交互关系的检验:估计模型3(包括b1)、然后设b3为0,比较两者的拟合度,如果没有显著差别,则说明b3=0、反之,如果有显著差别,则说明b3不等于0、即Z对X与Y的关系有交互作用(具体参见以前发过的好些交互影响帖子)。

如果X、Y、Z都是直接观测变量,那么上述模型只是不含测量模型的路径分析,可以在SEM来做、也可以用经典的OLS回归来做(即分别执行图c标题中的两个公式就是了),其结果完全一样。SEM的拟合度可以用卡方值或R平方、而回顾的拟合度则用R平方。但是,这时的SEM的卡方值与CFA的卡方值之含义完全不同,前者是结构模型中因子之间的关系而后者是测量模型中因子与观测变量之间的关系。

如果X、Y、Z中有带观测变量的隐含因子,问题就复杂了很多,因为现有的SEM模型对交互项(XZ)没有完善的处理方法,一般是采用分组方法,即将样本按Z的不同值分成若干组,分别估计图b,然后通过比较各组b3的差别来验证Z的交换作用。

如何确定综合指数的构成权重?

Anonymous @ 2009-04-29:

祝老师,您好!我现在在写硕士毕业论文,想请教您几个小问题。
我让主管给下属的三种绩效(任务绩效、情境绩效和反生产绩效)做出评分,然后对员工的总体绩效(与前面相独立的量表)做出评分,然后用三种绩效的得分对总体绩效得分进行回归,这样得出三个回归系数。前两个系数显著,后一个不显著。这三种绩效的系数可以视为主管在评价员工总体绩效时更看重哪种绩效,即一种权重。我想考查哪种绩效在总体绩效评分中更受主管重视,我还需要进行两个系数的显著性差异的检验吗?如果要,如何做?

Anonymous @ 2009-04-29(也许是另一读者):

他的意思应该是这样说,已经有若干个观测变量,这些变量为了测量隐含变量(总体满意度)。但由于理论上不同的观测变量对总体变量的影响程度是不一样的,对隐含变量的贡献程度不一样,系数也就不一样,不能通过全体简单的平均得出结果。那么,得通过什么方法来确定每个观测量的权重,再配合每个观测变量的均值来求得最终的隐含变量呢?结构方程中的路径系数是否可以作为这个权重来理解呢?

我也想顺便问一下,相关系数R平方是否也可以作为权重?回归系数呢?有的文章是通过因子分析,用共同度来作为对总体的权重系数,这个处理方法合理吗?

庄主 @ 2009-05-02:

上述两个问题应该是不同的。匿名一(大家提问时能否留个名?当然假名虚名浪名都可以,以便区分)的问题是一组supervised数据,即总体绩效是一个观测到的变量,而匿名二的问题中因为总体绩效是没有观测的隐含因子、所以是一组unsupervised数据。两者之间当然后者更常见,但前者含有更多信息、因此可以研究更多问题。

一、先讨论匿名一的问题。他(她?)的模型应该是(见最后的注释)

Y = b0 + b1y1 + b2y2 + b3y3 + e                        (公式一)

用来检验y1 - y3各自对Y的影响(即其所说的“考查哪种绩效在总体绩效评分中更受主管重视”)。是否需要对b1与b2、b1与b3、b2-b3三对系数之间的差别做显著检验?当然要。如何做?请参见前贴“如何检验两个回归系数的差别?”。

二、匿名二提出的是一个含三个观测变量的测量模型(measurement model),即

y = Λyη + ε                                                       (公式二)

其中y = y1,y2,y3,η是隐含因子、Λy 是η对各y的影响(也即权重),ε是各y中不受η影响的独自变异(也即误差)。显然,公式一与公式二很不一样:总体绩效在公式一中是因变量(等号的左边)而在公式二中是自变量(等号的右边);公式一中的b1 - b3无论在理论上还是在数值上都与公式二中的Λ1 - Λ3是不同的。

三、现在分别讨论匿名二提到的四种确定y之权重的方法:

1、结构方程中的路径系数:英文为path coefficients of the structural model,但本案没有path coefficients、只有factor loadings of the measurement model(测量模型的因子负荷,即公式二的Λ1 - Λ3)。答案是肯定的,因子负荷就是被当做y1 - y3的权重的。

2、相关系数R平方:不清楚你指的是y1 - y3之间的两两相关系数之平方,还是公式二的R平方?前者与匿名一的研究问题无直接关系。后者就是Λ1 - Λ3的平方。

3、回归系数:同样不清楚你指哪个“回归模型”?如是公式一,你没有直接观测的Y,无法估计。如是公式二,就与你的方法1相同。

4、因子分析的共同度(commonality):这里指的应该是exploratory factor analysis,既然现在有理论导向的confirmatory factor analysis(即公式二),就不必再用数据导向的EFA了。

四、有心的读者也许会想到将匿名一的supervsied数据和匿名二的unsupervised数据(两者中的y1 - y3是相同的)合在一起考虑,就是说,先用公式二构建隐含因子η,然后再检验其与观测变量Y之间的相关关系。一般说来,η与Y是正相关的,但其相关程度不一定是很强烈的、甚至不一定是显著的(如果样本小的话)。其背后有两种可能性:一是方法上的问题:虽然η没有测量误差、但Y含有一定的测量误差(但无法估计),二是理论上的问题:η与Y不一定是一个概念(如η也许是一个多维的因子,其中某些维度与Y无关),即confirmatory validaity问题。如果数据中只有Y和y1 - y3四个变量,我们无法将这两种原因分开。如果有其它“第三者”变量(在理论上与Y或测量误差有关),则可以进一步解析下去(重大突破往往就在眼前了)。但是,即使只有这四个变量,据此而发现的η与Y的相关关系,已经提供了很多信息(如对η效度的独立验证)。

最后,讲一讲语言的精确性问题(应该是已讲过多次的老话了)。匿名一说“用三种绩效的得分对总体绩效得分进行回归”,这句话大概是说倒了的,而本意应该是“用总体绩效得分对三种绩效的得分进行回归”(即公式一)。而匿名二的本意才是“用三种绩效的得分对虚拟的总体绩效得分进行回归”(公式二),但他(她)提到的方法3又和公式一混起来了。思想的迷惑往往与语言的含混互为因果。如何避免?用公式和英文。在英文里描述回归模型的句型是

regress Y on X controlling for Z,或者Y is regressed on X with Z controlled

其中Y、X和Z分别指因变量、自变量和控制变量。这使我联想起前几天与一些学生聊天的情景,当时我建议他们学研究方法时不要看中文书,因为中文语言不够严密,不料遭到强烈质疑,要我举例证明。这里是又一例。如果依靠他们的中文描述,很难将匿名一和匿名二之区别弄清楚的。

如何比较两个中介变量效应的差别?

flyingzjt @ 2009-04-29:

多中介变量二问: 感谢祝老师及时回贴,经过您的解释,我清楚了许多。现在就这个问题再深入一点。1、两个中介变量的中介作用能否比较,即能否经过某种检验来说A在X-Y关系中起到的中介作用比B在Z-Y中起到的中介作用更大?2、如果有理论支持A与B有相关,那么加上A与B的相关之后,两者的中介作用检验是否还是如此,两者中介作用比较是否与1 中采用的方法相同?盼指教!不胜感激!祝好!

庄主 @ 2009-05-01:

我不知是我低估了你问题的复杂性、还是你将问题弄复杂了。你的上述问题似乎就是SEM的两个基本问题之一,即如何检验结构模型的回归系数(另一基本问题是如何检验测量模型的拟合程度)。我先按此思路简单回复一下,其中涉及的所有变量均与上贴相同,故不再定义或画图。

1、如何比较两个自变量(X和Z)对一个因变量(Y)影响(“效果”、“效应”)之间的差别?在SEM中,该问题又按是否存在显著的中介变量(A和B)而分为以下两个分支问题:

1a、如果没有显著的中介变量:计算X和Z对Y的direct effects(直接影响)或total effects(总影响)之间的差别。总影响 = 直接影响 + 间接影响。因为中介变量导致的间接影响 = 0,所以总影响 = 直接影响。LISREL、AMOS等软件均会报告这三个影响系数值。

1b、如果存在显著的中介变量:计算X和Z对Y的总影响之间的差别。如上所述,总影响 = 直接影响 + 间接影响。

2、如何比较两个中介变量(A和B)对一个因变量(Y)影响之间的差别?其实1b中已有答案:计算X和Z对Y的间接影响之差别。(也许这里需要说明一下间接影响是如何计算出来的:X的间接影响 = γAX βYA 、Z的间接影响 = γBZ βYB。)

3、如何检验X和Z对Y直接影响之间的差别?如何检验A和B对Y的中介影响之间的差别?也按有无显著的中介变量分为:

3a、先拟合三个模型:一、上贴图a(“模型一”);二、将模型一中γYX 设为0(“模型二”);三、将模型一中的γYZ设为0(“模型三”)。然后分别计算模型一与二、一与三、二与三的拟合度(即卡方值)之差,模型一与二之差检验的是X的影响、一与三之差检验的是Y的影响、二与三之差检验的是X与Y的差别。(注意:拟合上述三个模型时,X、Z、A、B的所有观测指标与隐含因子之间的测量模型均需加以估计。)

3b、也拟合三个模型:一、上贴图b(“模型四”);二、将模型四中γYX 和βYA设为0(“模型五”);三、将模型四中的γYZ和βYB设为0(“模型六”)。然后分别计算模型四与五、四与六、五与六的拟合度(即卡方值)之差,模型四与五之差检验的是A的影响、四与六之差检验的是B的影响、五与六之差检验的是A与B的差别。

4、如果A和B相关,如何检验A和B对Y的中介影响?上贴图a和b中均已将A和B设为相关,模型一至六都含有对该假设的检验。所以上述所有步骤对A和B是否相关都同样适用(这正是SEM的强项之一)。

最后再重复一下,以上说的仅是SEM模型检验的一般知识。我也许忽视了同时存在两个相关的中介变量时可能会出现的complication(如何翻译为好?)。建议有兴趣的读者读一下David Kenny的有关文献(http://davidakenny.net/cm/mediate.htm)。他是中介关系研究的创始人,也曾是我在UConn时的同事和一直引为楷模的精神导师,但很惭愧,近十年来我很少跟踪他在这方面的新进展,所以不敢断言多个中介变量的检验等同于单个中介变量的检验问题。欢迎了解最新动态的网友帮助我们跟上前沿。

April 25

如何检验两个中介变量的效应?

flyingzjt @ 2009-04-21:

经常看贴,收益良好,今天请教一个问题:X影响Y的关系中有两个中介变量A,B,如果A与B相关,那么其中介效应如何确定,其大小可以比较吗?如果有两个自变量X,Z,中介变量仍为A,B,可能的影响为X-A-Y,同时Z-B-Y,且A与B相关,X与Z相关,那么两个中介变量的效应又如何确定,如果上述变量均为潜变量,如何用LISREL与AMOS检验中介效应?多谢多谢!

庄主 @ 2009-04-25:

你的问题叙述出来好像挺复杂,但如果先画个图(见下图b)再来看,就属常见并较简单的模型之一了。(注意,为了与我在“八大矩阵”中用的符号一致,我用γ表示从X和Z出来的影响而用β表示从A和B出来的影响;其它的系数如φ、ψ、ξ等也来自“八大矩阵”。)

image

image

我估计你已经知道,中介效应需要满足以下条件:

  1. 在中介变量(A或B)没有起作用之前(如图a),自变量(X或Z)对因变量(Y)有显著的direct effects(直接影响,即βYX或βYZ ≠ 0);
  2. 当A或B出现之后(图b),X或Z通过A或B而对Y有显著的indirect effects(间接影响,即γAX或γBZ ≠ 0以及βYA或βYB ≠ 0);
  3. X或Z对Y的间接影响大于其直接影响(即γAX × βYA > βYX 或γBZ × βYB > βYZ );
  4. 当A或B起作用之后,X或Z对Y的直接影响随之彻底消失(即βYA或βYB = 0,这就是为什么我在图b中用虚线表示相关的线条),

注:如果只满足条件1-3,则可认为存在weak version (弱版本)的中介效应;而如果条件1-4均被满足,得到的则是strong version(强版本)的中介效应。

根据上述条件,我们可以很容易地在SEM中检验中介效应。在本例中,由于涉及两个中介变量,可以分以下几步做:

  1. 检验“直接影响”模型(图a),如果其中的γYX 或γYZ 为显著,则条件1成立;
  2. 加入A和B而构成一个full model(“全模型”,图b),如果其中的γAX 和βYA同时显著、或γBZ 和βYB同时显著,则说明条件2成立;
  3. 如果全模型中的γAX × βYA > βYX 或γBZ × βYB > βYZ (前者即LISREL、AMOS等软件中报告的X或Z的间接影响值、而后者则是报告的X或Z的直接影响值),如果两者有显著差别,则说明条件3成立;
  4. 如果全模型中的βYX 或 βYZ 不显著,则说明条件4成立。
April 19

如何检验时间序列数据中的自相关?

happyle @ 2009-02-22:

关于一元线性回归的问题
用一次考试的成绩预测另一次考试成绩,建立回归方程。。。显著性检验。。。
F检验、T检验都有统计学意义
回归标准化残差直方图正态分布
P-P图正态分布
因变量与回归标准化预测值散点图呈直线趋势。。。
但是。。。
D.W.=.815
这表明残差之间正相关,不是相互独立的
所以请问下,这时候考虑DW值是否有意义?

庄主 @ 2009-04-18:

首先要抱歉没有及时回复你的问题。我写帖子的时间不多,每次从收到的问题中按我对读者的兴趣判断挑一个。你的问题有一定的技术含量、但比不上近期的其它题目更有普遍兴趣。

其次提个建议:以后能否将你的问题用sentences(句子)而不是bullet points(词汇排列)表达出来?不知是否受到PPT讲义的影响,越来越多的学生提问时采用这种方法。虽然简要,但如果简略到意义残缺,就适得其反了。准确地描述问题,是学好定量分析的基本功之一。

好了,回到你的问题。先为其他读者介绍一下背景:DW(Durbin-Watson)值是检验一组时间序列数据中自相关(autocorrelation) 程度的统计量。更准确地说,DW检验的是零假设为:一个为时间序列的因变量Yt在对若干(1至k个)自变量作回归之后的每个时间点的residual(残差,记为et)与其前一时间点的残差(et-1)之间的相关(记为 Cor(et, et-1))= 0。这种自相关,也被称为 first-order autocorrelation,简称AR1,中译“一阶自相关”,这里的所谓“一阶”是指两个残差之间相差一个时间点。

这里涉及好几个概念和问题:什么是残差(比较容易理解),什么是自相关(有点难度),一阶与高价自相关有什么差别(也有点难),自相关不等于0会有什么问题?等等。我只谈最后一个问题,因为与你问题直接有关,而其它留待以后有机会再谈。

简单说来,如果 Cor(et, et-1) = 0, 那就违反了OLS回归的基本要求之一(即残差之间的独立性)。如果残差之间有自相关,虽然不会影响回归系数的值,但会影响(低估)回归系数的标准误差(即自变量对因变量的显著程度,从而犯了Type I错误)。这是少数不可饶恕的“死罪”之一,而DW值就是判断是否犯了此罪的判决书。

DW值与Pearson r或其它相关系数不同,其取值在0至4之间,其中当DW值=2时,说明自相关=0;如果DW(明显)小于2,反映有正的自相关(positive AR);如果DW(明显)大于2,反映有负的自相关(negative AR)。两者相比,前者(正相关)更为常见。这里又出现一些新的概念和问题,如什么是正的自相关、什么是负的自相关、怎样才算明显小于或大于2,等等。这里只谈最后一个问题,即DW对2的偏离到达什么程度,就是“明显”或“显著”差别了。

与其它许多统计检验的做法(一般是将统计值除以其标准误差)不同,DW的统计检验比较复杂和繁琐。Durbin与Watson编制了一套检验表,分别对应于不同的数据时间点、不同的自变量个数和不同的显著水平(分为0.01和0.05两种),提供两个临界值,分别记为DL(下限,低于其者则绝对有自相关)和DU(上限,低于其者“也许”有自相关)。具体使用如下:

  1. 观察到的DW值小于2(即正自相关)时:
    1. 如果DW大于DU,说明总体中的Cor(et, et-1) = 0,即可以接受回归分析结果;
    2. 如果 DW小于DL,说明总体中的Cor(et, et-1) ≠ 0,即不能接受回归分析结果(因为自变量与残差之独立性被破坏而使得回归结果不可靠);
    3. 如果DW落在DL和DU之间,则是一个灰色地带,需要进一步根据你的自变量分布是否均匀(即X在自己的各个取值上是否平均分配)来决定。如是,则按1b办;如否,则按1a办。
  2. 观察到的DW值大于2(即负自相关)时:
    1. 如果DW小于4-DU,则如同1a,即总体中的Cor(et, et-1) = 0而可以接受回归分析结果;
    2. 如果DW大于4-DL,则如同1b,即总体中的Cor(et, et-1) ≠ 0而需要拒绝回归分析结果;
    3. 如果DW落在4-DL和4-DU之间,则如同1c,是一个灰色地带,需要进一步根据你的自变量分布是否均匀而决定是参照2a还是2b。

image

上图是我从DW表中选出的三组临界值,其显著水平均为p = 0.05,时间点在10至100个之间,自变量个数分别为2、4和6个。从图中可以看出如下规律:一、当时间点小于20而自变量为4个以上,DU接近甚至大于2(即数据一定有自相关),而且DL与DU之间存在巨大的灰色地带;二、随着时间点增加至30以上,DU变得相当稳定,而DL与DU之间的灰色地带逐渐缩小;三、DL与DU之间的差距并不是对称的。这些都有助于我们理解时间序列分析的基本要求(如数据时间点至少要30个以上、自变量个数不能多)的来源,同时也说明一些“常规说法”(如DW值不能小于1.0)其实并不准确。

你做的是一元回归方程,说明有1个自变量,得到的DW值为0.815,显示存在正的自相关。你没有交代数据的时间点,但可以从上图的红线中看出,你的DW值一定是低于临界点下限的。

你问:这时候考虑DW值是否有意义?当然有意义:你数据中有显著的自相关。我猜你的原意是“这时候回归分析结果(如回归系数达到显著水平)是否还可靠?”前面提到,在显著的自相关下,回归系数的标准误差被人为缩小而显著水平被人为提高,所以也是不可靠的。

当然,你的数据也许不是时间序列 (Yt = b0 + b1Xt) 而是panel数据 (Yit = b0 + b1Xit) ,因为你说用“考试成绩2预测考试成绩1”,暗示该数据中只有两个时间点,但应该有i个人。如果是这种i x t的数据(注意panel公式中的下标),不能用上述经典的DW检验,而应改用修正过的DW公式。SAS、Stata等软件中有,但SPSS13版(我不知14版以后的情况)并不提供这一统计量。

April 13

共同影响与交互影响是一回事吗?

LH @ 2009-04-03:

我看了你最近的博客如何处理和报告含高度相关自变量的回归分析?,有一个疑问,如下:

Y = b0 + b1A + b2B + b3AB + e                   (公式六)

得到R62。这个跟R12是什么关系呢?R62不应该是包含了A的贡献,B的贡献和AB交互贡献的总的公式吗?

假如我的研究问题是想搞清楚AB的共同影响,您的原文中说“Δ3 = R12- R42 - R52”,“Δ3反映了A和B的共同影响”,那么R62- R42 - R52又是什么呢?

我是不是搞混了“交互作用”和“共同影响”?

b3AB中的b3是“交互作用”,而Δ3是共同影响?

或者这两个词是一回事,我在别的地方弄错了。

您看这样的理解对不对:对b3AB中的b3关注的是AB交互对回归系数的影响(放大或者缩小),而对Δ3的关注是关注AB对回归方程effect size的影响。而对Δ3研究effect size影响的时候,应该采用公式一Y = b0 + b1A + b2B + e ,而非公式六?

但愿我没有越说越糊涂。

庄主 @ 2009-04-12:

一、公式1与公式6之区别:原文公式1(Y = b0 + b1A + b2B + e )只含A和B的main effects(主影响),而公式6加入了A X B的interactions(交互影响)。所以,前者是“主影响模型”而后者是“交互影响模型”。显然,这两者是nested,即前者是后者在b3(即交互影响)=0时的一个特例。所以,我们是通过(R62- R12)/R62来检验交互项是否显著的。

二、R62- R42 - R52又是什么呢:公式4和公式5都是公式1的一个特例。公式4(Y = b0 + b2B + e)是公式1在A的net effects(独立影响)=0时的特例而公式5(Y = b0 + b1A + e)在B的独立影响=0时的特例。因此,两者也是公式6的一个特例。R62- R42 - R5= 交互影响 + A和B共同影响。

三、交互影响与共同影响之区别:两者是完全独立的两个概念,不要搞混了。(当然,你即不是世上第一个、也绝不会是最后一个混淆两者的人。)由于经常与人辩论这个问题,我最后找到一个简单而又有力的例子:含A和B两个自变量的factorial experiment正交实验),在此条件下,A和B是完全无关的(为什么?考考你),即两者对因变量只有独立影响而无共同影响(即 Δ3= 0);然而,分析正交实验数据时,我们一定要检验A和B之间的交互影响,结果有时显著、有时不显著,这就不说明交互影响与共同影响是无关的两回事吗?(我好像写过一个类似的帖子,但一下子查不到了。知道的读者帮帮忙吧)

四、共同影响是什么东东:我写过N个帖子讲交互影响,你的上述理解是对的。这里讲几句什么是共同影响。首先,这个名词容易误导。英文中不是“common effects”,而是confounding effects, overlapped effects, shared effects(干扰、重合、共享等等)。它并不是什么好东西,甚至连“东西”都不是,因为它不含任何信息,只是一个即属于A也属于B的混沌世界(但真正的混沌是有信息、可以解的),也许称为“灰色地带”更准确(相信很多读者对在政策灰色地带中生活有深切感觉)。

当然,“灰色地带”有多种来源,如A和B缺乏discriminant validity(差异效度)、A和B受到第三者变量的影响下、A和/或B中含有偏向对方的系统性误差,等等。不管来源为何,其直接影响了模型的理论解释力(当然并不影响模型的预测能力),所以一般是想方设法减小(而不是“研究”)AB之间的“共同影响”。

你的最后一段文字,大意对、但表述不准确。如果按我上述说法,应该如何改一下呢?

附录:

为了演示“交互影响与共同影响是完全独立的两个概念”,我用SPSS设计了一个正交实验的模拟数据,样本N=400,A和B完全独立、而且A、B与其交互项AB也完全独立,同时A、B、AB分别解释了Y的三分之一变差(当然只有在模拟的理想世界中才可能发生)。你运行一下,查看输出的相关矩阵和回归结果来验证一下。最后,如果你琢磨一下crosstabs的结果,应该可以找到我上面有关为何正交实验的自变量之间是完全独立的原因。

set seed=123.
input program.
loop #i=1 to 400.
compute ID=#i.
end case.
end loop.
end file.
end input program.
do if ID<=100.
compute A=-.5.
compute B=-.5.
else if ID>100 and ID<=200.
compute A=-.5.
compute B=.5.
else if ID>200 and ID<=300.
compute A=.5.
compute B=-.5.
else if ID>300.
compute A=.5.
compute B=.5.
end if.
cross A by B.
compute AB=A*B.
compute Y=AB*.5+A*.25+B*.25.

cor A B AB.

*Model 1 (R-square=.667).
reg dep=Y/enter A B.

*Model 4 (R-square=.333).
reg dep=Y/enter B.

*Model 5 (R-square=.333).
reg dep=Y/enter A.

*Model 6 (R-square=1.000).
reg dep=Y/enter A B AB.

April 12

如何做“有序Logistic回归”?

patricia @ 2009-04-12:

祝老师, 你好, 我想问个关于回归的问题. 对照组病灶数0, 病例组病灶数为1,2,3. 现在想了解几个危险因素和病灶数的关系, 是不是应该用有序logistic回归来分析. 能不能概括一下步骤, 看了一些资料, 还是感觉茫然! 谢谢!

庄主 @ 2009-04-12:

我对医学知之甚少,不知取值从0到3的“病灶”应该是一个定距 interval) 还是一个定序 ordinal) 的变量?既然你已考虑用有序logistic回归(ordinal logistic regression,以下简称OLR),说明你是确定病灶为定序变量的。

logistic regression(LR)用于分析因变量为定类或定序的数据。其中分为三个分支:一是因变量为二分组的binary LR(通常在LR一词之前不注明binary),二是因变量为多项分组的multinomial logistic regression(MLR),三是这里谈的OLR。显然,MLR和OLR相似,唯一的区别是前者因变量各组之间只有性质的区别而后者各组之间有大小之别。

我用过MLR,但没有用过OLR(所以以下部分纯属“知识”而不是经验之谈),刚才查看了一下SPSS中的OLR程序(SPSS中叫做PLUM,但不是可口的李子噢),觉得它的操作及输出结果与MLR大致相仿(其实前者比后者更简单,这也许是好事),主要要多了一项“Test of parallel items”的输出,用于检验因变量各组之间的预测值(即根据自变量而模拟的logistic曲线)是否平行。

你希望了解一下操作步骤,我觉得你既然知道选择OLR,操作对你来说应该没有任何困难。如在SPSS里,将定类的自变量当作Factor、定距的自变量当作Covariate,如果需要检验自变量之间的交互影响,在Location中指定。以下是基本的Syntax(假定有两个定类自变量x1、x2和一个定距自变量z,其中x1和x2、x1和z被假设有交互关系):

PLUM y BY x1 x2 WITH z/LOCATION=x1 x2 z x1*x2 x1*z/PRINT=FIT PARAMETER SUMMARY TPARALLEL.

其中PRINT=TPARALLEL就是检验y各组预测值的平行性(注:如果不平行,并不是说明它们之间有交互影响)。

我猜你参阅了其它资料后的困惑,主要在于对其输出结果的解读上。这是在对定类因变量做多元分析时使用各种LR或者Loglinear时普遍出现的问题。(曾有一位学生问我,是否需要选修一门专讲Loglinear Analysis的课,我强烈推荐,说哪怕你以后从不用Loglinear,懂得如何解读定类因变量的多元分析结果就终身受用了。)这种困惑,与你已有如何处理定类变量的其它经验直接有关(注意,我不用知识,因为一般知识在这里帮不了你)。如果你会在各种回归中设置和解读定类自变量,就应该会将其原理推广到如何设置和解读BLR中定类因变量、并进一步推广到如何设置和解读MLR中的定类因变量或OLR中的定序因变量了。我在本庄已写过多个有关如何设置和解读定类自变量的帖子,请查询一下。如果你读后还是觉得无从下手,说明你还只获得了一下(简单)知识,需要从那里开始动手做,以积累必要的经验,然后循序渐进、最后才来做OLR,定量分析很难一步到位的。

April 11

分样本比总样本的回归分析更准确吗?

罗拉@2009-03-30:

祝老师,1.这个问题是上次“如何检验男女两组回归系数之间的差别?”的延续,性别是调节变量,影响了自变量和因变量关系的方向,生成性别和其他两个变量的交互项进行统计解释率为21%,但是分性别统计时,女生为20%,男生为33%,这时是不是分性别统计更准确呢?

2.自变量为两个分类变量(性别,年级),因变量为二分变量(稳定,不稳定),我现在用RC表统计的,但是如果要考虑性别和年级在因变量上的交互效应该如何做呢?

庄主@2009-04-11:

先叙述一下罗拉的问题1:他/她想检验的模型为

Yi = b0 + b1X1i + b2X2i + b3Zi + b4X1iZi + b5X2iZi         (公式1,i = 1 ~ N)

其中Y是因变量、X1和X2是自变量、Z是作为调节变量的性别,用于某一样本(记为N),其回归方程的R平方(记为R21)为0.21。如果将样本N按男女分成两个分样本(N1和N2),分别用以下模型做回归

Yi= b0 + b1X1i + b2X2i                                                 (公式2, i = 1 ~ N1)

Yi= b0 + b1X1i + b2X2i                                                 (公式3, i = 1 ~ N2)

(注意:性别Z在两个子样本中都是一个常数,即在男性中=1、女性中=0,所以公式2中没有b3Z、b4X1Z和 b5X2Z三项。)其R平方(分别记为R22和R23)分别为0.20和0.33,前者略小于R21、但后者则明显大于R21

(罗拉及其他网友:如果下次你有疑问,能否将问题按类似的详尽程度叙述出来?这次我完全看懂罗拉的问题、但担心有些读者看不懂,所以详细写出来;但有时我也不大或完全看不懂问题。)

罗拉的结论“分性别统计更准确”涉及几个误解。第一,就R2而言,R22和R23合在一起与R21是等值的,这是因为R21是R22和R23加权平均数(weighted mean)。本例中R21非常接近女性组的R23而遥遥远离男性组的R22,这应该是女性人数明显多于男性人数而造成的。

注意:上述公式1和公式2+公式3是等值的;但是如果在公式1中拿掉与Z有关的b3-b5三项,即

Yi = b0 + b1X1i + b2X2i                                                  (公式4, i = 1 ~ N)

公式4与公式2+公式3是不等值的。公式1是一个含交互项变量的模型。公式2+公式3是公式1的分拆,所以是一组隐含交互项的模型。而公式4只含主影响,R24会小于R21或R22和R23的加权均值。大家不要将公式1与公式4混淆了。

第二、虽然分样本的R22和R23与总样本的R21等值,但是由于分样本的个案数(N1和N2)小于总样本数,所以总样本的回归结果要比两个分样本的结果更精确(即样本大则误差小)。

第三、虽然对两个分样本的b0、b1或b2作比较很直观,但是这种比较并不能告诉我们两者之间是否存在显著差别,而总样本(即公式1)中的b4和b5分别直接检验了Z与X1及Z与X2的交互影响(详细参见如何检验男女两组回归系数之间的差别?)。

罗拉的问题2,与问题1的唯一区别是因变量是dummy变量,自然不能用经典的OLS回归而应该用Logistic Regression等工具。但是对两个自变量(其实是一个自变量和一个调节变量)之间的交互影响的检验和展示,与问题1以及本庄有关交互影响的三、五个帖子完全一样,恕不赘言。

如何绘制调节效应的图形?

无名氏 @ 2009-04-09:

我是一名应届毕业生,人力资源管理专业,目前在做关于调节作用的毕业论文。向您请教一个问题,“如何绘制调节效应的图形”?谢谢您,祝开心!

庄主 @ 2009-04-10:

这个问题,其实就是如何用图形表示交互关系。而最常见的图形则是直线图(line chart,相信你多半见过),其中Y轴是因变量、X是自变量、图中至少有两条线,每条线代表调节变量(moderator variable)的一个组(更精确地说,是X与Y在该组数据中的关系)。这种图很容易画,可能的难点在于如何设定每条线的斜率,解决方法是先解析出每条线所对应的回归方程,余下的步骤就是小菜一碟了。以下举几个例子来说明。

一、调节变量是一个二分的定类变量(dichotomized nominal variable):

image

假定你的回归方程是 Y = b0 + b1X + b2Z + b3XZ,其中Z是调节变量、含有两个组别(如男女,分别取值1和0,当然也可取1和2或其它数值,但如下述,取1和0会简化结果的解读和制图)。再假定你的回归结果是b0 = 9.7, b1 = 0.3, b2 = 9.7, b3 = -9.1(这里的系数都是为了制图方便而编出来的),那么,男女两组的方程分布是 Y = 19.4 + 0.6X 和 Y = 9.7 + 0.3X(具体过程略过,但你应该逐步演算一遍,以确保理解男女分组方程的来历以及各自与总方程的异同、如女性组方程的b0和b1与总方程的b0和b1相同,女性b0与男性b0之间的差别就是总方程的b2,女性b1与男性b1之间的差别就是总方程的b3,等等)。有了这两个方程,就可以分别算出男女两组在X的最大和最小值时Y的预测值(这一步可以搬到Excel里做,比SPSS方便)。假定X在1-100之间变化,那么当X=1时,男性的Y = 19.4 + 0.6 x 1 = 20、女性的Y = 9.7 + 0.3 x 1 = 10;而当X=100时,男性的Y = 19.4 + 0.6 x 100 = 80、女性的Y = 9.7 + 0.3 x 100 = 40。根据这四组数据(1、20;100、80;1、10;100、40),就可以画出图1了。

二、调节变量是一个三分的定类变量(trichotomized nominal variable):

如果调节变量Z是一个含三个组的定类变量(或含三个层次的定序变量、但被当作定类变量处理;如果你想将其当作定距变量处理,见下例),需要先为Z构建两个取值分别为1和0的二分变量(见上例),分别记为Z1和Z2,而回归方程则为Y = b0 + b1X + b2Z1 + b3Z2 +b4XZ1 + b5XZ2。假定Z是职业,Z1是白领 = 1、其他 = 0;Z2是退休 = 1、其它 = 0;蓝领是基准组、在Z1和Z2上都取0。为了省事,我将图1中的男性数据改为白领、女性数据改为蓝领、只增加退休组的数据。而回归结果为 b0 = 9.7, b1 = 0.3, b2 = 9.7, b3 = 50.7, b4 = -9.1, b5 = -51.1。如上例一样,现在可以根据b1-b5的系数以及Z1和Z2的取值,求出三个职业组各自的方程:

image白领组(即Z1 = 1、Z2 = 0):Y = 19.4 + 0.6X

蓝领组(即Z1 = 0、Z2 = 0):Y = 9.7 + 0.3X

退休组(即Z0 = 1、Z2 = 1):Y = 60.4 -0.4X

最后用画图1的方法画出图2(具体步骤略过,但希望你自己演绎一遍)。其中前两组与图1相同(因为我就是用同一批数据构建的),而退休组因含有一个负值的b1所以呈现向下的趋势。

三、调节变量是一个定距变量:

定距变量往往有很多个值,不可能也不必要对每个值画一条线,一般是取两、三个“代表性”(representative或illustrative)的值各画一条线。如果是取两个值,一般取Z的平均数的正负一个标准差的值(即Z值上第16%位和第84%位的值);如果取三个值,则将平均数作为第三个值。假定这里的Z是年龄,其平均值 = 40,标准差 = 20,而回归系数b0 = 20, b1 = -0.067, b2 = 0.50, b3 = 0.008,我们取Z的均值(40)、大于均值一个标准差(60)和小于均值一个标准差(20),分别得到以下三个方程:

image60岁老年:Y = 50 + 0.39X

40岁中年:Y = 40 + 0.24X

20岁青年:Y = 30 + 0.08X

然后用与图1和图2相同的方法画出图3(具体略过)。

四、其它各种可能性:

如果Z是一个中心化(centralized,见)的值(这时,X也应该是一个中心化的值),那么需要在解析出上述公式后,再将Z(和X)的值减去其平均值而得到其“原始值”,并在图形中以原始值来设定X轴和Z的斜率。

如果有两个或更多的调节变量,分组方程的解析并不困难、但画图就有点复杂了,一般是用k个图来表示,其中k等于其中一个调节变量的组别数。假定一个调节变量是性别、另一个是年龄。可以用两个图来分别显示:一是 男性中年龄、二是自变量X的交互效应和女性中年龄与自变量X的交互效应。或者用三个图来分别显示年龄与自变量X在老年、中年和青年中的交互效应。究竟用性别还是用年龄作为第一层的分组指标(其实也就是调节变量的调节变量),取决于你的研究假设:你最终想比较的是什么?

最后,如果你用的是方差分析,上述原则同样全部适用。其实SPSS方差分析也可以产生回归系数的。

March 28

如何处理和报告含高度相关自变量的回归分析?

Michael @ 2009-03-27:

祝老师您好,我看到很多多元线性回归没有报告自变量之间的相关性,是否只需要通过共线性检验就可以忽略自变量之间的相关性呢?另,我想分析两个高度相关(相关系数=0.8)的自变量A、B与Y的关系;CFA分析显示A、B具有显著差异(卡方值变化),我能否先用其中一个变量如A作用因变量,B作为自变量构建一个回归模型F,然后,用B和F模型形成的残差与Y回归呢?还是直接把AB放入回归模型?非常感谢!

庄主 @ 2009-03-28:

一、是否需要报告自变量之间相关程度?据我所知,绝大部分期刊确实没有将其作为必须报告之信息,也许是因为这一信息并不影响读者对回归模型的总解释力(即R平方)的理解。当然,高度相关的自变量即使能通过共线性检验,其统计显著性甚至系数的正负符号还是有可能受到影响(参见“如何在回归分析中检验和解读交互影响”和其他前贴)。所以,作为作者,不但有责任报告自变量之间的相关程度(但并不一定需要一个表格,用一两句话注明那些相关系数高于0.5的自变量即可),更需要根据R平方之变化值(“如何用block方法检验交互影响?”)或semi-partial R平方(“ΔR2与Semipartial R2”)等结果来检验和解读有关自变量的显著性。

二、如何将高度相关的自变量输入回归模型?一般的做法是将所有自变量(即你的A和B)同时引入回归分析,然后用上述方法来检验各自的显著性和独立贡献程度。这些方法不但在统计理论是成熟的,而且在解读时也是便利的。你建议的方法,其实就是将A和B之间的共同影响部分全部划归为B(这种做法与我在block方法中讲的先引入B、再引入A的结果一模一样),这就需要你有充分的理论根据(如B是A的自变量)才有意义,不然会导致人为夸大B的影响而缩小A的影响。

为了便于其他读者理解我们这里的讨论,让我用几个公式来说明一下。你的回归模型是

Y = b0 + b1A + b2B + e                   (公式一)

其中e是Y中无法被A和B解释的残差。因为A和B高度相关(r = 0.8),你打算分两步来检验公式一:

A = c0 + c1B + f                             (公式二)

Y = b0' + b1'f + b2'B + e'                  (公式三)

其中公式二中的f是A中无法被B解释的残差(也即A与B无关的部分),因此当作一个自变量进入公式三。如果用R平方来考察上述模型,其与block方法中的部分结果是一样的。在block方法中,你可以先检验

Y = b0 + b2B + e                              (公式四)

得到R42,它反映了B对Y的影响(其中包括了B和A的共同影响),然后再加入A(即检验公式一)而得到R12,而ΔR = R12 - R42的差即反映了A对Y的独立影响。

注意,R12,与公式三的R32应该是等值的、e和e'也应该相同;但b0和b'0、b1和b'1、b2和b'2则有可能不同,一般来说,b2'会大于b2、b1'则小于b1,因此我认为你的方法可能会“人为夸大B的影响而缩小A的影响”。当然,这种风险在上述的(不完整)block方法中也同样存在。

那么,应该如何处理呢?我在上述的几贴中已详细介绍过,这里只简单重复一下。先分别检验公式一、四和五(见下),

Y = b0 + b1A + e                              (公式五)

然后分别计算Δ1 = R12 - R42、Δ2 = R12 - R52和Δ3 = R12- R42 - R52,其中Δ1反映了B的独立影响;Δ2反映了A的独立影响;Δ3反映了A和B的共同影响。如果A和B完全无关,Δ3则为0,但在本例中,因为A和B高度相关,所以Δ3可能远远大于Δ1和Δ2。因此,这部分影响归功于谁,是十分重要而又复杂的问题,不能随意处置。

March 21

如何运用缺省值分析(MVA)方法?

wjgxm:

有几个关于缺失值处理的问题想请教祝老师:

我在用little’s MCAR检验时发现,以往不少国内的研究在用此检验时,大多数时候并非是针对整个问卷进行的,而是选取部分指标进行检验,如:1、只针对几个缺失较严重的选;2、只针对问卷中核心部分的指标;3、将问卷分为几个部分,如基本情况项目、满意度量表、其它情况项目等,分别检验。

我对自己的问卷(包括三个部分:基本情况项、5级量表、其它项)分别进行了几次检验,结果如下:1、全部选项纳入检验,结果Sig. = .044;2、只检验5级量表项,结果Sig. = .083;3、剔除最后的4个跳选项,结果结果Sig. = .398。这些结果差异较大,大于或小于0.05的都有。我对little’s MCAR检验的适用性感到一定困惑,因为我是非统计学的学生,非常的业余。

此外,我对跳选项的处理也非常困惑,我的问卷是做关于居民满意度的,最后5项如下:
1、你对XXX的总体满意度?1、很不满意;2、较不满意;3、一般;4、较满意;5、很满意

如果满意:
(1)你会xxxxx?1、一定不会;2、....;5、一定会
(2)你会xxxxx?1、一定不会;2、....;5、一定会
如果不满意:
(1)你会XXXXX?1、一定不会;2、....;5、一定会
(2)你会XXXXX?1、一定不会;2、....;5、一定会

我现在觉得这些跳选项设计的非常没头脑,感到懊恼,因为不管是否满意,居民都应该可能会有这双方面的行动的!问题是,正常情况下,如何处理这些跳选项?我现在首先要做的是缺失处理,后期还要用到SEM,关于这个问题思考的非常之艰难,因为身边没有可帮助之人,网络搜索和学术论文搜索也难解惑,特向您求助!

庄主:

我读过Missing Value Analysis(MVA,缺省值分析)的文献,但从来没有用过,没有第一手的经验或教训可以分享,所以我只简略回答你的问题。(我的原则是,对于自己没有第一手体验的问题,回答尽量简略,以免误人子弟。)

为了便于其他读者的理解,先简介一下MVA。缺省值指调查、实验、内容分析等实证数据中“拒答”、“不知道”、“无意见”等没有实际信息的值。传统的数据分析是将其排除在外,或者用均值或中位数来取代。MVA是一种data-driven(数据导向)而非theory-driven的方法,即根据那些不含缺省值的个案(“样本一”)中的相关信息来预测(即填补)含缺省值的个案(“样本二”)中的缺省值。

我至所以不用MVA,主要是对其的基本假定(即缺省值是完全随机或基本随机产生、或样本一和二没有本质差别)存有很大疑虑。这种疑虑,即来自传统文献,也源于我自己的实证研究。我曾用中国大陆的十来个调查、共几万个案的数据做过一个item non-responses(INR,问题拒答)的研究(Zhu, 1996),发现INR不是随机的、而是受到问卷设计、问题性质、调查环境以及被访者特征等各个层面变量的影响。既然如此,我们应该而且可以根据具体数据的情况(即INR与上述自变量的关系)来决定如何处理INR,如有时应该将INR当作neutral position(中立立场)、有时则应将其当作真正的缺省值而从分析中剔除,而不应盲目和机械地依赖SPSS或其它软件中的MVA工具来替我们做这个重要决定。(同学们大家起来,我们不要做SPSS的奴隶!)

当然,我的上述看法也许是过分保守和落伍。如果你的样本太小,如果不用MVA来“拯救”(?)那些缺省值,有效个案(即样本一)所剩无几,无法做分析,你应该对做MVA之前(即样本一)和之后(即样本一+样本二)的数据分别检验你的理论假设,然后比较两者的参数(如均值、回归或相关系数等)、但不必比较两者的标准误差或显著程度(因为两者样本大小不一而自然不同)。如果两者有明显区别,说明样本二不是样本一的一个随机子样本、而是另一个具有系统差别的样本(但要害问题是我们不知道这种系统从何而来和如何纠正)。在这种情况下,我会放弃样本二。只依靠样本一的代价是Type II误差(即可能拒绝了真实的差别或关系);加入了有系统偏差的样本二,虽然减少了Type II误差、但同时大大提高了Type I误差(可能接受了虚假的差别或关系)。前者的后果是害己(无法发表);后者则是害人(最终也害己)。两害之间,我们应该取其轻者。

我基本认同你对国内运用MVA时的流行做法的批评。既然MVA完全依赖样本一中各变量之间的关系,那么变量越多、其中的信息也就越多,所以应该尽量利用所有现有的变量来做MVA。但是(非常重要的条件),假定你要通过MVA填补的是因变量中的缺省值,你就绝对不应该包括你的理论假设或模型中的所有自变量。否则,你用了自变量填补了因变量中的缺省值,然后再检验两者的相关关系,不就成了自我循环了吗?

你在介绍你的三种检验结果时,没有讲清楚其“显著”差别的意思是什么:是指你用三者不同的MVA方法生成三个新数据(即三个上述的样本一+样本二),然后分别检验你的理论假设的结果?如是,它们之间的差别就与我上一段讲的有关了。你“全部纳入”的问题中也许也包含了自变量,所以其关系容易显著。其实,在没有弄清你的样本二是否为随机样本之前,这种变量之间的比较没有意义。你需要的是我前一段中讲的个案之间的比较。

对于你的第二个问题,即如何填补你的那些被跳过的问题的值。这种想法很大胆、很有创意,但可惜没有道理、非常危险。这里,你不是在填补缺省值、而是在凭空制造新数据。

Zhu, J. H. (1996). "I don't know" in public opinion surveys in China: Individual and contextual causes of item non-response. Journal of Contemporary China, 5, 223-244.

March 15

如何用block方法检验交互影响?

阳阳:

祝老师,您好!读了您的《如何在回归分析中检验和解读交互影响?》,我大受启发,非常感谢!关于调节变量的检验我还有一个问题想请教您。我的毕业论文有一个调节变量是“年龄阶段”(共分为三个年龄阶段,即是一个包含三个水平的类别变量),自变量(X)和因变量(Y)各是一个连续变量。我的考虑是把调节变量转化为虚拟变量(D1,D2),则最后要检验的方程为:Y=a+bX+cD1+dD2+eX*D1+fX*D2。我的疑问是,在检验中,是把X、D1、D2构成“Block 1”,而X*D1和X*D2一起构成“Block 2”?还是“Block 1”不变,把X*D1构成“Block 2”,而X*D2构成“Block 3”呢?另外,我的假设是“X与Y负相关,而处于不同年龄阶段(即调节变量)的个体,这种负相关的强度有区别,具体为:年龄阶段二 > 年龄阶段一 > 年龄阶段三”,第一次使用spss,我只会解读包含两个水平的调节作用,心里很着急,期盼您的指导!非常感谢!

庄主:

你没有说清第一个问题(是把X*D1和X*D2当作一个block还是两个block进入回归)的目的,但我估计是想因此来检验e和f的统计显著性。你的思路应该是受到stepwise regression(逐步回归)的影响。如果你查看一下我的前贴(大部分还在http://zjz06.ycool.comhttp://zjz06.spaces.live.com上,还没有转过来),就会知道我是强烈反对用逐步回归来做显著性检验的(逐步回归可以用了做预测模型的构建,但那完全是另外一种研究)。

你应该采用的是full-1的思想。即通过比较你的full model与full-1 (减掉一个交互项)model之间的差别来检验被减掉的交互项之显著性。在你的案例中,首先估算full model:

Y=a+bX+cD1+dD2+eX*D1+fX*D2               (模型1)

然后估计两个partial models,分别为:

Y=a+bX+cD1+dD2+eX*D1                         (模型2)

Y=a+bX+cD1+dD2+fX*D2                         (模型3)

最后分别比较模型1与模型2、模型1与模型3的R平方之间的差别,从而决定e和f分别是否显著。即,

clip_image002

clip_image002[5]

其中clip_image002[7]clip_image004clip_image006分别是模型1-3的R平方,K1K2K3分别是模型1-3的自变量个数(在你的案例中,分别为5、4、4),N为样本个数。上述比较结果均服从以(K1-K2)和(N-K1-1)和(K1-K3)和(N-K1-1)为自由度的F分布,所以可以通过查阅F值表来决定模型1与2或模型1与3之间是否有显著差别。如果有差别,即说明被省略的该交互项是显著的(因为省略之后模型的拟合度或解释力有了显著的退步)。

你的第二个问题,是通过比较e和f的值及其方向来完成的。鉴于你的假设为“年龄阶段二 > 年龄阶段一 > 年龄阶段三”,你应该将年龄组1作为基准组,即在D1和D2两个dummy变量中取0,而年龄组2在D1中取1、年龄组3在D2中取1。SPSS syntax为:

IF AGE=2 D1=1.
IF AGE=1 D1=0.
IF AGE=3 D1=0.
IF AGE=3 D2=1.
IF AGE=1 D2=0.
IF AGE=2 D2=0.

如果前述检验结果显示模型1与模型2有显著差别、而且e是正值(即年龄组2大于基准组),那么假设一成立;如果模型1与3有显著差别而且f是负值(年龄组3小于基准组),那么假设二成立。

其实上述道理与只有一个dummy交互项相仿,你如有志从事科学研究,应该加强训练自己的举一反三能力。

February 14

如何检验两个回归系数的差别?

X君 @ 2009-01-23:

曾经看过你的有关“如何检验两个相关系数之差别”的帖子,很有启发。最近看了你另外的帖子“如何检验两组回归系数之间的差别”,又有新的收获。其实我还有一个问题,即如何比较一个回归模型中两个定距自变量的影响之差别。我猜想你的上述两个帖子大概已经间接回答了这个问题,但是我还是无法靠自己解决这个问题。

具体例子是我在一个回归分析中的因变量为知识水平,两个定距自变量分别为媒体使用时间和人际沟通时间。很多书上都说,比较一个回归分析中不同系数的大小,要用标准化系数(BETA)。我的回归中BETA分别为0.22和0.15。我原本以为这些数据已经足以证明媒体影响大于人际影响,但是看了你的两个帖子之后,我不知道是否还要用什么公式来检验两者的差别?谢谢。

庄主 @ 2009-02-14:

同一回归模型中的两个Beta(标准化回归系数)之区别,仅仅告诉我们该样本中这两个自变量影响大小的不同,并不说明两者的区别可以推及研究总体。如同所有其它统计检验问题一样,比较同一回归模型中各系数之间的区别也需要经过如下的统计检验过程:

1. 设立零假设:如果有关的回归模型是 Y = b0 + b1X + b2Z,那么检验其中两个回归系数之差别的零假设是:

b1 = b2                                          (公式一)

或者其等价公式

b1 - b2 = 0                                     (公式二)

其中的b1和b2是非标准化系数。

2. 确定检验统计量:由于b1-b2只反映了样本的情况,如要推及总体,需要同时考虑它们的抽样误差,也就是说,要将b1-b2的差别除以两者的Join Standard Error (联合标准误差),即

clip_image002[5]                                            (公式三)

其中se12就是b1和b2的联合标准误差,公式三的结果服从一个以n-k-1的t分布(即用t检验)。这些已在“如何检验男女两组回归系数之间的差别”一文的第1点中说过。两文之间的不同之处是,如果b1和b2来自两个回归模型(如前文的男女分组样本),我们无法得知se12的。而如果b1和b2来自同一模型(如本例),就就可以用如下公式来求出se12了:

clip_image002                 (公式四)

其中se12和 se22分别是b1和b2的variance(方差,也就是标准误差之平方),cov12是b1和b2的covariance(协方差)。

3. 设置统计显著水平:即alpha值,一般为0.05。如果样本数据的实际显著水平(即p值)小于0.05,我们就拒绝零假设,即认为b1和b2在总体中也是不同的。反之,如果p值大于0.05,我们就无法拒绝零假设,而维持b1与b2在总体中相等的假定。

4. 计算统计量的值:SPSS(或其它统计软件)回归分析结果中自然有b1和b2的值,但却并不会直接给出se12的值,我们需要先用SPSS算出公式四中的se12 、 se22和Cov12,然后再代入公式四,最后再算出公式三。在SPSS中的操作,如果写syntax,需要在Regression的指令中加上“STATISTICS=BCOV”一句;如果用菜单,需要选取"Analyze/Regression/Linear/Statistics/Covariance Matrix"。这两种方法,都是让SPSS产生一个自变量回归系数的Correlation/Variance-Covariance Matrix(如下例)。

5. 查出实际统计量相对应的显著水平,并因此决定是否拒绝零假设:此步与其它统计检验相同,故省略。

实例:

以下以SPSS所带来的Employees Data.sav来演示上述过程。我们希望用此数据来比较“先前经验”与“本公司工龄”两者对工资水平的影响之差别,也就是说要检验下述回归模型

Salary = b0 + b1PrevExp + b2Jobtime

中的b1和b2之差别。因此,

1. 零假设: b1 - b2 = 0

2. 统计量:可直接应用上述公式三,不需任何修改

3. 显著水平:alpha = 0.05

4. 求出统计量:先用下述SPSS指令做回归分析:

REGRESSION STATISTICS=DEFAULT BCOV/DEPENENDENT=salary/ENTER=prevexp jobtime.

结果分别见表一和表二:

表一、回归系数

 
Unstandardized
Coefficients
Standardized Coefficients
t
Sig.
 
B
Std. Error
Beta
 
 
(Constant)
24332.66
6376.41
 
3.816
0.0001
prevexp 
-15.9543
7.46028
-0.09772
-2.138
0.032
jobtime 
143.2172
77.55162
0.084383
1.847
0.065

表一显示prevexp(先前经验)在0.05水平上是显著的、而jobtime(本公司工龄)在0.05水平上并不显著(当然在marginal的0.10水平上是显著的)。然而,这并不保证两者在总体中一定是显著差别的,需要经过统计检验。为此,我们需要根据表二求出两者的联合标准误差。

表二、回归系数的相关与方差/协方差矩阵

   
jobtime
prevexp
Correlations
jobtime
1
-0.00298
 
prevexp
-0.00298
1
Covariances
jobtime
6014.253
-1.72302
 
prevexp
-1.72302
55.65577

表二是本文的重点,也是大部分用户不曾在回归分析结果中看到过的表格。该表分为上下两半部,上半部是两个回归系数的相关关系(注意这里不是两个自变量之间的相关关系,而是它们的系数的相关关系)、这对本例来说并无用处;下半部是两个系数的方差(对角线)和协方差(非对角线),这正是我们解公式四所需要的。其中,jobtime的方差6014.253就是se2、prevexp的方差55.65577就是se1,而-1.72303就是Cov12,将这三个数值代入公式四,得到se12 = 77.93173, 再代入公式三,得到一个自由度为471的t值-2.042。

5. 如果查任何一本教科书上的t表,我们可以知道当自由度>120、t大于1.96或小于-1.96时的p值小于0.05。而在网上,则有好事者提供了计算p的精确值的服务(如GraphPad Software),我在那里算出本例p值为0.0417(刚刚小于我们设置的alpha值),因此零假设被拒绝,说明先前经验与当前工龄有显著差别。至于先前经验的系数为什么是负的(即入本公司前工作年份越长、工资越低),则是该数据的特定问题,与本例无关了。

February 10

如何检验男女两组回归系数之间的差别?


罗拉 @ 2009-02-06:

在SPSS中以性别为分组变量做分组回归,应该如何比较回归系数的差异?

庄主 @ 2009-02-08:

如果你问的是如何解读性别的回归系数,请参见我刚发的“回归与GLM分析结果真的不同吗?”。

罗拉 @ 2009-02-08:

这个问题我想问的是如果使用SPSS将相同的回归方程分别用于男生和女生数据,比如:女生组:y1=a1+b1x+c1z 男生组:y2=a2+b2x+c2z,这时该如何看y1和y2是否等同,也就是如何得到AMOS跨组比较中模型对男女是否等同的结果呢?

小彭 @ 2009-02-09:

To 罗拉:你是要检测交互效果吗?如果是,在SPSS里面可以创造一个交互变量。在AMOS(严格说是在SEM)里,可以用多组比较的办法。

罗拉 @ 2009-02-09:

To 小彭:我是想把性别作为调节变量,在AMOS里用多组比较的方法,从结果报告的P值可以看出模型对男女是否等同,但是如果在spss里对男女分别做回归,该如何看两个方程式是否有差异呢,印象中有个公式可以判别,但是实在想不出了。

庄主 @ 2009-02-10:

To 罗拉:以下回答以你的两个公式为基础:女生组:y1=a1+b1x+c1z; 男生组:y2=a2+b2x+c2z。

1. 比较两个回归系数之间差别的公式为:(b1-b2)/se12,其中b1和b2是被比较的回归系,se12是两者的Join Standard Error(联合标准误差),其结果是一个以自由度为n-k-2的t分布(其中n是样本量、k是原来的自变量数,本案中为x和c两个)。

2. 在SPSS(其实是任何OLS回归)中,你如果将男女分成两个样本分布做回归,可以得到b1和b2,但得不到联合标准误差se12(因为b1和b2出现在不同的模型中国),所以无法用到上述公式。

3. SEM(包括AMOS)是通过比较男女样本的拟合度之差别来比较两组回归系数之间的等同性,这种方法在OLS回归中并不适用。同时,SEM的这种做法是有代价的:它将一个总样本分成两个小样本,其结果是降低了Power of Analysis (统计分析效力),从而在没有降低犯Type I的误差的同时又提高了犯Type II误差。

4. 更合理的方法是男女不分组、保留在同一样本内,将性别转换成dummy变量,再生成性别与你想比较的自变量(如X)的交互变量(如X*性别),这就是我和小彭各自发的前贴的意思。也就是说,将你的公式1(或公式2)中改成:

Y = a + bX + cZ + dS +eSX + fSZ

其中S是性别(假定男=0、女=1),SX是性别与X的交互变量、SZ是性别与Z的交互变量。如果男女在S上的取值(即0和1)代人该公式,就可以分解成以下两个公式(注意:样本还是一个):

女生组(S=1):Y = a + bX + cZ + d1 +e1X + f1Z = (a+d) + (b+e)X + (c+f)Z

男生组(S=0):Y = a + bX + cZ + d0 + e0X + f0Z = a + bX + cZ

如果d是显著的(即男女本身之差别),就说明女生在Y上的截距(即平均值)比男生高d个单位(见以下左右图的截距);如果e是显著的(即性别对X与Y之关系的影响),就说明女生的X斜率比男生大e个单位(见左下图红线的斜率);如果f是显著的(即性别对Z与Y之关系的影响),就说明女生的Z斜率比男生大f个单位(见右下图紫线的斜率)。

Interaction between sexes

注:上两图应该是合并在一个三维图,但是不容易看清楚,所以分开来画。

如何生成SX、SZ、如何防止S、X、Z、SX和SZ的共线性等具体操作问题,可参见本庄已有的好几个有关帖子。

February 08

回归与GLM的分析结果真的不同吗?


dylan @ 2009-02-04:

祝老师,您好!我在做回归分析时发现对于分类变量有2种处理方法,1是引入哑变量(或叫虚拟变量),2是在minitab中采用方差分析的一般回归模型,两种方法的结果是不一样的,究竟应该采用哪种方法才是合理的呢?还是都可以用?这2种方法的区别是什么呢?各有啥优缺点呢?期待您的答复。

庄主 @ 2009-02-08:

dylan说对了一半,即对于定类属性的自变量,历来有两种方法,一是直接将定类自变量进入方差分析,二是先将定类自变量转换为dummy variable(哑变量)、然后再进入回归分析。dylan提到的”一般回归模型“,应该指General Linear Model(GLM),其实是对方差分析的扩展,而不是对回归分析的扩展,所以译成“一般回归模型”容易引起误解,如熟悉回归分析的用户对于GLM的术语、思想等都会感到很陌生。

dylan的另一半结论是错的,上述两种方法(即方差或GLM与回归)的分析结果应该而且必须是一样的。如果你看到的结果不同,可能是你在两个分析中设置的模型不同(如回归中只有主影响而GLM中还包括主影响之间的交互关系)、更有可能是两种软件(如minitab与SPSS)或同一软件中GLM与回归的子程序对定类自变量组别之间的比较方法(技术术语叫做contrast coding)不同。以SPSS的GLM为例,其输出的Parameter Estimates(回归系数估计值)表以前是以effects-coding为内定值,其结果与回归中的哑变量(叫做dummy-coding,indicator-coding,simple-coding等)自然不同;但现在该表已经改成simple-coding,所以其结果与回归的哑变量结果一样了。我不用minitab,不知道它的内定contrast coding是什么,很可能是effects-coding。当然,如下例所示,即使我们在回归和GLM中采用了同样的contrast coding,还需要使用相同的reference group基准组),否则结果也可能不一样。

为了帮助理解上面的道理,我们来看一个实例。数据是SPSS软件随带的University of Florida graduate salaries.sav(存放在program files\spss之下)。我们先用SPSS的回归分析来检验以下模型:

Salary = b0 + b1Graduate + b2Gender + b3College

其实因变量Salary是该校毕业生的就业起薪,自变量之一Graduate是毕业年份(定距变量)、自变量之二Gender是性别(二分类的定类变量)、自变量之三College是专业(八分类的定类变量)。如前所说,回归之间需要先将定类转换成哑变量。 Gender的取值已经是0(女性)和1(男性)的哑变量了,其基准组是女性。College有八个类别,应该而且必须生成七个哑变量。在本例中,为了简便起见,我们保留原有的三个大专业(即毕业生较多者,包括1 Agricultural, 4 Business, 7 Engineering)而将其它五个小专业(2,3,5,6和8)合成一个“Others”专业,并相应生成C1、C2、C3三个哑变量,分别代表上述三个大专业,而将Others当作基准组(参见附录)。也就是说,回归分析中实际检验的模型中“College”被C1-C3三个哑变量代替了。回归结果见下表右边三列:

Regression GLM
Coefficient Unstandardized B Std. Error Parameter B Std. Error
Constant 25244.0 756.2 Intercept 25030.3 819.1
Graduate 1.879 .606 Graduate 1.879 0.606
Gender (Male=1, Female=0) 213.6 422.0 [Gender=0] -213.6 422.0
      [Gender=1] 0 .
C1 (Agric=1, Others=0) -2428.5 787.5 [College=1] -2428.5 787.5
C2 (Business=1, Others=0) -1383.4 788.1 [College=2] -1383.4 788.1
C3 (Engineering=1, Others=0) 4690.4 796.0 [College=3] 4690.4 796.0
      [College=4] 0 .
R Square
.179
R Square
.179
Adjusted R Square
.176
Adjusted R Square
.176
F
47.810
F
47.810
Regression DF
5
Corrected Model DF
5
Error DF
1094
Error DF
1094
Total DF
1099
Corrected Total DF
1099

我们对本例的主要兴趣在于比较回归和GLM结果之间的区别,而不是解读分析结果的社会意义。但是,为了便于讨论,还是先对回归系数的意义做些简单解读。Constant=25244.0指在控制了性别、毕业年份和专业的区别之后,该样本毕业生的平均起薪为25244美元;每早毕业一年,起薪高1.879元(虽然显著、但没什么实际意义);男性比女性平均高213.6元(但因Std Error很大而并不显著);C1表明Agricultural专业比Others低2428.5元(显著);C2表明Business专业比Others低1383.4元(但并不显著);C3表明Engineering比Others高4690.4元(很显著,还是读工科好)。上述模型用了5个自由度(毕业年份、性别和三个专业),共解释了毕业生起薪之间差异的17.6%,符合“多”(剩余很多自由度)、“快”(一步到位)、“好”(模型的解释力不错)、“省”(只用了千分之五的自由度)原则。

好了,我们来看看GLM的结果(上表右三列)。与回归结果相比,GLM的有些术语不同(如用Intercept而不是Constant来指常数),而且也将基准组列在表内(因为基准组没有参数,所以都是0)。后者有其好处,提醒读者每个定类变量中什么是基准组。左右两边相比,除了一处之外,所有的参数(系数、标准误差、R平方、F值、各种自由度)全部一模一样!其原因首先归功于SPSS对GLM的修改(其实这么做是方便了“回归派”弟子但对“方差派”是不恭的)。其次也与我碰巧(其实是有意的)选对和选错基准组有关。

先说选对的地方:我在将College合成四个组之后,将第4组Others定为基准组,所以回归中用了C1,C2,C3、而没有用C4(C4从头到尾没有用到,放在那里是留给哪位有兴趣者用来替换C1-C3中的任意一个),这正好与GLM的内定选择(组别数值最大者)相一致。

现在来看选“错”的地方:原始数据Gender中男性=1、女性=0,在回归中,取0的是基准组,当我们得到Gender的回归系数为正值(213.6)时,我们知道这说明研究组(男性)高于基准组(女性)。然后,在GLM中,男性被当作基准组(因为1大于0),所以在其结果中,Gender=0的参数为-213.6而Gender=1的参数为0(提醒我们后者为基准组)。回归和GLM的参数值相同而符合相反,就是因为不同的基准组在作怪。当然,我可以在做GLM时将Gender的男女取值对换,使得两个分析结果完全一样。我故意不做这一步,以显示选对基准组的重要性。

最后总结一下:回归与GLM在本质上是一样的,但在操作上和输出结果上有所不同。两者不存在孰优孰劣,完全取决于各自原有的习惯和手头研究问题的需要。我对回归更熟悉,所以一般用回归。但如果遇到大部分自变量都是定类数据时,也会转到GLM上。当然,如果遇到多个相关的因变量,回归无法做,GLM就是一种很好的选择。我在写Zhu & He (2002) Communication Research 29, pp. 466-495 那篇文章时,就是用GLM做的,但考虑(推测)读者多半更熟悉回归,所以在报告结果时,花了一番心血来展示四个组之间的差别,时至今日我还不能肯定那中报告方法是帮助还是混淆了读者。

附录、SPSS指令(其中大写字母为命令、小写字母为变量名)

GET FILE='C:\Program Files\SPSS\University of Florida graduate salaries.sav'.

RECODE college (1=1)(4=2)(7=3)(else=4)
    /college (1=1)(else=0) into c1
    /college (2=1)(else=0) into c2
    /college (3=1)(else=0) into c3.
VALUE LABELS college 1 'Agricultural' 2 'Business' 3 'Engineering' 4 'Others'.
FREQ college c1 c2 c3.

REG DEP=salary/ENTER graduate gender c1 c2 c3.

GLM salary BY gender college WITH graduate/PRINT=parameter/DESIGN graduate gender college.

January 20

如何处理回归中30多个虚拟变量?

afeiwu @ 2009-01-07:

祝老师,你好。有几个问题想向您请教

1、看了很多会计文章。对年份、地区和行业分别用虚拟变量来处理。有的有30几个居多,这种处理方式正确吗?比如年份,一定要把每一年都放入吗?是否只用根据理论或者逻辑,来自行设定呢?比如这一年前后有重大的事项发生?

2、另外对这些虚拟变量,大部分文章也不汇报相关系数等输出结果。这种处理方式对吗?

3、如果用stata进行面板数据处理。其中的交互项处理方式和spss的处理方式有什么区别?哪一种分析效果跟好呢?谢谢!

庄主 @ 2009-01-20:

你的问题虽然来自会计期刊,但其涉及到的是一般的统计问题(即回归分析),对适用传播学和其它社会科学。

1. 你看到的文章,是否是将年份、地区和行业三个变量分解成30多个虚拟变量(dummy variables)之后放入回归分析?如是,这种做法并不算错,但肯定属于低效和繁琐。可以从多方面来理解其中的问题。

首先,将定距变量的年份转换成虚拟变量,实属低效。一般说来,每个自变量(不论其测量水平)至少要有30个案。如果年份涉及10年,如果作为定距变量,只要求有30个案,但如果转换成9(=10-1)个虚拟变量,则要求有30 X 9 = 270个案。此乃严重低效也。当然,作者也许有其它考虑而将年份转换成虚拟变量,如因此来检验年份与因变量的非线性关系。即使如此,只须在线性的年份变量之后,加上年份的二次方变量甚至三次方变量(详见“如何在SPSS中做数据正态转化?”)就可以了。这时,自然要增加30或60个案,但还是远远少于270个。

其次,如果地区或行业也有10来个甚至更多组别,解读回归分析结果时将会很繁琐,可以转用Analysis of Covariance(简称ANCOVA,或协方差分析)来做。ANCOVA与常见的ANOVA(Analysis of Variance,方差分析)之区别在于前者可以包括定距变量作为covariate(如本例中的年份),但对定类变量(如地区和行业等)的处理则与ANOVA完全一样,直接而简洁。在SPSS中,以前是用MANOVA来实现的,现在也改用Generalized Linear Model(GLM)中的Univariate模型来做(参见“如何解读GLM回归系数的方向?”)。

你问道,将年份转换成虚拟变量时,是否要把每一年都放入? 答案是如果把“每一年”都放入,这组变量就出现完全共线性问题,所以必须抽掉一年(作为基准年份)。

你还问道,是否只用根据理论或者逻辑,来自行设定呢?当然可以。但是,从效率(即对样本数的要求)来说,这种做法仍不如将年份作为定距变量(包括多次方项)来得有效。

2. 你说“大部分文章也不汇报相关系数等输出结果”,不知这里指的是自变量(即虚拟变量)与因变量之间的相关系数还是自变量之间的相关系数?如果是前者,既然有回归系数,就没有必要报告原始相关系数。如果是后者,那么要看各虚拟变量之间的相关系数之强度,如果较强(如大于0.5以上),有必要用文字或附录表交代一下。其实,各虚拟变量之间的相关系数强度,完全与该原始变量各组的大小有关,如果每组大小完全相等,其虚拟变量之间的相关系数一定为0,不需计算或更不必报告。只有当各组规模悬殊时,各虚拟变量之间的相关关系才会成一个问题。所以,在生成虚拟变量之前,应该检查原始变量的分布,并在必要时调整各组规模。

3. 我对Stata也是初学者,只知道可以在其回归分析中直接写X*Z的交互项而不必像SPSS里需要事先另行生成(详见”如何生成交互影响变量?”),但自己没有用Stata做过带交互影响的回归分析,所以不知道其输出结果是否容易解读。我觉得SPSS回归分析的输出结果还是很简洁易懂的。当然,无论用那个软件,如何解读交互影响都是一个较难的事,需要对回归分析有比较透彻的理解。可参见竹家庄里有关的数帖(如“如何在回归分析中检验和解读交互影响?”)。

January 17

如何处理高度相关的内生变量?


丫丫@ 2009-01-12:

一个非常困惑的问题向您请教:我在用amos检验模型A―B1/B2―C―D,其中B和C都是中介变量。B1和B2是B的相关但不同的两种形式,我想将B1/B2同时放入模型,看A对它们不同的影响,以及它们分别对C的不同影响。现在的问题是:

  1. B1和B2相关较高,在spss里面两者的相关系数是.683,做B1/B2到C的回归时Tolerance是.534,VIF是1.8,在amos用双箭头连接后显示两者相关系数是.90左右。我看到您前面的文章说“保守的学者认为相关系数不能超过0.7;自由派的则认为可以放宽到0.9”,而且Tolerance和VIF似乎也在可以接收的范围内。但是,在AMOS里如果我同时将B1/B2放入模型(此时B1/B2不能再用双箭头连接了),有一些标准化后的相关系数会大于1,结果很奇怪。但如果我将B1B2合并成一个变量B(其中B1B2各有两个dimension,合并在一起就是4个dimension成为一个B的construct考察),结果就又正常了。请问结果不正常的原因是我把B1B2分开了吗,这是否意味这B1B2不能同时放入一个模型了?如果希望同时放进去但不合并,该如何处理?
  2. 单独检验模型的后半部分B1/B2―C―D,此时B1和B2就可以用双箭头连起来,AMOS结果处理一切正常,但是两者的相关是.90,不知道这样报结果行不?
    非常感谢。

庄主 @ 2009-01-16:

为了便于讨论、以及帮助其他读者理解你的问题,我画了以下几个图。图1是你希望检验但“结果很奇怪”(如因子之间的标准回归系数大于1)的模型。

Highly correlated DVs1

针对上述问题,你在图2中将B1和B2合并成一个因子B,就解决了问题,结果也正常了(即回归系数等于或小于1),

Highly correlated Dvs2

但是,你并不满意图2,因为在理论上B1和B2是B的两种不同“形式”,所以你尝试将图1中的A去掉,结果也很正常。

Highly correlated DVs3

图2说明,问题出在B1和B2的高度相关(0.90)上;但是,图3好像又暗示问题在于A而非B1-B2(因为拿到A之后问题就没有了)。所以感到“非常困惑”。不知上述图以及相关描述是否有误解的地方?

首先,我想到的是你的样本大小(你没有交代)。如果样本足够大,B1和B2的相关程度也许会减弱。

第二,你讲到,图1中的B1和B2之间不能建立相关关系(这是因为两者是endogenous variables 内生变量)、而在图3中两者之间又可以建立相关关系了(这时,它们成为exogenous variables外生变量)。但你没有提及,在图1的模型中,你是否估计了B1和B2的error variance(误差)之间的相关关系(即PSI矩阵,详见“LISREL的八个矩阵”一文)?如无,也许这是导致模型参数出古怪的原因之一。

第三,但是,哪怕你通过建立内生变量(B1和B2)误差之间的相关关系而使得模型参数正常,B1和B2之间缺乏discriminant validaty(差别效度)的问题仍然存在。你说,B1和B2是B的“不同的两种形式”。然而,数据告诉我们,这两种形式之间没有本质差别。根据parsimony(简约)原则,它们应该合二为一(即图2)。图2比图1少了两个参数(A->B2和B2->C),也即多了两个自由度,因此更可取。

图3虽然也能产生“正常”结果,但牺牲了A,虽然我不知道A的理论含义,但你的研究目的之一是检验A对B1和B2的影响,所以牺牲A是不可取的。

所以,三个模型中,只有图2是合理的。

最后,当然,你还可以试一下,在图1的B1和B2之上,建立一个second-order factor (二阶因子,见图4,参见二价因子分析的可行性vs.可取性等文)。由于B1和B2高度相关,这个含二阶因子的模型应该能够与图2的结果相似。

Highly correlated DVs4

然而,图4比图2多了两个参数、也即少了两个自由度,所以不够简约。而且,A不能直接影响B1或B2、而要通过B来影响B1和B2;B1和B2也不能直接影响C,所以该模型也不能直接回答你的研究问题。

你的问题有相当的普遍性,即两个(或数个)概念在理论上是有区别的、但在实证中却没有discriminant validity。除非你换数据,否则,在现有数据的基础上,你只能接受现实,即将缺乏discriminant validity的概念合并起来。

January 14

为何研究网络媒体素养、第三者效果、等等?


echo0927 @ 2009-01-13:

祝老师您好!我现在正在做青少年网络媒介素养的论文。我打算就青少年网络媒介素养现状及其影响因素进行研究。首先通过一套衡量框架测量出青少年网络媒介素养的得分,然后从家庭背景、媒介接触使用程度、人口学因素、媒介教育四个方面对青少年网络媒介素养水平做相关分析。最后提出青少年网络媒介素养提升策略。

想请教祝老师:1、目前国内外是否能找到一套科学的衡量媒介素养(网络媒介素养)的框架,2、请祝老师就我的论文构思给予批评指正。

庄主 @ 2009-01-14:

1. 国内的文献,你应该比我更了解吧?国外的文献,在google里查 "cyber literacy",返回的前十来条是否符合你的要求?

2. 你的上述叙述里看不出什么“构思”。能否谈谈:为何要研究这个题目?理论上有什么未解决的问题?你的研究会有些什么新贡献?具体的研究假设是什么?等等。

echo0927 @ 2009-01-14:

祝老师您好!谢谢您的解答。

1、为何要研究这个题目:研究目的是想了解青少年的网络素养到底如何,网络对他们来说是否真如洪水猛兽,家长和学校采取“围堵”的办法是否正确,哪些因素影响着他们的网络素养,如何才能提高青少年的网络素养。

2、理论上有什么未解决的问题?目前来说,国内对于网络素养的内涵没有一个统一的界定,我也未能找到一个比较权威的测量框架,如果按照自己的对网络素养的理解编制一个测量框架是否缺乏效度?

3、你的研究会有些什么新贡献?贡献谈不上,只是希望能了解青少年网络素养现状和影响因素,并提出针对策略。

4、具体的研究假设是什么?研究假设是针对四个方面的影响因素提出。包括网络接触使用越多,网络素养越高;接受媒介教育越多,素养越高;父母文化程度越高,素养越高;青少年年龄越大,素养越高等。当然这一切要建立在能有一套衡量框架将网络素养量化测量的基础上。

不对之处,敬请批评。

庄主 @ 2009-01-14:

从你的回答来看,你目前还停留在具体的现象层面,需要抽象好几个层次来考虑问题。以下是去年网络暑期班中的一个讨论。虽然其主题是第三者效果,但也是涉及到研究选题,也许能够帮助你重新思考自己刚才的回答,所以把它贴出来供参考。其实,我觉得这类讨论对很多其他庄员也有些价值。


为何研究“第三者效果”?

学生A @ 2008/07/05:先报个到,我对传播理论很赶兴趣哦,最近在关注第三人效果.

庄主 @ 2008/07/06:你的兴趣主要是以下哪一项:

1. 用"第三者效果"来解释某些现象?

2. 通过某些现象来检验"第三者效果"?

3. 通过某些现象来改进"第三者效果"?

4. 其它(请说明)?

学生A @ 2008/07/06:主要是第2点哈,通过现象检验第三人效果,大家有兴趣一起讨论吗?我们可以开个读书会哦!

庄主@ 2008/07/07:你希望检验"第三者效果"的目的是什么?

1、该假设从来没有在中国被验证过

2、该假设从来没有在中国的某些人口群体中被验证过

3、该假设从来没有在中国的某些事件过程中被验证过

4、该假设从来没有在中国的某些媒体环境中被验证过

5、该假设从来没有在中国的其它条件下被验证过

6、其它目的

学生B @ 2008/07/07:个人对第三人效果(Third person effect,以下简作TPE可否?)没有系统梳理和研习,但看到drjjzhu和218.107.132学员的讨论后也有了兴趣,来斗胆发表一下,抛砖引玉,欢迎原作者和诸位学员一起探讨、补充、指正。

首先用期刊网做了一下简单回顾检索(仅限于大陆的中文文献,因为我们研究的范围是“中国”),TPE似乎是一个被“冷落”的“热点问题”。一个一个回答drjjzhu的问题,之后是个人的评价和想法:

1、该假设在中国被验证过吗?——验证过,见黄顺铭;杨洸;《大学生与超级女声:“第三者效果假说”——广州和成都两地问卷调查之比较研究》,发表在《新闻与传播研究》2007,文章以“第三者效果假说”作为理论指导,以“大学生到底如何收看超级女声节目?”作为研究问题。数据分析发现,“第三者效果”占据了绝对的主导地位。“相对心理理性度”等几个变量对于“第三者效果的强度”的影响具有统计显著性。

[评价:可以用相似的方法,置换研究对象,如对其他的议题或者媒介事件进行检验,不过难保有显著的突破。据我所知,我之前的老师和几个同学正在某一地区做“火炬传递事件调查”,问卷涉及了“被调查者”和“你身边的人”的媒体使用情况、态度认知等。或许可以抽取部分数据。]

2、该假设在中国的某些人口群体中被验证过吗?——台湾有一篇(高雄的人口群体,划分标准是“地区”):陳志賢(Chih-Hsien Chen);陳志萍(Lola C. P. Chen) :《電視改革的第三人效果與新社會運動模式-以大高雄地區民眾意見調查為例 》,发表在《新聞學研究》(2007/04) 研究主要目的是想瞭解大高雄地區居民對電視與電視改革行動的認知及評價,並探討第三人效果與其他可能影響因素。

[评价:突破点似乎在于可以变换一下所谓的“人口群体”,比如按照人口学的划分。]

3、该假设在中国的某些事件过程中被验证过吗?——验证过,见罗卓群 , 曾励 :《论"非典"传播中的第三者效果》,发表在<<当代传播 >>2003年04期,文章就南粤大地突现的"非典型肺炎"风波中,试图解析其在此中扮演的角色,并探讨它的生成机制。

[似乎是用第三者效果来“说明”这种现象。]

4、该假设在中国的某些媒体环境中被验证过吗?——在网络媒介下有过初步的验证,见周裕琼、潘晓慧、严丽娜:《第三者效果与网络不良信息管理》,应用第三者效果理论探讨了网络不良(色情、暴力、虚假)信息的影响机制。以深圳420名网民的电话调查数据为基础,对第三者效果认知和行为层面的影响力进行了统计检验。

[对于网民是否最好用在线调查?若换一个媒体平台,比如报纸、广电,可以考虑和媒体方面沟通以进行调查。]

5、该假设在中国的其它条件下被验证过吗?——何为“其他条件”?(人口统计变量?媒体环境?特定事件?)突破点?

其他的就是一些理论综述文章了。

其次,在论证或检验时,可否反其道而行之,什么情况下{没有}第三人效果?以第三人效果的反面为假设。(人们是否曾几何时“低估”媒介对他人的影响,而“高估”媒介对自己的影响?这是否能成为一种机制,或者“模式”,恐怕还需要一个或多个系统的科学研究来予以证实。)

愚水平有限,文献也看得不多。恳请老师和其他学员跟贴批评指正。:)

学生C @ 2008/07/08: 

检验第三人效果的文化因素,应该是个不错的选题!

尽管人们对某些事物的反应是有一致性的,但是中国文化与西方文化的差别可以作为重要的因素来考查。

关于该理论在中国的检验,我要说的是,没有科学的检测,只有粗略的猜想和应用,这就好比戴维. 莫莉在英国文化研究中提到的,在没有对一国的因素慎重研究的时候,贸然采用该理论来分析,存在着很大的风险,将会误导后来者,后来者以为这些东西都无所谓地区国别时间的概念。

庄主 @ 2008/07/09:

我们选择一个题目时首先要能回答有关的三个W问题:什么是(WHAT)?为什么(WHY)?如何做(HOW)?你回答了"第三人效果的文化因素"的WHY问题,那么,什么是“文化”?如何研究“文化”?

我每次只是提些问题,但既不是针A或C,也不是批评其他学员,而是演示在选择研究题目时需要考虑的各种问题(总的说来就是“为什么”(Why和So What)的问题)。甚至我选择的第三者效果也是也是同样的演示,与该题目本身并无太大关系(也就是说,大家可以对其它任何题目提出同样的问题):

1. 如果已在中国被验证,再次验证的价值何在?

2. 如果对人口分层作分析,希望研究什么问题?先前的研究(不仅是中国的)很多做个类似分析,再次验证的价值何在?

3. 用第三者效果说明SARS现象的价值何在?

4. 你提到的诸种媒体平台均有关研究,再次验证的价值何在?

5. 你提出研究“在什么情况下没有第三者效果”,思路上有新意,但在操作上是个并不存在的“伪问题”(不好意思),因为每个检验第三者效果的结果都只有证明和证伪的两种可能,其中之一就是“在什么情况下没有第三者效果”,没有也不必另外的检验了。(注:这种事实而非的“伪问题”其实很容易犯。去年的讲习班里,也有学员提出了个类似的“伪问题”,好像还是从台湾的期刊上看来的。我一下子想不起具体的题目。)

后记:上述问题的答案不是简单的一个“是”或“否”,而需要具体解释,如果“是”,为什么?如果“否”,又是为什么?