A Consensual Technique for Creativity Assessment
对创造力的共识性定义,41与我在创造力评估本质方面的认识,还有创造力社会心理学对研究方法的要求,这些因素促进了同感测评技术的发展。在介绍我采用这项测试技术的研究,评价它在多大程度上满足社会心理学对创造力测试的要求之前,我先要阐述的是创造力同感测评技术的主要特点。
选择一个合适的任务必须满足三个要求。第一,任务必须产生相应的成果或者能被清楚观察的反应,以供合适的评判者进行评估。第二,任务结果应足够开放,从而保证反应具备相当大的灵活和创新空间。第三,社会心理学研究要求研究对象在任务基线表现(baseline performances)上不要有过大的个体差异,所以选择的任务不应太依赖某些特定的技能,如绘画能力、语言流畅性。对这些特定的技能来说,一些个体无疑比其他个体发展得更好。如果任务特别依赖某些技能,要减少个体间的极端差异,可行的办法是选择基线表现一样的个体作为研究对象。但这个方法在大多数创造力社会心理学研究领域并不可行,因为对大多数领域来说,要找到大量技能水平相同的人相当困难。所以,尽管在研究对象中可以明智地剔除那些在该领域经验水平过高和过低的个体,但在创造力社会心理学基于实验的初步研究中,采用的任务应是所有人都能完成,对此不存在巨大的个体差异。
同感测评技术对评估程序也有要求。首先,所有评判者都应了解被测试创造力的所属领域,当然他们的经验不必完全一致。同感测评技术对“合适的观察者”的界定与斯坦(1967)提出的观点相似,即创造性成果应有用、合理且令人满意,从而被一群“有效的他人”所接受,其中“有效的他人”指“正式或非正式组织起42来的具备评价其所在领域发展状况的一群人”(Stein,1974,p35)。同感测评技术主要要求所有评判者对相应领域有足够的了解,以确立相应时期创造性和精湛技艺的标准。
在采用创造力主观评估方法的研究中,一些研究关注评判者的群体特征:一些学者提出,是否应基于对创造力观点的一致性来选择评判者?(eg,Korb & Frankiewicz,1976)人们是否可以评价自己作品的创造力水平?评判者是否应证明本人有创造性作品?以上第一个问题触及评判标准的核心,就我们现在对创造力的了解,很难对创造力评估的本质进行任何一般性的描述,最适宜的做法就是基于这样的一个假设:一个领域的专家共享着有一定共识的创造力评判标准。对于第二个问题,有证据表明,对自己作品的评价与观察者的评价一致性并不高 (Berkowitz & Avril,1969)。至于第三个问题,一些研究表明,“有创造力”和“无创造力”评判者的评价结果没有差异 (eg,Baker,1978;Lynch & Edwards,1974)。所以,成果或反应应该由观察者来评判,只需考虑他们对研究领域的熟悉程度,而没有必要设置其他的挑选标准。
同感测评技术对评估过程的第二个要求是评判者独立对产品进行评估。共识性定义的本质在于相关领域的专家看见产品就能识别其创造性,而且在评价结果上能达成共识。如果专家们认为某事物表现了高度的创造性是可信的,那么必须接受这一评价结果。同感测评技术的完善在于评判者之间的共识,但这种共识的获得既不是因为实验者对某标准的主张,也不是因为评判者之间的相互影响。所以,研究者不能通过训练使评判者达成一致,不能向他们提供具体的创造力评判标准,评判者在评估过程中也不能交换意见。
同感测评技术对评估程序的第三个要求是:在针对一项任务使用同感测评技术时,除了要求评判者对创造力进行评价外,还应要求他们对作品的其他维度做出评估。至少让他们对作品的技术方面进行评级,如果合适还应该对其美感进行评级。这样就可以看出,在对作品进行主观评判的过程中,对作品其他维度的评价和创造力的评价有没有关系,还可以将社会环境对这些维度的影响与其对创造力的影响进行比较。这一点相当重要,因为我们有理由在理论上相信,既定的社会因素对创造力与其对技术表现产生的影响不同。
同感测评技术对程序的第四个要求是要求评判者在某个维度上将不同的作品彼此比较后再进行排序评级,而不是基于该领域的某些绝对标准。因为在大多数研究中,由“普通人”充当的研究对象的创造力水平,同该领域内最出色的作品比起来要低得多,因此做到这一点也很重要。
最后,每个评判者应以不同的随机顺序对作品进行评价,43且评估的维度次序也应该是随机的。如果所有的评判者都按同样的顺序对作品进行评价,那么评判者间的高信度就可能反映的是操作方法所引起的偏差。
评估完成后,应对各维度的评分进行评判者间的信度分析。如果评估涉及多个主观维度,则应进行因子分析,以确定创造性与这些维度的独立程度。最后如果作品直接呈现出某些客观特征,则应该记录这些特征,并分析其与创造力评价的相关程度。
正如创造力共识性定义所暗示的那样,同感测评过程最重要的法则是评级的可靠性。从定义上看,该方法的评判者间信度等同其结构效度。如果每个适宜的评判者进行独立评价后都认可某产品具有高创造性,我们就应该也必须接受这个结果。此外,就是应该做到将对创造力的主观评判同技艺评判和美学吸引力评判区分开来 (cfHocevar,1981)。显然,在某些领域,美学吸引力和技艺水平的评价与创造力评价的相关性不大,而获得前两项的评分也相对困难。最后,创造力的概念性定义包括恰当性(appropriateness)和正确性(correctness)两个要素,但至少说明这些维度可彼此区分是重要的。否则,测试的区分效度(discriminant validity)就成问题。评判者可能仅仅因为喜欢某东西或者发现其技艺精湛就说该东西有创造性。
评委的评判可用于判断实验对象最初被分派的任务是否达到了社会心理学方法论的目的。当然了,如果在某一人群内进行随机抽样调查,所有实验对象都能完成任务且无技术障碍(如运用材料,在合理时间范围内完成任务),那就表明该任务非常适合相应的研究。如果随即对成果的评分显示创造力评判与实验对象经验有关的特点(如年龄,使用某种特定材料的经验)之间关联性较低,这就表明所选择的任务令人满意。当然了,在极端情况下,不论任务如何,同经验有关的变量都将很重要。因此,在选定任务时,排除能力水平的极端情况后,应考虑这一情况。例如,如果为某研究布置一项语言任务,而实验对象的年龄范围为5至15岁,即使选择任务时已将特定语言能力的重要性最小化,这项任务也不合适。同样道理,如果选择一项和艺术有关的任务,实验对象为一群大学生,若学生中一些人有着数年艺术工作室工作经验,另一些人却从未接触过艺术,即使该任务明显不依赖于任何制图技术,它也是不适合的。
艺术创造力同感测评
为可靠地证明同感测评技术的有效性,我开展了一个研究,使用该技术评估艺术创造力和语言创造力(cfAmabile,1982b)。我将阐述该项目的研究结果,它与评估同感测评技术直接相关。项目中设计了许多研究以验证关于创造力社会心理学的一些特定假设,我将在后面几章中进一步说明。
研究1:儿童的艺术创造力
实验对象和评委。为了这项研究,我们特意发展了同感测评技术(Amabile,1982a)。实验对象是22名7岁至11岁的女孩,都住在加利福尼亚州帕洛阿尔托(Palo Alto)的一栋公寓里,其社会经济地位相对较低。某周末下午,实验人员在大楼娱乐厅内举办了两场“艺术派对”,邀请了大楼内所有7至11岁的女孩,她们被随机分为两组,分别为15人和7人。
由于这是第一次使用同感测评技术,实验安排了三组涉及不同艺术领域的评委:第一组为心理学者,即12名斯坦福大学心理学系的教员和研究生;第二组为艺术教师,即21名斯坦福大学教育学院艺术教育课程的学员(他们当中许多曾是小学或中学的美术老师);第三组是画家,即7名斯坦福大学艺术系本科生和研究生(他们在画室都至少待过五年)。
实验材料。所有实验对象使用的材料完全相同:100多张不同大小、形状和颜色的轻型纸(摆放顺序完全相同),一管胶水,一张159毫米× 209毫米大小的白色纸板。
实验程序。女孩们坐在长桌边,拿到实验材料。我以前做过一个专门考察社会促进的实验。除了这个实验外,文中对儿童艺术创造力的实验是唯一一个以实验小组进行的。但在这个试验中,实验人员劝告实验对象不要照搬或干涉其他实验对象的创作。为了促进其努力,女孩的座位间隔较远。女孩们进行创作时,实验人员全程在场,发现实验对象的想法和创作技术几乎没有模仿现象。共有三位女性实验人员,其中一名告诉实验对象她需要一些孩子们的艺术设计,所以想让她们为她设计一幅作品以供收藏。随后,同一位实验人员还告诉实验对象她们可以多设计一些作品带回家。实验中不说45“画”或“图案”,而用“设计”,这尽可能有效地减少实验人员对实验对象关于合理表现水平看法的表达。
一番介绍后,实验人员展示如何将各种形状的纸贴到纸板上,孩子们用一些废纸练习粘贴。接着,实验人员告诉孩子们可任意使用材料,希望他们做出一个“愚蠢”的设计,方法不限。以“愚蠢”作为主题是可以获得相对较高的创造力基线水平(baseline level),还能尽量降低创造主题的变异,将主题限制在一定范围内,从而降低评委工作的难度。18分钟后,实验人员宣布停止创作(而事实上所有实验对象都在此时限内完成了创作)。
之后,她们告诉所有评委,他们将要评判的作品是孩子们在18分钟内完成的。心理学组的评委进行独立评判,运用他们自己对创造力的主观定义,依据作品的创造性水平将它们从高到低排名。实验人员将22幅设计作品制作成专业幻灯片。艺术教师组的评委同样根据自己对创造力的主观定义作出独立评判。观看幻灯片后立马将设计作品归类:(1)非常缺乏创造性,(2)相当缺乏创造性,(3)未定,(4)相当有创造性,(5)非常有创造性。
实验要求画家组评委在4小时内独立地给22幅作品的多个维度评分。同其他两组评委一样,画家组评委在评判前先仔细观察22幅作品,随后才得知它们都是孩子们在18分钟内设计完成的。评委就23个维度对所有作品进行评价,包括创造性、技艺和美学吸引力等。在每个维度的评级表顶部提供了对该维度的参考“定义”。表31列举了各评判维度及其定义。评委应尽量区分每个维度,并且将每一幅拼贴画同其他拼贴画相比而得出该作品在所有评判维度的评分,而非参照艺术作品的绝对标准进行评判。
画家组评委评判时用到了连续性评分量表(continuous scales)。量表上标有5个等距参照点,其中三个为高、中、低。假定5个参照点间距相同,评委在量表上用“×”标在相应等级的位置,并且建议所有设计的评分在各个区间都有分布。在给定的23个评判维度中,要求评委依照其中4个(创造性、技艺、喜爱和愚蠢)将作品分为三类(高、中、低),并将22个设计从高到低依次排序。
每个评委拿到的作品都是不同的随机排列,评判维度也是不同的随机顺序(如先评判平衡,再看创造性等)。评委事先已得知如何评级、排序和分类,而且有宽松的时间完成以上任务。实验人员全程陪同评委,确保他们能在规定时间内以正确的顺序完成任务。
表31研究1中艺术评委的评分维度46
〖XB,HT5"H;Z<续表>〗
维度
评委拿到的描述性定义
创造性
运用对创造力的主观定义来评判作品的创造性大小
使用材料的新颖性
作品中使用材料的新颖程度
构思新颖度
作品构思的新颖程度
喜爱程度
对设计的主观反应;对作品的喜爱程度
整体美观度
设计整体上美学吸引力的大小
对不同形状材料摆放的喜爱程度
对设计中不同形状材料摆放方式的喜好程度
对色彩使用喜爱程度
对设计中色彩使用的喜好程度
展示意愿
如果可以的话,是否愿意在家里或办公室展示该作品
技艺水平
设计技艺的精湛程度
整体布局
设计布局的好坏
整洁度
作品的整洁程度
用心程度
作品中可见的创作者用心程度
平衡性
设计的平衡程度
形状多样性
设计中形状多变的程度
再现度
设计中可辨识的现实世界物体的再现程度
对称性
整体图案的对称性
表现力
设计中文字、符号或情感的表现程度
愚蠢程度
设计表达愚蠢的程度,即孩童何时感觉愚蠢或行为愚蠢
细节数
作品的细节多少
自发性
设计表达的自发性
动感度
设计的动感程度
复杂性
设计的复杂程度
表32研究1中7位画家评委的评委间信度47
〖XB,HT5"H;Z<续表>〗
评分维度
量表评级的信度
排名的信度
分组的信度
创造性
077
078
069
使用材料的新颖性
084
-
-
构思新颖度
070
-
-
喜爱程度
052
051
043
整体美观度
054
-
-
对不同形状材料摆放的喜爱程度
026
-
-
对色彩使用喜爱程度
047
-
-
展示意愿
040
-
-
技艺水平
072
082
080
整体布局
087
-
-
整洁度
077
-
-
用心程度
076
-
-
规划程度
091
-
-
平衡度
038
-
-
形状多样性
088
-
-
再现度
096
-
-
对称程度
095
-
-
表现力
082
-
-
愚蠢程度
065
072
063
细节数
087
-
-
自发性
075
-
-
动感度
083
-
-
复杂性
089
-
-
实验结果。表32是艺术家组评委23个维度的评委间信度(Winer,1971)韦纳(Winer,1971)提出了计算评委间信度的技术,涉及评级的组间和组内变量分析,结果取决于评委数量。斯皮尔曼布朗(SpearmanBrown)计算的信度值 (Nunnally,1967)取决于评委数量和评委间相关性的均值。运用这两种计算方法分析实验各个维度,结果完全一致。由于斯皮尔曼布朗计算方法相对简单得多,所以我们接下来的实验中都采用了这种计算方法。。由表可见,评级中16个维度的信度达到或超过070,10个维度超过080。另外两组评委的评委间信度也比较高,12位心理学家评委对创造性排序的信度为073,而21位教师评委创造性排序的信度为088。虽然各组评委的专业知识水平确实使得他们对创造性的评判略有不同,但总体上还是保持了较好的一致性。心理学家组和画家组的评委对每幅作品的平均创造性评级的相关系数为044,p<005,而艺术教师和艺术家评委的关联性要高得多,达到065,p<001。
画家组评委评估的有些维度确实和他们对创造性的评判有关(见表33)。此外,画家组的评委对创造力的评判同他们对技艺水平和美学吸引力的评估似乎在心理学上是无关的。对每个设计23个维度的均分进行因子分析(方差最大正交旋转[varimax rotation])后得到两个主要因子,即创造性因子和技艺因子,它们基本正交(orthogonal)。23个维度中很多在这两个因子上聚类(cluster)。两个因子的载荷(factor loading)见表34。还有很重要的一点,即评委对拼贴画的喜爱程度、美学吸引力,以及设计的“愚蠢”程度评级在两个主要因子上载荷很小。
表33研究1中画家组各维度评分的相关性48
〖XB,HT5"H;Z<续表>〗
维度
同创造性的相关性
同技艺的相关性
同创造性密切相关的维度
创造性
-
013
使用材料的新颖性
081a
004
构思新颖度
090a
019
喜爱程度
072a
031
形状多样性
062
006
对称性
-059
027
细节数
054
019
自发性
057
-034
动感度
057
-020
复杂性
076a
-002
同技艺密切相关的维度
技艺水平
013
-
规划程度
-004
080a
整体布局
-013
082a
整洁度
-026
072a
平衡度
-024
064
对不同形状材料摆放的喜爱程度
032
060a
对使用色彩的喜爱程度
025
047c
再现度
-018
054
表现力
-005
052c
同创造性和技艺二者密切相关的维度
美学吸引力
043c
059
展示意愿
056
056
用心程度
064
055
注:没有上标的相关性不具有统计学上的显著性。a表示p<0001,b表示p<001,c表示p<005。
表34研究1a中艺术家组评委23个维度的因子分析,方差最大正交旋转49
〖XB,HT5"H;Z<续表>〗
维度
因子载荷
因子1:创造性
因子2:技艺水平
创造性聚类(creativity cluster)
创造性
068
-023
使用实验材料的方法新颖
078
-021
构思新颖
055
-018
用心
085
023
形状多样
072
-004
细节
095
009
复杂
091
-030
技艺聚类(technical cluster)
技艺
016
054
布局
-008
067
整洁
-034
051
谋划
010
083
再现度
000
095
对称
-034
048
意义表现
-001
092
美学评价
喜爱
022
-004
美学吸引力
-004
014
是否愿意展示该作品
022
028
源自Amabile,TMSocial psychology of creativity:A consensual assessment techniqueJournal of Personality and Social Psychology,1982,43,1004Copyright 1982 by the American Psychological Association
所有评委中,有两人独立对拼贴画做了大量额外的客观测试,测试结果几乎完全相同。他们测算了使用的纸片数量、颜色数量及形状数量(圆形、方形、新月形等),使用某种方式(如撕、折等)改变过纸片的数量、重叠纸片的数量,以及拼贴画的其他6个客观特征。这些特征中许多的确同画家组评委对创造性的评级存在显著相关(见表35)。
表35研究1中设计的客观特色和画家组评委对创造性评级的相关性50
〖XB,HT5"H;Z<续表>〗
客观特征
同创造性评级的相关性
使用颜色的数量
048
使用纸片的数量
064a
使用纸片形状的数量
052
处理过纸片的数量
037
重叠的纸片数量
062a
注:“纸片形状的数量”指实验对象选择使用的纸片形状的种类(如圆形、方形、半月形等)多少;“处理过纸片的数量”指经过某种处理(如撕、折等)的纸片数量;“重叠的纸片数量”指部分或全部覆盖了另一纸片的纸片数量。a表示p<001。b表示p<0 05。
最后,虽然实验中儿童的年龄同画家组评委对拼贴画技艺的评级有一定相关,r=046,p<005,但它同三组评委对创造性的评估不存在显著相关。
研究2:成年人的艺术创造力
在第二个测试关于同感测评技术的实验(Amabile,1979)中,实验对象是95位参加斯坦福大学“心理学概论”的成年女性。她们使用同研究1类似的实验材料,每个人在15分钟内独立创作一幅拼贴画,同样要在设计中表达愚蠢的感觉。
这次实验中作品设计的评委是9男6女共15位艺术家,均有5年以上的室内艺术设计经验(油画、素描或设计)。他们多数是斯坦福大学艺术系的在籍研究生,其中一位是住在帕洛阿尔托的职业艺术家。研究2的评分程序和研究1完全相同,但没有使用研究1中画家组评委的23个评分维度而只有16个维度。研究2排除了研究1中评委间信度低,或者在创造性或技艺水平评分上聚类程度低的维度。最终选取了16个,包括:(1)思维表现力,(2)再现程度,(3)愚蠢度,(4)细节数,(5)对称性,(6)规划度,(7)构思新颖度,(8)平衡性,(9)使用材料的新颖度,(10)形状多样性,(11)用心程度,(12)复杂性,(13)整洁度,(14)整体布局,(15)创造性,(16)技艺水平。
表36研究2中15位艺术家评委的评委间信度51
〖XB,HT5"H;Z<续表>〗
评分维度
信度
创造性
079
使用材料的新颖性
090
构思新颖度
082
技艺水平
076
布局
070
整洁度
086
用心程度
084
谋划度
087
平衡性
048
形状多性样
084
再现度
095
对称性
090
表现力
086
愚蠢程度
089
细节数
082
复杂性
081
创造性评分的评委间信度为079。从总体上看,所有主观评分维度的信度都比较高:在16个维度中有15个维度的信度达到或超过070,12个超过080,信度中位数(median reliability)是084(见表36)。各维度中只有平衡性一项的信度远低于可接受的水平。同研究1一样,研究2也对评分维度进行了因子分析(方差最大正交旋转)。除3个维度外16个维度的载荷同研究1的分析完全相同。有两个几乎正交因子:一个是创造性,包括使用材料的新颖性、构思新颖性、用心程度、形状多样性、细节数和复杂性;另一个包括整洁度、布局、规划度、平衡性及意义的表现力。在创造力因子(028)上,非对称性维度载荷极低,与其他不类聚。另外,再现度在两个因子上载荷几乎为零。“技艺水平”这一单项维度不仅在技术因子上载荷高,而且在创造性因子上的载荷也相当高。研究2在第五章中有详细介绍。
因为研究1和研究2是对同感测评技术的初步探索,因而使用的评分维度比后来的研究多。所以对于这些后来的研究,我的介绍就简要得多了。
研究36:对儿童艺术创造力的进一步探索
研究3(Berglas,Amabile,& Handel,1981)中,55个男孩和56个女孩在15分钟52内独立设计制作拼贴画,使用的材料与前两个研究类似,这些儿童是马萨诸塞州东部一所教区学校2至6年级的学生。评委是6名布兰迪斯大学(Brandeis University)室内艺术设计专业的本科生,每人至少有4年以上的艺术工作室经历。评委根据评分要求为每一幅作品的创造性和技艺水平评级。创造性和技艺水平的评委间信度分别为077和072,创造性和技艺水平间评分相关系数为026。实验中,实验对象的年龄同拼贴画创造性的评分相关性不显著,r = 012,而实验对象的年龄同拼贴画技艺水平的评分相关性显著,r=028,p<001。男生和女生在创造性评分上不存在显著差别。研究细节将在第五章中具体阐述。
研究4(Stubbs & Amabile,1979)的实验对象为47名学生。这些男女学生来自马萨诸塞州东部一所非传统“开放式”学校的一、二年级。依然使用标准的实验材料,实验对象在15分钟内独立设计制作拼贴画。此外,每个实验对象还要完成一份吉尔福德非常规用途测试(Guilfords Unusual Uses test)(实验还使用了一些其他测试手段,第七章有详细介绍)。评委为7名艺术家和7名非艺术家,其中前7位是来自布兰迪斯大学室内艺术设计专业的学生,有4年以上艺术工作室经历该实验中一些评委同样参与了研究3的评分工作。;不是艺术家的7人为心理学研究生、各专业本科生和小学教师(教师来自实验对象所在学校以外的几所学校)。评委根据标准评分程序,为每一幅作品的创造性和技艺水平评级。
在创造性上,艺术家的评委间信度为081,非艺术家为083,14人总体为089。在技艺水平评分方面,艺术家的评委间信度为072,非艺术家为080,14人总体为083。艺术家和非艺术家在创造性评分上的相关性为069,p<0001。所有评委对创造性和技艺水平的评分相关性为077。非常有趣的是,此次研究中拼贴画的创造性评级同吉尔福德非常规用途测试的得分相关性较高(r=048),该发现可以支持另外一个对创造性测试得分和成果主观评估比较研究(eg,Rimm & Davis,1980)的实验结果。实验4将在第八章中详细阐述。
研究5 (Stubbs,1981)的实验对象是波士顿地区三所小学学前班到二年级(grades K2)中79名5至8岁的男女学生,根据标准程序制作拼贴画。随后7名艺术专业学生评委为拼贴画的创造性和技艺水平评级,他们均有三年以上室内艺术设计从业经验。创造性和技艺水平的评分信度同其他研究类似:创造性为078,技艺水平为076,两个维度评分的相关性为028。
研究6(Amabile & Gitomer,1984)的实验对象是5314个男孩和14个女孩。他们都是一所日托中心的孩子(2-6岁),根据实验要求独立制作拼贴画。评委是8名艺术专业学生,均有3年以上室内艺术设计经验,对拼贴画的创造力、技艺水平和喜好程度打分。创造力的评分信度为079,技艺水平为092,喜好程度为076。创造力同技艺水平评分的相关性为071,同喜好程度的相关性为072。男孩和女孩在各维度的评分中不存在显著差别。第六章将对研究6进行详细描述。
研究713:对成年人艺术能力的进一步调查
研究7的实验对象是斯坦福大学选修“心理学概论”的本科生,10男10女。他们使用的材料和以上提到的以儿童为实验对象的研究相同,在20分钟内独立完成拼贴画,“表达愚蠢的感觉”,其中,5男5女还需在表达“愚蠢”的同时尽量表现出创造力。
评委为斯坦福大学的心理学研究生和多个非艺术专业的本科生,7男7女,根据标准程序为每一幅拼贴画的创造性评级,评委间信度为093。虽然实验要求部分实验对象尽可能发挥其创造性,但这样的要求对拼贴画的效果没有影响,男女实验对象间倒是有显著差别。女性制作的拼贴画创造性评级高于男性(p<0 052)。评委的性别对评级没有明显影响。由于女性制作的拼贴画创造性比男性的高(罗顿[Roweton]在他1975年出版的书中也记述了这一发现),所以此后该研究项目中以成年人为实验对象的实验大多只选女性为实验对象。
研究8的实验对象为布兰迪斯大学40名女性本科生(Amabile,Goldfarb,& Brackfield,1990,Study 2),根据统一规定在15分钟内制作一幅“表达愚蠢的感觉”的拼贴画。评委为10名在艺术工作室进行毕业作品制作的本科生,每人都要就创造性和技艺水平给拼贴画评级。两个维度的评级信度分别为093和091,两维度间相关性系数为070。第五章和第七章还将详细介绍该研究。
研究9 (Brackfield,1980)选用了50名女性本科生作为研究对象,然后10名艺术本科生为拼贴画的创造性打分,评级信度为092。
研究10 (Amabile,Goldberg,& Capotosto,1982,Study 1)中,60名女性本科生制作拼贴画,14名艺术本科生为拼贴画的创造性评级,信度为075。第六章将具体介绍该研究。
研究11(Amabile,Goldberg,& Capotosto,1982,Study 2)中,120名女性本科生制作拼贴画,由12名艺术本科生打分。评委间信度为080。
研究12 (Berman,1981)的实验对象是马萨诸塞州布罗克顿(Brockton)退伍军人联合医院(Veterans Association Hospital)的52位男性,其中42人精神失常,10人为病房陪护人员。实验对象根据实验标准程序制作拼贴画。15名艺术学院学生和高中艺术教师担任评委,为拼贴画的创造性打分,评委间信度为079。
研究13(和巴里·奥斯科恩[Barry Auskern]合作开展)选择了24名男性与24名女性本科生作为实验对象,然后10名艺术专业学生就实验对象制作的拼贴画的创造性进行评分,信度为077。实验结果和研究7恰好相反:不同性别实验对象的创造力不存在显著差别。
表37总结了13个研究中艺术创造力的同感测评结果。
表37艺术创造力实验的主要发现总结54
〖XB,HT5"H;Z<续表>〗
研究
对象
评委
信度
1
22名女孩
12位心理学家
21位艺术教师
7位画家
073原文为73,应为73,即073。——译者注
088
077
2
95位女性
15位艺术家
079
3
111名男孩/女孩
6位艺术家
077
4
47名男孩/女孩
7位艺术家
7位非艺术家
072
080
5
79名男孩/女孩
7位艺术家
078
6
28名男孩/女孩
8位艺术家
079
7
20位男性/女性
14位非艺术家
093
8
40位女性
10位艺术家
093
9
50位女性
10位艺术家
092
10
60位女性
14位艺术家
075
11
120位女性
12位艺术家
080
12
52位男性
15位艺术家
079
13
48位男性/女性
10位艺术家
077
语言创造力同感测评
我们运用同感测评技术研究艺术创造力,结果令人欢欣鼓舞。但这种技术是否同样适用于其他领域,证明这一点相当重要。在下面介绍的研究中,我们发明了一种语言创造力同感测评技术,并对其加以测试。大部分研究采用了相同的创造力任务(创作一首短诗),但其中三个还设计了其他语言任务。由于许多实验测试了关于创造力的特定假说,所以我将采取同艺术创造力研究一样的方法,并将在后面的几章分别介绍这些实验。
研究14:用诗歌对语言创造力的初步探索
实验对象和评委。实验对象是布兰迪斯大学“心理学概论”课程中的48名女性学生(Amabile,Goldfarb,& Brackfield,1990,Study 1)。由两组专家评委评判实验对象的创作成品——俳句。第一组评委包括10名布兰迪斯大学英语系的研究生和优秀本科毕业生,他们在诗歌的深入学习和创作方面都有三年以上的经验,有的甚至发表过作品。第二组评委是10名住在美国马萨诸塞州剑桥市(Cambridge)的诗人,多数是哈佛大学英语系的研究生,但也包括大学以外的人。所有评委都在学术或非学术文学杂志上发表过作品。
实验程序。每个实验对象有20分钟独立创作一首“美国俳句”这里的“俳句”是一个一般描述意义上的说法。诗句简短、结构明确,是“美国俳句”和传统日本俳句唯一明确的相似之处。严格意义上,此次研究中所作俳句应该算作“五行诗”(见 Amabile,1982c)。。美国俳句是一种简化了的无韵五行诗:第一行仅为一个名词;第二行有两个描述该名词的形容词;第三行包括三个跟这个名词有关的动词;第四行字数不限(一个关于这个名词的短语或句子);第五行重复第一行的名词。实验人员为实验对象提供基本的指导,并展示两个美国俳句的例子。为降低差异性和评委评判的难度,实验为每个实验对象都提供了第一行的名词,即“快乐”。
表38研究14中第二组评委的评分维度56
〖XB,HT5"H;Z<续表>〗
维度
评委拿到的描述性定义
创造性
运用对创造力的主观定义来评判诗作的创造性
喜爱程度
运用对喜爱的主观标准来判断对诗作的喜爱程度
主题一致性
全诗主题一致
用词新颖性
用词的新颖程度
用词恰当性
用词符合主题的程度
想象丰富程度
所用形象的生动程度
思想原创性
主题思想的原创程度
语言优美/流畅
诗句语言优美、流畅程度
表现手法娴熟度
表现手法的娴熟程度
诗歌形式的运用
根据给予的指导判断使用“美国俳句”这一形式的正确程度
情感
诗作所表达情感的丰富和深切程度
语法
诗作的语法正确性
韵律
有效运用韵律节奏的程度
清晰度
表达的清晰程度
第一组评委一起参加了仅有的一场评审会议。当然了,由于评判任务涉及阅读,这就保证了评委工作的独立性。事实上,评委在评审结束前都不能讨论诗作或评判事宜。首先,评委阅读对实验对象的要求,之后他们被告知实验对象即女学生们有20分钟创作诗歌的时间。每个评委都可以阅读完48首诗的复印件后再做评判。评委用他们“自己对创造力的主观定义”给诗作的创造性评级。评委不应把诗作和评价诗歌的绝对标准对比,而是将48首诗相互比较并得出评级,并使用类似拼贴画实验中的连续性量表。每个量表上都有五个等距参照点,其中三个分别标有高、中、低。评委假设每个参照点间距相同,在量表上用X标出诗歌创造性的评判等级,并尽量在每个评级上都有分布。每个评委对不同随机顺序出现的诗作进行评判。
第二组评委也参加一场小组讨论(group session)。评分过程和第一组评委的相同,但第二组评委的评分任务是对24首诗的14个维度进行评判。实验人员从原先的48首诗中任意选出一半供第二组评委评判,原因是评委要给每一首诗就14个维度评分,而每评一个维度就要重新读一遍诗,将耗时过长。然而,设计实验时,我们又不想让评委连续评判一首诗的14个维度,完成一首诗的评判工作后再进入下一首。所以我们在实验中真实采用的方法,是就某一个维度连续评判14首诗,这样有助于评委在某个维度上采用一致的主观标准。表38列出了评委得到的评分维度及其非限定性“定义”。实验要求评委尽量区分各个维度。每位评委安排的评分维度均有不同的随机顺序(如一人先从创造性维度评判所有诗歌,另一人从想象丰富程度开始等)。评委有充足的时间进行评判。
实验结果。几乎所有主观评分维度的评委间信度都很高。第一、二组创造力的信度分别为087和090。由表39可见,14个维度的信度中,有13个都高于070,9个高于080。在之前提到的拼贴画实验中,对各维度进行因子分析(方差最大正交旋转)后发现了因子间明显的区别,但在此次试验中,对14个维度进行因子分析(方差最大正交旋转)后未发现明显区别。所有维度在两个主要因子上都有正数载荷,一些甚至在两个因子上的载荷都比较高。然而,我们可以找出一些有意义的维度群(clusters of dimensions)。“创造力”因子包括创造力、用词新颖性、思想原创性、表现手法娴熟度和韵律等维度;“格调”因子包括清晰度、用词恰当性和主题一致性等维度;“技法”因子包括语法和诗歌形式的运用等维度。这些维度在三个因子上的载荷见表310。研究14在第五章和第七章中有详细介绍。
表39研究14中第二组十个评委的评委间信度57
〖XB,HT5"H;Z<续表>〗
评判维度
信度
创造性
090
喜爱程度
080
主题一致性
087
用词新颖性
089
用词恰当性
078
想象丰富程度
092
思想原创性
090
语言优美/流畅
083
表现手法娴熟度
091
诗歌形式的运用
082
情感
074
语法
063
韵律
071
清晰度
075
研究1518:其他用诗歌探究语言创造力的测试
研究15(与利萨·伯曼[Lisa Berman]和罗尼·戈德勒斯特[Ronit Goldlust]合作)的实验对象是40名布兰迪斯大学“心理学概论”课程的本科女生。她们按照研究14中的要求各写一首美国俳句。评委是6名住在马萨诸塞州剑桥市的诗人所有评委都参与了研究14。,在各自家中独立完成评分工作。评委收到纸质说明和40首俳句的复印件后,按照研究14的小组评分程序为诗歌的创造力、表达清晰度和诗歌形式的运用评分。
创造力评分的评分信度为077,诗歌形式为091,表达清晰度为062。虽然结果比研究14中的评委间信度略低,但至少两个都在可接受的范围。创造力评分同诗歌形式和表达清晰度的评分相关性都不显著,分别为-016和038。
表310研究14a中第二组评委14个维度的因子分析,方差最大正交旋转58
〖XB,HT5"H;Z<续表>〗
维度
因子载荷
因子1:创造性
因子2:体裁
因子3:技法
创造性丛
创造性
091
030
021
用词新颖性
091
025
024
思想原创性
088
036
006
娴熟度
090
031
013
韵律
078
036
010
体裁丛
清晰度
023
089
027
恰当性
047
082
020
一致性
044
081
016
技法丛
语法
019
017
090
形式的运用
014
022
091
aFrom Amabile,TMSocial psychology of creativity:A consensual assessment techniqueJournal of Personality and Social Psychology,1982,43,1008Copyright 1982 by the American Psychological Association
研究16(Amabile & Zingmond,1982)的实验对象是59名本科生,30名男性和29名女性。他们根据标准实验要求创作美国俳句。12位诗人评委对创造力评分的评委间信度为082,男女实验对象的得分不存在显著的差别。
研究17(同巴里·奥斯科恩合作,见研究13)中,8位诗人作为评委对24名男性和24名女性本科生所写俳句的创造性打分,评委间信度为077,男女实验对象的得分同样不存在显著差别。
研究18(Amabile,1985)的实验对象为72位波士顿59大学的创作型作家,根据标准指导创作俳句。俳句被分为两组,12位诗人评委对第一组俳句创造力的评分信度为082,第二组的为078。第七章将详细介绍研究17。
研究1921:关于语言创造力的其他实验
这三个研究测试用同感测评技术测试了语言创造力的两种不同任务。在两种实验测试方法中,根据实验的标准程序,实验对象作出言语回应,由评委对回应进行评判。研究19(Stubbs & Amabile,1979)的实验对象是47名来自马萨诸塞州东部一所非传统“开放式”学校一、二年级的男女学生(与研究4相同)。每个实验对象都要先看一组画,包括六幅描绘一个小孩和一只狗玩耍场景的图(每个实验对象看到画的顺序相同)。紧接着,实验对象看图说话,根据每幅图讲一个故事。讲的故事被录下来并转录。两位评委曾经当过小学老师,他们听过转录的故事后使用以前研究中使用的创造力量表评分。由于阅读实验对象的创造成果耗时较长,且实验预期获得较高水平的一致性,故此次探索性研究只设计了两位评委。评委相互熟识,但从未共同教学或接受培训,也未在实验对象所在学校工作过。两位评委评分间的简单相关系数表明评委间一致性很强:r =087。这些孩子们同样完成了吉尔福德非常规用途测试,并且像拼贴画创造性实验一样(见研究4),讲故事的创造力评分同这个测试的得分显著相关(r = 040)。研究19在第八章中有详细介绍。
研究20(Hennessey,1982)同样探究了儿童讲故事所体现的创造力。实验对象是一所教区学校一至五年级的115名男女学生。他们先看一本没有字的书,然后就每一页刊载的东西讲一件事情。他们所用的书(Mayer,1967)共有30页,通过图画讲了一个故事。虽然故事梗概清晰,但细节并不十分明确,所以学生们有足够的发挥空间。他们所说的故事被录下来并转录,由三名小学老师担任评委,听过故事后为其创造性评分。和研究19一样,此次实验的评委皆独立评分,其一致性很高,评委间信度为091。
研究21(同艾伦·兰格[Ellen Langer]合作)的实验对象是48位从不同地方招募来的成年男女。每个实验对象单独进行试验,先看五幅漫画,再为每幅画写个“有趣的”说明。这些漫画选自《纽约客》(The New Yorker)和其他杂志,选择的标准是主题模糊,可产生多种幽默效果。漫画呈现给实验对象时,其原有的说明已被抹去。我们假定任何博学之士都可以为漫画说明评分,所以实验评委是10名布兰迪斯大学的教员和研究生。评委根据实验要求为标题的创造力和幽默程度打分并评级。创造力评分的信度为085,幽默评分的信度为082,两个维度评分的相关性为069。
语言创造力研究总结见表311。
表311语言创造力评分的主要结果总结60
〖XB,HT5"H;Z<续表>〗
研究
任务
实验对象
评委
信度
14
俳句
48位女性
10位诗人
087
24位女性
10位诗人
090
15
俳句
40位女性
6位诗人
077
16
俳句
59位女性和男性
12位诗人
082
17
俳句
48位女性和男性
8位诗人
077
18
俳句
72位女性和男性
(创造性作家)
12位诗人
082(第一首诗)
078(第二首诗)
19
讲故事
47名男孩和女孩
2位教师
087(简单相关系数(simpler))
20
讲故事
115名男孩和女孩
3位教师
091
21
漫画说明
48位男性和女性
10个人
085
主要研究结果总结
设计以上研究的目的之一是构建并测试一种对不同领域相对可靠的创造力主观评估方法。这些研究很多都达到了这一目的,发现了该方法的诸多有用之处。而最重要的是,这些研究表明,即使评委单独评分,没有以任何形式被训练要达成一致意见,我们也可以在主观评判创造力时达成较高水平的一致。在研究这种评估方法的初步实验中,两个讲故事实验的创造力评分的信度之高让人为之一振:两个评委的实验信度为087,三个评委的实验信度为091。因此,根据之前提到的创造力共识定义,我们可以说主观评估对拼贴画、诗歌、故事和漫画说明的测试是有效的。本书第二部分将介绍一些使用同感测评技术验证关于创造力社会心理学假设的研究,以进一步证明以上测量的有效性。在这些研究中,当一些构想表现得有创造性时,同感测评技术提供了测量工具。这种技术要建立在特定理论的基础上才起作用。
对创造力评分的评委间一致性或许在某种程度上取决于评判所需的精力。在研究2中,每位艺术家评委要花近4小时就16个维度逐个给95幅拼贴画打分,评委间相关性均值仅为021。相比之下,在研究8中,每位艺术家评委仅需花半小时就两个维度为40幅拼贴画打分,评委间相关性均值达到057。可见,当评委的任务尤为繁重时,可预见评委的疲劳和任务的困难会使评分标准在评判过程中难以保持一致。在这种情况下,增加评委人数是明智的。
有趣的是,评委的专业知识水平似乎并不像61人们想象的那样会对评判任务产生多大影响。在对艺术创造力的研究中,就评委间平均相关性而言,艺术家评委并没有比非艺术家评委占据更明显的优势。甚至,仅有的两种评委对创造力的主观定义也不存在明显差别。在涉及艺术家和非艺术家评委的研究中(研究1和研究4),评委间的一致性也非常高(研究1中两组非艺术家评委与艺术家评委的一致性分别为044和065,研究4中则为069。类似地,研究14中诗人和非诗人评委评分的一致性也非常高,达到080。)漫画说明的实验中,普通人担任的评委也在对创造力的评判中显示出较高的信度。
当然,这些数据也向我们提出了问题。在运用同感测评技术时,谁能被视为专家,谁才是合适的评委?似乎唯一的要求就是熟悉实验产品所属的领域。这样看来,研究14取得高度一致性的原因就是俳句这一诗歌形式相当简单,而且,在我们所处文化中,大部分接受过教育的人都熟悉俳句。同样的道理,拼贴画研究中所有组别的评委都具备实验所要求的对拼贴画的最低熟悉程度,漫画说明实验中的评委也对杂志漫画有一定的了解。
此外,似乎在某些领域内,任何有一定接触的人都可以担任评委。另一方面,由于一些实验涉及的领域相当复杂,或不为大众熟悉(例如医学研究和无调性音乐),有些类型的实验产品或许要求人们在这些领域内接受特殊训练才能担任评委,对产品进行评判。若不特意选择专家,评委对实验领域的熟悉程度就值得怀疑,评委意见的一致性也必定会大打折扣。所以在使用同感测评技术时,选择评委必须谨慎,他们一定要对实验涉及的领域特别了解。
对艺术创造力的研究还表明,人们可以把对艺术作品创造性的主观评判同他们对美学吸引力和技艺水平的评判区分开来。研究1的因子分析显示,美学吸引力的评判在创造力和技艺因子的载荷相当低。在研究1和2中(这两个研究设计了足够多的维度以供人们进行因子分析),技艺和创造力因子间有明确的区分。然而,我们应注意到,“技艺”这一维度并不总是完全包括主观评判中的技术因素,这点相当重要。虽然创造力和技艺两个维度的相关性在研究1、3和5中分别为013、026和028,但在研究2、4、6和 8中则分别达到068、077、071和070。既然因子分析未能很好地分离创造力和技艺因子,那么如果叫作其他名字而非“技艺”的量表可能会更好地涵盖整洁度、布局、62规划度等在内的一组特征,而在这种新量表上的得分将有别于创造力量表上的得分,而且这种区别也具有稳定性。
虽然区别并不像探索艺术创造力的研究1、2中的那么明显,但在研究14俳句评分的因子分析中,创造力因子确实有别于其他因子。像之前提到过的,尽管因子分析中对诗歌的喜爱程度和创造力各维度的聚类程度低,但喜爱程度这一维度却同创造力这一维度紧密相关。所以,虽然一些类型的实验产品其创造力得分或许同喜爱程度这一维度的评估没有关系,但对其他类型的产品来说,创造力评判或许同美学吸引力的评估紧密相连。在漫画实验中对幽默程度的评分也得出了类似结论。
研究1和研究4初步探索了评委判定某物有创造性时反应的本质,假如既新颖又合适的作品有创造性,看他们是否清楚地意识到这些。艺术家评委完成任务后还要回答一个开放式问题,即列举拼贴画最重要的特征并描述自己的主观反应,通过回答这个问题来描述他们是怎样得出作品的创造力评分的。虽然他们在许多维度上的反应(例如整洁度、布局,以及艺术吸引力)都很明白易懂、容易分类,但在创造力各维度上的回答却模糊不清、难以理解。这些回答中有很大的可变性,大部分包含许多行话。这些回答暗示,正如之前提到的,人们可能难以描述创造力,但要高信度地判断一个事物是否有创造性则要相对容易一些。
要获得评委对创造力评分清晰的现象描述有一定困难,因为创造力评分同许多其他主观评判的维度(构思新颖度、复杂性等)相关,特别重要的是,有了这些数据,我们就可以着手描绘评委对特定实验产品的反应了。此外,研究1中的创造力评分同拼贴画的一些客观测量特点密切相关,这一点十分重要。至少对于一些产品来说,分析客观特点或许有用,而这些特点同创造力主观评判总是相关。如果可以做到这一点,而且保证不同组的实验产品以及不同组评委的评分都能保持高度一致性,那么这些特点就可以用作指标,以此评委就为这些产物贴上“创造性”的标签。
这些研究显示,同感测评技术可以用于各种迥然不同的任务。制作拼贴画完全不需要语言,用到的只有纸和胶水。相比之下,创作美国俳句则要求写五行原创诗句。63讲故事和写说明的任务同样代表着不同领域。所以,同感测评技术这种方法似乎可以成功地用于不同领域内的诸多任务。
对创造力社会心理学特别重要的一点是,正如以上研究说明的,可以找到一些创造力评估任务并不那么依靠特殊技能,因为这些特殊技能有一部分个体比其他个体发展得更充分。当然了,完成这些任务时总会有一定的个体差异。虽然大部分包含男女生对象的研究中表明不同性别在创造力上存在显著差别,但有一项研究(研究7)例外。研究4中,拼贴画和讲故事的创造力同传统非常规用途测试测量出的创造力特性高度相关。然而,儿童的年龄和他们拼贴画或讲故事所体现的创造力之间一直没有太大的关联,这就有力地证明了人们在这些任务中的表现并不特别依赖特殊技能。此外,测试艺术和语言创造力的任务对于几乎所有参与实验的儿童和成年人来说都既易于驾驭又身心愉悦。所以,这些研究中所使用的任务类型可普遍用于探究社会和环境对创造力影响的实验研究中。
同之前技术的比较
在概念上,同感测评技术与传统“客观”创造力测试完全相反。在传统测试中,分任务(component tasks)和子任务(subtasks)的成果得分便最后形成对个体创造力的总体评估。这样的评估从根本上基于设计子任务心理测量学家或评分员的主观评判。而同感测评技术是出于对创造力全面明确的主观评价,而后来这种全面的评价也证实了其可靠性。有了这些保证,创造力评估就可以细分为分任务,即可通过检测决定哪些主观评判或许还有哪些实验产物的客观特点可以预测创造力评判结果。正如本章介绍的研究所示,我们在这方面已经取得了一定进展。
此外,同许多创造力测试方法相比,这种主观评估技术作为一种测量创造力大小的手段,似乎更具生态效度(ecological validity)。实验对象使用材料时有很大的创造空间,可以真正意义上创造现实中人们可能创造的作品——拼贴画、诗歌或故事。除此之外,实验使用了以前社会心理学研究使用过的方法(eg,Thurstone & Chave,1929;Walster et al,1966),合适的观察者可以对实验产物做出可靠的主观评判。因此,不光是实验任务本身反映了现实生活,评估技术同样反映了现实生活中对创作的评价。
同感测评技术之前的一些实验使用了类似的主观评估技术(eg,Domino,1974;Helson & Crutchfield,1970;Kruglanski,Friedman,& Zeevi,1971;MacKinnon,1962;Sobel & Rothenberg,641980)。其中一些研究也确实取得了和我相似的结果。如瑞安和温斯顿(Ryan and Winston,1978)就发现,成人评判者对孩子创造力的评估与其所作画的“形式多样性”相关。这使我们想到了研究1,在此研究中,对创造力的评估与其画中形状使用的多样性相关。在另一项研究中(Trowbridge & Charles,1966),发现孩子绘画创造力的主观评估和技能评估却又不相关。再者,涉及不同年龄段孩子的研究中,我们发现年龄和创造力评估结果并没有实质的关联,却和技能评估结果相关联。而这些结果恰好和研究1得出的结果相吻合。
在所有以前的评估技术中,与现在所用方法最接近的,当属格策尔斯和奇克森特米哈伊(Getzels and Csikszentmihalyi,1976)在一项针对积极上进的艺术家进行的有趣研究中所采用的方法。这些研究者的论断和我关于创造力测量的结论很接近。他们认为审美评判基于模糊的、主观的标准,但这些标准却是一致的且可预知(p120)。格策尔斯和奇克森特米哈伊以31位主修艺术的研究生为被试,让他们作画,然后利用量表在原创性、工艺性以及整体的美学价值这三个维度独立做出评判。这个方法和目前使用的方法类似,因为评判者都是根据自己的主观标准对每一个维度进行评分。结果显示,评判小组在原创性上取得了较高的评委间信度:五名艺术家的组内信度是031,五名艺术老师的信度是047,五名学数学学生的信度为045,五名商学学生的信度为035。最后,在专业评判者和非专业评判者之间取得了较好的一致性。对原创性的打分,艺术教师评委同艺术家在原创性上评分的相关系数为077,同数学学生评分的相关系数为056,同商学学生评分的相关系数为064。
尽管如此,他们和我的方法也有一些明显的差异。第一,格策尔斯和奇克森特米哈伊所选择的任务,明显依赖于相关领域的技能,所以不太适合作为通用方法来研究社会心理对创造力的影响。(格策尔斯和奇克森特米哈伊的研究重点在艺术领域的问题识别而非其社会心理影响。)第二,他们并未将评估方法同创造力的定义联系起来,也没有解决他们测量的信度问题。而事实上,他们认为“这里关注的问题是审美偏好的一致性而非信度”(p110)。当然我认为由合适评判者对创造力的一致性评判必定也是有效的。第三,为了将测量系统化,格策尔斯和奇克森特米哈伊规定,评判者在对31幅画判分时应严格按照预先规范化的9分制量表进行评判。就像是量表中有一幅画被评为1,有一幅画被评为9,有两幅画分别被评为2和8,四幅画分别被评为3和7,五幅画分别被评为4和6,有七幅画的均分为5。三个维度的评分都依照这种程序来进行评定。在这种系统下所获得的评分或许不同于无限定量65表评判者所给的评分。最后,评判维度并没有清晰的区分,原创性既和工艺性也和整体美学价值紧密相关。因此并没有证据表明创造力确实是作为单独的结构而被评估的。
同以往主观评估方法相比,我所用的方法能够更好地适用于社会心理研究,原因有以下几点。首先,我所选择的任务类型是结构化的,这样就能相对独立而不依赖像绘画或写作之类的技能。其次,与许多主观评估研究不同的是,评判者使用这种方法是对特定的产品评估,而不是对一个人整体的创造力做出评估。此外,这几组特定评判者对创造力的评估信度在实验中得到了验证,在此我们并没有刻意训练评判者达成一致(而在之前的实验中他们确实这样做过)。总之,我们确实论证了创造力作为一个独特的主观概念而存在这一事实。虽然我们没有经常将创造力同其他维度进行清晰的区分,但我的一些研究确实提供了令人信服的证据,至少可以认为创造力是一个单独的主观结构。
局限性和未来的可能性
尽管同感测评技术有着各种优势,但还是不能说它适用于各种研究。事实上,它确实有一些明显的局限性。首先,如果考虑实用性,那么这种方法对短期任务来说显然并不实用。选择合适的任务、合适的评判者,根据几个人(有时几个维度)来评判其产物,还有统计分析等等,这些都相当耗时。
此外,所选任务不能特别依赖特定的能力或与经验相关的技能。从这个意义讲,同感测评技术可能不适合用来鉴定个体在创造力方面的持久差异。但是,既然选择任务时可以怀有这种目的,考虑这一技术的适用范围,我们只要稍加调整,这一技术同样可以作为个体差异研究的合适方法之一。
同样,同感测评技术也许难以评估处在某一特殊领域的前沿性产品,例如革命性的科学理论或开创性的艺术作品。我们很难使用同感测评技术来评估这些产品的创造性,这是因为正是这些产品的革命性使得人们甚至是这些领域的专家,也难以就其创造性达成一致。事实上,这个问题可以在我之前提到过的熟悉性这一标准的语境下讨论。有些产品是如此的新颖,没人足够熟悉这一领域来作为合适的评判者——或许因为产品本身就开创了新的领域。
最后,还有一点值得注意。那就是同感测评技术的信度和效度必然受到历史时期和地域的限制。比如,66对一系列印象派艺术作品的创造性评估,意大利文艺复兴时期的画家会不会赞成当代美国艺术家,这一点确实值得怀疑。显然,在任何领域,人们所共享的创造力主观标准都会随着时间的推移和文化的不同而变化。但是,这一事实不应算作同感测评技术的局限性。之前很多理论家都认为,对创造力的评判常常受限于历史和文化。例如,斯坦因(1975,p253)这样定义创造力:“是一个创造新产品或想法的过程,其产品和想法或在特定历史阶段被认为是有用的、合理的,或令某一群体感到满意的过程。”要人们一直赞成有某种普遍适用且历久不变的标准甚至是主观标准似乎也不合情理。
虽然我之前的研究为同感测评技术打下了基础,但是该技术还需在一些领域进一步细化和延伸。第一,应努力将主观评估方法拓展到其他研究领域,也应该扩展到其他类型的任务中,而我们已经探索过艺术和语言任务了。特别是讲故事和写漫画说明的研究应该探讨更多的细节。因为评判者根据可能由因子分析得来的一系列维度进行评分,针对拼贴画和诗歌评判的维度也是如此得来的。
第二,主客观创造力评估的关系可以得到更加明确的界定。我前面也提到,对这种主客观评估的综合描述,可以帮助我们更清楚地理解当人们认为某事具有创造性的时候他们是怎么想的。而通过更广泛的研究评判者对其创造力评估过程的解释,我们也可能同样获得对此的理解。
第三,应该进一步研究评委间信度的局限性,尤其是当被评估的产品处于相对新颖的领域或者具有真正的开创性时。
第四,由于先前的结果显示,评估任务的某些特性,例如评估产品的数量或者评估维度的多少等,会影响评判者的一致性。所以确定评判任务的其他特性是否也对信度产生影响就显得尤为重要。
第五,需要做更多的工作来确定特定产品的合适评判者,并研究评判者特征对评委间信度的影响。
第六,初步研究表明,创造力和主观评估的其他维度存在一种可以接受但远非完美的区分(seperation)。因此,确定在什么情况下对于什么类型的产品和领域,创造力评估能或不能明显区别于技能和美学评估就显得尤为重要。
最后,应努力尝试确定是否能对这种主观评估技术做出调整,67使其不仅能够用于创造力的社会心理研究,而且也能用于研究创造力的个体差异。
更广的范围
我对同感测评技术对创造力社会心理研究效用的论证,引发了研究者对人格心理学和社会心理学目的和方法的普遍关注。用最简单的话概括,人格心理学的目的就是确认人们稳定的性格和能力,研究它们同其他性格、能力联系的方式。因此,人格研究人员寻找人们跨年代、跨情境的一致性,在一系列行为领域中寻找某种特质存在的证据。为此,那些对个体差异的稳定基质特别敏感的测量工具才最有用处。另一方面,也可以简单地把社会心理学的目的看作就是探究社会及环境因素对大部分人或者“普通”人(“average”person)的影响。因此,社会心理学家较少关注组内差异(事实上他们常常试图减少这方面的差异),而是去关注由情境诱发的组间行为差异。虽然这种组间差异可能明显、重要,但仍没有个体差异持久,而这种个体差异正是人格研究人员所尝试确认的。而出于此种目的,此时社会心理学家所用到的测量工具应对个体基线差异不特别敏感,反而需要有一定的反应差异空间。各种方法在使用中存在差异,不仅表现在创造力测量上,而且在其他更广泛行为领域的测量中也存在,而社会心理学和人格心理学对此都很感兴趣。
总之,同感测评技术并没有提供一种崭新、简单可行的创造力测试方法,而是呈现了一个更为普遍的研究方法,这种方法可以清楚且可靠地对创造力进行主观评估。这种方法在短期看来似乎稍显不足,但确实适用于更广泛的领域和各领域内的不同研究任务。正是因为如此,它对很多领域的研究都很有用,特别是创造力的社会心理学研究。还有,从长远来看,这种方法有助于对以前从未研究过的很多创造力问题进行严密的实证研究,而任何单独的创造力测试则无法做到这一点。
最新研究成果
我们一直使用1983年版测量创造力的同感测评技术(CAT)进行研究,我们也不断证实这一技术手段的价值所在。68而这种基本的价值判断与早期版本所阐述的一致。同感测评技术依赖于被试创造的现实产品,而这些产品经常出现在现实世界的相应领域内。
在这次更新的内容中,我们会继续介绍我们对这一技术手段的思考和使用情况,其中包括对初始版本的几项修改。此外,我们也会提供使用新的创造力任务而获得的数据资料。
信度计算
在1983版的同感测评技术中,我们介绍了两种最初用于计算主观创造力评估的评委间信度的方法。第一种方法是韦纳(Winer,1971)推荐的技术,它涉及评判者评分的组内和组间方差的分析。第二种方法运用了斯皮尔曼布朗预测公式(Nunnally,1967,p223),它建立在评判者数量(n)和评委间相关系数的均值(r)之上。
信度=nr1+(n·1)r
这两种方法得出的结果极为接近,通过SPSS(社会科学统计软件包[Statistical Package for the Social Sciences])中信度程序计算出的克龙巴赫系数α(Cronbachs coefficient Alpha)也是如此。由于使用起来方便简洁,所以近年来我们一直采用SPSS计算出的α系数来测量评委间信度。
最近,我们再次讨论了评委间信度计算的问题。我们当前计算信度的标准方法,也就是α系数,其前提建立在这么一个假设之上——评判者是一个控制了的确定因素。也就是说,信度可以在概念上理解为,相同评判者再一次为所评估产品打分的一致性程度。然而严格地讲,尽管这种假设前提并没有与CAT的目的冲突,但把评判者作为随机因素也许会更好。因为这样做的话,我们可以推广到更广泛的人群以从中挑选评判人员。只有当评委间信度是通过组内相关系数ICC(2,k)方法来计算的,这种假设才符合(Bartko,1976;Shrout & Fleiss,1979)。在实践中,这种方法所取得的结果也同通过我们的标准方法(α系数)得出的相似。
拼贴画和俳句诗的新信度数据
本书1983年版曾介绍过有关我们设计的两种主要创造力任务的方法和信度数据,这两大任务是拼贴画和美国俳句五行诗。在中间几年,我们一直在研究中使用这些任务,也总得到较好的信度。表A给出了这些最近的数据。
表A拼贴画和俳句诗的新信度数据69
〖XB,HT5"H;Z<续表>〗
数据来源
被试
评判者
信度
拼贴画
Amabile,Hennessey,& Grossman,1986(Study 2)
80名儿童
11位艺术家
080
Amabile,Hennessey,& Grossman,1986(Study 3)
60名女性本科生
14位艺术家
075
Hennessey,Amabile,& Martinage,1989(Study 2)
58名儿童
12名小学老师
070
Hennessey & Zbikowski,1993
41名儿童
15位艺术家
079
1991
40名本科生
12位艺术家
077
Collins & Amabile,1992
87名本科生
8位艺术家和
艺术专业学生
078
Ruscio,Whitney,& Amabile,1995
151名本科生
10位艺术家
080
Conti,Collins,& Picariello,1995 (1)
50名儿童
5名熟悉儿童
艺术的成年人
082
Conti,Collins,& Picariello,1995(2)
118名儿童
5位艺术教师
072
俳句(五行诗)
Ruscio,Whitney,& Amabile,1995
151名本科生
4名英语专业研究生
089
Hennessey,1989(1)
37名儿童
4名教师
082
Hennessey,1989(2)
29名儿童
4名教师
082
Picariello,1992
46名儿童(2首诗)
7名教师或曾经
当过教师的人
086
备注:所有研究均由布兰迪斯大学阿马比尔研究小组成员完成。手稿中没有报告的研究均由年份指代。信度为α系数。
新的创造力任务
我们在1983年版中就提出,CAT应该扩展到更多不同领域的各种任务研究中。在我们自己的研究项目中,我们已经创造了很多使用CAT技术的创造力任务,这些任务也取得了显著成功(eg,Hennessey & Amabile,1988)。这些创造力任务可以归为三类:语言创造力(故事和散文)、艺术创造力(线条画、油画、静物写生及各种艺术载体)、问题解决创造力(电脑编程、荒岛生存、新的高科技服务创意、使用普通家用材料构建结构性装置)。
重要的是,我们不仅扩展了研究中所使用的任务和产品,还扩大了研究所涉及的被试群体数量。我们已经将CAT应用于各类被70试所制作的产品,对象包括专业艺术家、艺术专业学生、计算机软件专业学生、学生诗人、高科技公司的员工,以及我们的传统被试,即大学本科生和小学儿童。表B列出了这些新任务的信度数据。
我们注意到,表A和表B不同任务领域之间的评判者间信度存在着一些有趣的差别。但整体看来,语言任务和问题解决任务相对于艺术类任务只需要较少的评判者就能够获得更可靠的评估。
表B新的创造力任务的信度数据
〖XB,HT5"H;Z<续表>〗
数据来源
任务/产品
被试
评判者
信度
艺术性任务
Pollak,1992
艺术学生的作品
(被试不同时期的)
29名艺术专业
学生
9名艺术教师
073
Pollak,1992
艺术学生的作品集
(被试间)
29名艺术专业
学生
9名艺术教师
072
Amabile,Phillips,& Collins,
1994
各种媒体的艺术
(被试间)
23位专业艺术家
10位专业艺术家
074
Amabile,Phillips,& Collins,1994
艺术家的作品集
(被试间)
23位专业艺术家
10位专业艺术家
092
Collins & Amabile,1992
素描
87名本科生
8位艺术家和艺
术专业学生
076
Collins & Amabile,1992
海绵画
87名本科生
8位艺术家和艺
术专业学生
077
Hennessey,1989(1)
电脑素描
37名儿童
7名心理学专业
研究生
083
Hennessey,1989(2)
电脑素描
39名儿童
7名心理学专业
研究生
087
Hennessey,1989(3)
电脑素描
73名儿童
7名心理学专业
研究生
090
Phillips,1992(1)
油画(被试不同时期的)
4位艺术家
8个了解艺术
的人
053
Phillips,1992(1)
油画作品集(被试间)
4位艺术家
8个了解艺术
的人
091
Phillips,1992(2)
油画(被试不同时期的)
4位艺术家
8个人(其中4个熟悉艺术)
055
Phillips,1992(2)
油画作品集(被试间的)
4位艺术家
8个人(其中4个熟悉艺术)
086
Phillips,1992(3)
多种媒体下的艺术品
(被试不同时期的)
4位艺术家
6名艺术专业
学生
054
Phillips,1992(3)
多种媒体下的作品集(被试间)
4位艺术家
6名艺术专业
学生
09171
语言性任务
Amabile,Hennessey,& Grossman,1986(Study 1)
看无字图画讲故事
115名儿童
3位小学老师
091
Amabile,Hennessey,& Grossman,1986(Study 2)
看无字图画讲故事
80名儿童
3位小学老师
083
Hennessey,Amabile,& Martinage,1989
看无字图画讲故事
113名儿童
3位小学老师
080
Hennessey & Zbikowski,1993
看无字图画讲故事
41名儿童
3位小学老师
067
Hill,1991
几段散文
214名本科生
8名创造性写作
学生
088
Tighe,1992
3段不同的散文
82名本科生
5名英语教师
084、084
和072
1992
几段散文
60名本科生
4名写作专业
学生
075
1993
两段不同的散文
184名本科生
4名写作专业
学生
079
和
079
1992
不同类型的散文
38位学生诗人
9名专业诗人
081
Hill,Amabile,Coon,& Whitney,1994
几段散文
202名本科生
4位作家
080
Conti,Amabile,& Pollak,1995
心理学文章
75名本科生
5名心理学教师
075
Picariello,1994
两篇不同的文章
131名儿童
3名教师
072
和
078
问题解决性任务
Conti & Amabile,1995
计算机程序
32名计算机学生
9名计算机硕士
075
Ruscio,Whitney,& Amabile,1995
用普通材料制作
结构
143名本科生
4名心理学学生
087
Collins,1992
生存方法
56名本科生
3名心理学硕士
080
1993
高科技产品想法
20位高科技公司员工
3名高科技公司
员工
061
Conti,1992
商业解决办法
60名本科生
5名MBA学生
080
备注:所有研究均由布兰迪斯大学阿马比尔研究小组成员完成。手稿中没有报告的研究均由年份指代。信度为α系数。
同感测评技术的问题和变化
过去12年间,我们在运用CAT技术的实践过程中,做了若干修订工作。大部分的修改尚属微调,但有些改变确实较大。大部分的修改是出于简化该技术的想法,或者通过和实验对照以验证其灵活性和有效性。然而,其他改变是由于以下问题激发出来的。一个是我们因为概念中创造力评估要求的改变,一个是我们的目标如何更好地实现。下面,我们将回顾主要的变化以及促进这些变化的原因。
谁才是“合适的”评判者?
在1983年版中,我们认为合适的评判者是那些熟悉产品或属于领域的人。我们偶尔会用“专家”这个词来形容合适的评判者,但是我们现在确信,对于大部分领域中的大部分产品,合适的评判者并不需要是真正的专家。即便在1983年版中,我们提供的数据也表明,真正某一领域的专家(如艺术家评判儿童艺术作品)和仅仅是熟悉某一领域的非专家(如心理学家评判儿童的艺术作品),两者的评估显著强相关。后来我们也证实了这种观点。如我们发现,研究生和小学教师对儿童诗歌的创造力评估高度相关(eg,Picariello,1992)。而其他未使用专家的实验中,至少我们也发现了非专家也能得到可信的评估结果——如心理学研究生对实验中本科学生制作的结构性装置进行评估(Ruscio,1994)。
然而,如果认为每个人(甚至是每一个心理学研究生)都可以成为任何领域产品的合适评判者则是错误的。在许多领域中,评判者都需要一些相关领域的正规培训来了解他们所要评估的产品。如在我们的计算机编程任务中,被试为计算机专业的本科生,此时我们就觉得有必要找计算机专业的研究生来作评判者(Conti & Amabile,1995)。而对一些专业艺术家所作艺术品评价的研究中,我们发现专业评判者和非专业评判者的评分存在些许差异(Phillips,1992)。此外,我们甚至发现艺术领域内的评判者之间也存在差异,专业艺术家比艺术历史学家更容易达成一致。这也许是因为,对于某些高层次的产品,浸染在特殊领域确实会导致其创造力评估更加有效。
我们认为,只要有可能的话,最好的办法就是使用那些至少接受了一些正规培训或者对产品所属领域有经验的评判者。如果大部分人都不熟悉所评估的领域,那么这个指导原则就尤为重要了。73同时,当被试在领域内的专业水平升高时,更高的专业水平对评判者来说也就显得尤为重要了。换句话说,评判者对于某一领域作品的熟悉程度至少要达到被试所在的水平。评判者所要求具有的熟悉水平不仅取决于被试操作的领域和水平,还取决于评估的终极目的(Runco & Smith,1992)。
在1983年版中,我们简要地讨论了人们是否可以评估自己作品的创造力。当时有证据表明自我评估并不合适,但问题并未就此终结。当然,要是把自我评估用来测量创造力,那么就不可能测量评委间信度。而这足以使这种方法无效。但是,如果将评委间信度看作精确性的外部标准,那么自我评估的精确性还是值得考量的。
在我们的一些研究中,我们发现自我评估同评估均值有较弱的正相关(相关系数在030到040之间)。关于计算机专业学生的编程实验就是例子之一(Conti & Amabile,1995)。另一个例子是职业艺术家作品的研究(Amabile,Phillips,& Collins,1994),尽管艺术家倾向于给自己的评分高于评判者所给的分数。当我们考虑到评判者和被试使用的标准不同时,这种一致性就尤为醒目。在计算机编程研究中,评判者根据其他被试所写的程序来评估,而被试则给出自己程序的一般创造性分数。在职业艺术家作品的研究中,评判者对每一个特定艺术作品的评估都同该艺术家的其他19个作品相比较,而艺术家则根据自己过去六年创造的所有作品来评估。但我们应该注意到,在我们的其他研究中,自我评估同评判者评估根本不相关,例子就是结构装置创造性的研究(Ruscio,1994)。我们猜测最关键的变量可能是被试参与创造性任务前对该任务的熟悉程度。计算机编程人员和艺术家对相应领域/任务都有相当丰富的经验,而结构装置任务本来就设计成被试(心理学概论课学生)很不熟悉的任务。
任务的基本特征是什么?
我们仍然认为,实验性创造力任务的某些特征对应用CAT至关重要。这些任务必须是:(1)所有被试在实验条件下能够创造出可供评判者评估的产品才可行,(2)给所有被试提供相同的材料、说明和实验环境(当然,除非材料、说明和实验环境本身就是研究的自变量),(3)允许被试有一定程度回应的变化空间,74(4)实验所得出某种形式的产品能够很好地被评判者所观察到,(5)产品能够很好地被合适的评判者评估。研究人员可以也应该发挥自己的创造力就这些参数(parameter)设计出有趣且有用的任务。当然,符合最后三个标准的“自然生发型”任务(诸如职业艺术家创造的艺术作品),CAT技术很适合在这样的非实验研究中运用。
我们最初谈到的创造力任务特征中,有一项特征现在需要做出一些说明和修正。我们曾经建议,任务不能过分依赖任何特殊的技能。这个建议只是针对那些把社会心理因素作为自变量的研究。由于个体技能水平不同而导致表现水平的大部分个体差异,在这个意义上说,是在这些个体差异的“背景噪音”(background noise)中发现社会心理因素影响的信号。然而,在以下三种情况中,那些确实依赖某些技能的任务是可取的甚至是建议使用的(Amabile,Phillips,& Collins,1994)。第一种情况是社会心理的研究。该研究中所有被试在同一领域都有相等程度的经验。其中一个例子就是佣金(对比自愿工作)对专业艺术家创造力的影响(Amabile,Phillips,& Collins,1994)。在这种研究中,尽管存在技能上的差异,但并不会主导社会影响(只要这些影响至少是适度的)。第二种情况是专门探索技能对产品创造力贡献大小的研究(eg,Amabile,Hill,Hennessey,& Tighe,1994;Hill,1991;Hill,Amabile,Coon,& Whitney,1994)。第三种情况是研究的自变量为一个社会心理因素,但研究中使用了复测设计(Pollak,1992)。
什么是实验过程的基本要素?
在1983年版中,我们认为,如果评判者接受了创造力评估训练,那么后来的评委间信度就值得怀疑。也就是说,他们的反应也许仅仅是训练所讲授的标准结果,而不是真正地达成一致。正是由于这种原因,我们建议,最保守的做法就是不向评判者提供创造力的某个定义。我们通常给评判者提供的“非定义性定义”(nondefinitional definition原文为nondefmitional,疑有误,应为nondefinitional。——译者注)是“使用自己对创造力的主观定义,参照其他作品(拼贴画、诗歌、结构性装置等等)来评估作品之间的创造力”。
然而,在我们最近的研究中遇到这样一种情况,那就是当评判者没有指导性定义时,他们似乎不能很好地开展评估工作。这项特殊的研究是在一家大公司进行的(Amabile,Conti,Coon,Lazenby,& Herron,in press)。因变量为大量技术开发项目的创造力,这些项目由公司内部熟悉绝大部分项目的专家来评估。75最初,在同公司高级技术人员的讨论中我们发现,他们(可能还有他们的同事)都不怎么喜欢在没有任何指导性定义的情况下对这些项目进行创造力评估。特别是,他们担心产品或项目潜在的商业价值将会过多地影响创造力评估结果。因为在很大程度上,影响商业价值的因素与这些产品或者项目最初的创造力想法毫无关系,所以我们同意给评判者提供一个明确排除商业价值的一般创造力定义(但该定义确实包括新颖性和适宜性)。因此,虽然我们相信在大部分情况下,可以建议评判者使用自己的主观定义,但是我们也意识到,在一些特殊情况下我们应该为他们提供一个创造力定义。
某些时候,我们也确实要根据情况需要在其他程序上做出修改。作为一般的规则,所有的评判者都应该评估所有的产品。这保证了所有的产品都通过与其他产品的对比而得到评估,从而大大简化了信度的计算。然而有时这是不可能的,就像刚刚提到过的研究。公司里没有哪位专家能够熟悉所有将要评估的项目,不同的专家熟悉不同领域的产品。如项目1由12位评判者评估,项目2也许由4位评判者评估(而其中有3位也评估了项目1),项目3也由4位评判者评估(但其中有2位和1位同时评估了项目2和项目1)。在这种情况下我们别无选择,只能使用实验中得到的数据,用组内相关系数来衡量评委间信度。
最后,正如CAT最初描述的那样,评判者应就同一维度(如创造力)评估所有产品后再进入下一维度(如技艺水平)的评估。这样做可以保证评判者对某一特定维度主观标准的一致性,也能保证不同维度之间相分离。然而,我们发现在某些情况下,这种方法论不怎么实用。如在一项实验中,评判者须根据3个维度分别对100篇长篇散文做出评估,如果每篇散文需要阅读3次(评估一个维度就得阅读一遍),那么这样的任务就显得乏味冗长,让人难以忍受。此时,我们一贯的做法,就是让评判者在开始工作之前熟悉将要评估的产品。但是,我们不会要求评判者阅读所有100篇散文,而是给出一个随机抽样(比如抽20%)作为最初熟悉的样本。然后,我们会向评判者强调,要保持对不同维度的清晰主观定义以及尽最大可能区分不同的维度。随后,让评判者阅读散文一次,并分别评判文章的三个维度,完成后再评估下一篇。
对被试不同时期的产品评估
在1983年版中,我们还没有任何一个研究,要求每个被试创作一个以上的产品。然而,对于社会心理学以及其他研究,76复测设计往往具有优势。也许最重要的原因是,复测能够使人们从更广阔的角度评价一个作品的创造力,而不是匆匆一瞥。我们在一项研究中也做过复测设计,该实验探讨的是职业艺术家为获取赞助而创作和不为赞助(即自愿)创作之间可能存在的创造力差异(Amabile,Phillips,& Collins,1994)。我们分别为专业艺术家评判者提供每个艺术家获得资助和没有获得资助的10幅作品,然后要求他们根据各个被试的其他19幅作品做出评估。不出所料,比起不同被试作品同其他被试作品之间比较而言,这种评估确实困难得多。同一艺术家的作品不大可能在创造力或技艺上存在太大的差异。尽管如此,虽然评委间信度在某种程度上低于评估不同被试间作品的信度,但其创造力信度还是可以接受的(大于070)。所以,CAT技术既可用于被试不同时期的创造力评估,也可用于被试间创造力的评估。
创造力是一种单独的品质吗?
在1983年版中,我们认为,评判者对创造力的评估有可能和技术品质(technical quality)评估或美学吸引力评估毫不相关(或只存在弱相关)。但是,我们也提供了很多数据来证明,在很多情况下,创造力和其他维度如技艺水平正相关。我们认为,虽然尽可能区分创造力同其他产品属性很重要,但是在现实中,创造力还是和其他特质紧密相关。
我们过去12年的研究表明,在许多情况下,创造力确实同技艺水平等维度相关。相关系数在020到050之间(有时甚至更高)。研究结果似乎表明,这些维度的相关性在专家级别的产品中是最高的,如职业艺术家的作品。这或许是因为没有非凡的技术能力就不可能具有较高的创造力。即使是由普通被试所做的普通作品(如心理学专业学生在实验中创作的拼贴画),我们也许不会对创造力与技艺水平或者美学吸引力相关感到惊奇。毕竟,我们对创造力的概念性定义不仅包括新颖性,还有适宜性因素。然而,我们仍须努力保证创造力评估的“纯度”。实践中,我们发现评判者在评估艺术品创造力和技艺水平时,要是中间穿插另一个维度(例如美学吸引力),那么创造力和技艺水平的相关性就不那么高了(Phillips,1992)。让评判者把注意力集中在他们对产品的审美反应上,或许可以使评判者更好地评估其他维度,如技艺水平和创造力。
CAT能用于个体差异评估吗?77
最初我们认为,同那些普遍使用、对创造力的个体差异敏感的创造力测试相比,CAT技术运用到创造力的社会心理学研究中再适合不过了。再者,在使用CAT技术的研究中,任务越不依赖某领域的技能,我们就越能将个体差异这一变量最小化,同时最大限度地探究社会环境因素对创造力的影响。自此,我们的视野也就拓宽了。
我们在最近的几个研究中发现,CAT技术确实能用于个体差异研究。如在两项研究中,我们评估了职业艺术家(或艺术专业学生)相对彼此的创造力(Amabile,Phillips,& Collins,1994;Pollak,1992)。专家评判者根据每个艺术家的作品集进行评估。因此,作品集是相对于彼此并作为一个整体来评估的。彼此独立的评判者能够对这些艺术家作出信度较高的创造力评估,而且创造力评估的平均分数和每个个体其他差异的测量结果显著相关。我们也发现评判者也能对儿童彼此的作品集(这种情况是短诗歌)作出可信度较高的评估(Picariello,1992)。甚至在那些每个被试只有一个作品的研究中,我们也发现评判者对创造力的评估同一些个体差异测量显著相关(eg,Amabile,Hill,Hennessey,& Tighe,1994;Collins & Amabile,1992)。另外我们还发现,不同实验中相同被试创作的不同产品,其创造力表现有较高的一致性(Conti,Coon,& Amabile,in press)。
这是否意味着CAT不太适合社会心理学研究,抑或是优于探讨个体差异的创造力测试?答案是否定的。这意味着,正如我们的理论模型(第四章)所介绍的,特定产品的创造力是各种影响交互作用的结果,包括个体的动机(可深受社会环境的影响)、个体在该领域内的经验水平,以及个体的创造性思考技术。很明显,CAT技术因其初始的目的,而适用于创造力的社会心理学研究。在一些我们的研究中,也通过CAT证明了,社会环境变量对创造力有着显著影响。在大多数这类研究中,普通被试所参加的任务都不需要特定的技能。此外,虽然我们还从未将CAT测量同传统的创造性思维能力测试进行过实证性对比,但我们可以认为,CAT技术能同时在社会心理学和个体创造力差异的研究中有效地发挥作用。
但是也有一个重要的注意事项。CAT可用于确认不同个体之间创造力表现的差异,但仅限于特定时期内特定领域中的特定类型的任务。78所以这些产品的创造力分数,不大能完全代表一个人的总体创造力水平(我们认为,总体创造力水平本身就是一个不恰当的概念)。如根据专家们对我们专业艺术家作品集的评估,我们可以看出在代表性的六年间,某些艺术家相对于其他艺术家在早期阶段确实创造出更多的创造性作品。但是比起其他艺术家,我们不能说某些艺术家是更具创造力的人,或者甚至不能说是更具创造力的艺术家。
创造力的性别差异
尽管被试数量并不直接影响CAT的使用,但对其数量的仔细考察也是创造力测量非常重要的因素。在1983年版报告的一个早期CAT研究中,我们发现创造力存在显著的性别差异:女性被试创作的拼贴画的创造力评估比男性高。为了避免可能出现的复杂影响,在后来的很多实验中,我们主要使用女性被试。我们早就在实践中放弃这一做法,很大程度上是因为我们不想发展为女性创造力的社会心理学。在我们很多包括男性和女性、男孩和女孩的研究中,我们偶尔也能发现性别差异,但这通常在儿童之间。从收集的少量数据看来,似乎女孩子在一些语言任务中更有创造力(Picariello,1994),而男孩在一些艺术任务中更有创造力(Picariello,1994)。但是,这种性别差异在我们的研究中非常少见。
同感测评技术的其他用途
在过去的几年里,其他许多研究人员在创造力研究中也使用了CAT。如该技术已成功地运用于研究儿童艺术作品的创造力研究中(Koestner,Ryan,Bernieri,& Holt,1984),还有儿童在很多其他领域的创造力(Baer,1994),以及成年人在不同领域作品的创造力(Sternberg & Lubart,1991,1993)。贝西默与奥奎因(Besemer & OQuin,1986)和奥奎因与贝西默(1989)已经开始设计一种像CAT一样基于数位评判者的主观评估的创造力评估技术。但是,他们的创造力产品语义量表(Creative Product Semantic Scale,CPSS)较CAT更为正式。因为它可以为评判者提供一份问卷,该问卷包括71个项目,要求每位评判者根据每个项目对每一个产品评估。
对评估创造力过程而言,CAT技术的使用是一个相对不寻常但却很有前途的方法。贝丝·亨尼西在实验中,要求成年人使用特定的按键,选择每条线的颜色、起始点和终点,在计算机屏幕上完成一幅线条画创作(Hennessey,1994)。计算机程序实时记录了被试画下的每条线。因此,在后来就可能看到当时被试作画时画线条的情况,包括线条的作画顺序,79甚至是被擦掉的线条。亨尼西发现,本科生评判者观看了每个被试作画的整个过程后,可以给出被试作画过程创造力的可靠评估(30人的评判组信度为083,15人的评判组信度为081)。同产品评估一样,过程评估被看成与使用评判者自己主观定义相关的一个任务过程。
总结
过去几年的研究已经证明,同感测评技术很有发展前途,即使实验过程发生一定程度的变化,也能对创造力进行可信的主观评估。现在可以确定的是,当实验过程偏离1983年版中建立的标准太远时,实验的确会遇到一些困难。我们可以简要总结该技术最重要的特征,不到万不得已,这些特征不应该有大的变化。任何实验性任务都必须允许被试的反应有一定的变化空间,同时各个被试应该给予相同的材料和指导语。实验任务应保证,被试可以创造出可观察的产品或者回应。对于实验研究,应该向评判者展示被试使用的材料和指导。对于所有的研究,不论实验研究还是现实观察,评判者都应该熟悉实验产品的领域,熟悉程度至少也得达到被试所创造出产品的那种程度。评判者只有查看了所有产品(或当中较大一部分)后,才能开始评估产品,同时告知评判者应把产品相互对比来进行评判。最后,评判者应该独立工作。
比起最初的设想,CAT有着更广阔的用途。它能够有效地评估同一个人不同产品的相对创造性。此外,它的评估结果有助于更好地测量指定时段内、特定领域中特定任务创造力表现的个体差异,尤其是当每个个体的作品有好几方面都要被评估时。最后,它可以扩展到不同于我们最初设想的新领域和新任务。因此,虽然CAT技术比标准的创造力测试更耗时,但是我们认为它为创造力研究人员提供了更大的灵活空间。此外,由于同感测评技术基于被试创作的真实产品,所以也为研究人员的多个研究目的提供了更高的有效性。