我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019全年资料大全正版 > 翻译等值性 >

第870期:教育研究中定量方法的局限性

归档日期:06-18       文本归类:翻译等值性      文章编辑:爱尚语录

  本文原载于《心理发展与教育》1998年第1期。这虽是谢小庆老师21年前发表的文章,今天仍然具有现实意义。在这里推出,是考虑便于感兴趣的网友在手机上阅读。感兴趣的网友,还可以继续阅读第865《决策:从数学模型到法学模型》。

  在教育科学研究中,主要有两种方法:一是基于经验和直觉之上的定性方法,一是基于理性和逻辑之上、借助数学工具而实现的定量方法。随着计算技术的不断发展,定量方法日益得到广泛的应用。定量方法具有哪些优越性和局限性呢?对此,笔者试图进行一些深入的思考。

  定性方法是一种基于经验和直觉之上的研究方法。在许多情况下,我们可以根据经验做出正确的判断,采取正确的教育措施。根据经验,教师知道哪些内容学生不易理解,需要反复讲解;知道只有保持教材的适当难度才能吸引学生的注意力;知道对女生要慎用批评,等等。这些基于经验的判断往往是正确的。但是,由于不同的研究者各自的经验、观点、倾向、偏好不同,有时候对同一问题会得到非常不同的结论。例如,学制是“六三三”好,还是“五四二”好?“集中识字”的教学法好,还是“分散识字”的教学法好?客观性选择题能否考察出学生的综合能力和写作能力?对于这一系列问题,不同的研究者的看法相去甚远,甚至截然不同。孰是孰非?仅凭各自的经验只会争论不休。为了支持自己的观点,双方都可以举出大量的个案,然而个案是不足为据的。几乎任何一个荒谬的命题都可能为自己找到个案的支持,如“牛有二个头”,“人有三条腿”等。即使在专家意见一致的情况下,也可能出现失误。“地心说”、“燃素说”、“绝对时空观”等许许多多最终被放弃的科学理论,都曾经得到专家们基本一致的认可。

  这些时候,就需要借助定量方法,需要借助抽样调查、假设检验这样一些统计方法来做出判定。在这种情况下,定量分析可以帮助我们从各执一词的争论中摆脱出来。例如,通过对题目难度、区分度的统计,可以对试卷的质量作出较客观的判断。经常有这样的情况:统计分析发现,经过专家一致认可的题目区分度很低,甚至出现负区分度。当结果反馈给专家们后重新讨论时,专家们可能最后一致地认为:当初命题时忽略了某些重要的考虑。

  对于学制、教材、教法、教育测量中的许多问题,如果我们仅仅停留在根据研究者个人经验的定性研究,停留在缺乏说服力的个案枚举,我们的研究就很难深入,我们就会争论不休。这时,定量分析可以帮助我们从这种各执一词的争论中摆脱出来。

  定量分析不仅可以帮助我们防止重大的失误,而且可以帮助我们在互相对立和竞争的观点中做出选择。在这些情况下,定量分析具有重要的意义。然而,定量方法也很可能被不适当地运用,从而得到非常错误的结论。例如,通过对某校历届外国留学生汉语演讲比赛获奖情况的统计分析发现,在获奖者中,亚裔学生占70 %, 欧美裔占30 % 。据此,研究者认为,在汉语学习方面,与欧美裔学生相比,亚裔学生整体水平较高。进一步的分析发现,在所有参加比赛的留学生中,亚裔留学生占90 %,欧美裔留学生仅占10 %, 亚裔留学生的获奖比例约为8%,而欧美裔留学生的获奖比例约为30 %。结论完全是相反的。

  又如,一项关于教学方法的实验研究结果是:采用“结构法”进行教学的班级的汉语水平考试平均分为238. 89 ,采用“功能法”进行教学的班级的汉语水平考试平均分为242. 13 。据此,研究者认为,“功能法”优于“结构法”。这一结论也是错误的。通过对两班学生成绩的t 检验得到的结论是:两种方法没有差异。分数差异是由随机误差造成的。

  这类由于定量方法的不适当运用而得到错误结论的例子,在今天的教育研究文献中时有发现。之所以出现这类误用,原因就在于未能适当地把握定量方法运用的前提条件,就在于未能将定量分析建立在适当的定性分析的基础之上。事实上,任何数学工具都只有在一定的前提条件下才能应用。在自己所研究的问题中是否具备了运用某种数学工具进行定量分析的条件?这个问题,只能由研究者根据自己对问题情境的理解而做出定性的回答。例如,最简单的数学工具——加法就必须在一定的前提条件下才能应用。

  当我们运用加法来计算各科成绩总分时,就必须满足下列两个前提条件: ①表现在不同科目考试中的能力具有代偿性,语文方面的不足可以由数学方面的优势来弥补; ②不同科目的考试分数之间具有等值性,数学的10分恰好可以抵偿语文的10 分。只有在这两个条件成立的情况下,才能运用加法。今天,由于这两个条件能否成立颇值怀疑,越来越多的人对在考试成绩的计算中运用加法计算各科成绩总分的作法提出质疑。

  最简单的加法尚不能随便应用,其它更复杂一些的数学工具的应用往往需要更强、更严格的条件。定量分析如果不能基于合理的定性前提之上,就会被误用或被不合理地予以解释。

  今天应用于教育科学研究的定量方法中,大部分是基于概率理论之上的,如数理统计。然而,概率理论能否应用于教育科学研究,尚是一个颇值怀疑和非常棘手的问题。何谓概率?通俗讲即“重复试验中事件发生的可能性”。对于概率概念,“重复试验”是一个非常重要的前提。例如,只有多次重复抛掷硬币,才可能得到正面朝上的概率。倘若是不可重复的试验,倘若每次抛掷都会使硬币的重量、质地、成分、形状等发生变化,就无所谓概率。教育研究的对象是人,每个人不仅具有不同的遗传特点,而且经历、需要、欲望、情感、能力水平等各异。对不同的人进行的试验、观察或调查能否被视作重复试验呢?能否被视作与将一枚硬币多次抛掷相似的重复试验呢?这个问题的答案至少不是不言而喻的。

  退一步,既使我们接受了对人可以重复试验的观点,这种基于概率基础之上的统计规律性能否成为关于有个性的人的教育决策的依据呢? 这仍然是一个值得怀疑和需要讨论的问题。即使根据我们的调查知道具有某一组神经生理特点的人中有90 %难以完成某一水准的学业,我们能否根据这一研究结果而预言一个具有这些神经生理特点的人不能完成学业呢?这里,人的能动性是一个不容忽视的因素。不用说预言一个具有能动性、选择性的人,即使是从大量抛硬币中得到的统计规律,对于预测下一次抛掷硬币的结果也是毫无意义的。

  在将概率方法应用于教育研究时另一个值得注意的问题是“大数定律”问题。所谓“大数定律”是指在大量观察中得到的小概率事件实际是不可能事件。这里,多大为“大量”?多小为“小概率”?又需要基于对所研究问题的定性分析,这又是一个定性分析与定量分析的连接点。对同卵双生子的研究,20个样本点就可以被认为是“大量”,而对于高考试卷的质量评估,2000个样本点也未必算“大量”。对用于静脉注射的药品,1% 的污染即会被废弃,对于钮扣,1% 的次品则可能被接受。对于一项考试,10 % 的失误(不够格者被接受或够格者被拒绝) 可能算是一个“小概率”,对于一台用于阅卷的光电阅读机来说,0.01 % 的失误也难以接受。(参看复旦大学《概率论》第一册,240 页,此书一般被认为是最具权威性的概率论教科书。)

  归根结底,概率方法是基于归纳逻辑之上的,然而,正如恩格斯所指出的:“按照归纳派的意见,归纳法是不会错误的方法,但事实上它是很不中用的,甚至它的似乎最可靠的结果,每天都被新的发现所推翻。”(恩格斯,第206 页) 对于研究死的、被动的物尚存在着“不中用”的一面,对于研究能动的、有选择性的人则具有更大的局限性。

  在今天的教育研究中经常被运用的一种定量分析方法是显著性检验方法,包括正态检验、t 检验、卡方检验、F 检验等。不少人对于显著性检验方法存在误解,误以为经过显著性检验后科学性就得到了保证,自己的论点就不可动摇了。其实,显著性检验只有基于一定的定性分析之上、在一定的问题情境之中才是有意义的,在许多情况下并不适用。

  当我们需要对一种新的教学方法做出评价并决定是否推广时,我们经常采用的方法是比较采用新方法的实验班和采用传统方法的对照班的学习成绩,并进行显著性检验。

  这时,我们可能犯两种错误,一种错误是“接受坏方法”,一种错误是“拒绝好方法”。当我们根据考试分数作出招生决定时,我们可能犯两种错误,一种错误是“误取庸人”,一种错误是“错拒才子”。在统计学中将这两种错误分别称为“第一类错误(或α错误) ”和“第二类错误(或β错误) ”。基于相同数量的观测样本,犯某一类错误的可能性的减少必然以犯另一类错误的可能性的提高为代价。这很容易理解。选择标准愈严格,就愈不容易犯“接受坏方法”或“误取庸人”的错误,但就愈容易犯“拒绝好方法”或“错拒才子”的错误。显著性检验方法只能帮助我们将犯第一类错误的可能性降至最小。所谓“显著性水平达到0. 05”是指犯第一类错误的可能性只有5% 。只有当我们在定性分析的基础上确定了以不惜代价地追求避免犯第一类错误为目标、确定了“宁可错拒、绝不误用”的政策之后,显著性检验方法才是有意义的。只有在这种情况下,假设检验方法才能帮助我们达到目标。在那些两种错误的危害同等重要的情况下,当我们以“两种错误均应尽量避免”为目标时,在显著性检验的同时,我们需要进行最优势检验,确定我们为了避免第一类错误所付出的代价是否太大。我们是否应不惜代价地尽量避免第一类错误?应用数学工具的条件是否具备? 对于这一类问题,定量方法是无能为力的。从此我们可以看到,只有根据定性方法确定了目标之后,才是定量方法的“起点”。

  在今天的许多教育研究文献中表现出对显著性检验的误解。最典型的错误是对皮尔森相关系数的显著性检验。一些研究者根据检验结果达到0. 01 而认为“相关非常显著”。其实,这一检验结果只可以被解释为“相关非零”。对于能力性考试,通常要求信度系数达到0. 90 以。如果采用显著性检验,在样本较大的情况下,数值为0. 10 的相关系数也可能达到0. 001 的显著性水平。尽管这份试卷的信度系数达到“非常非常显著的水平”,我们仍然只能认为这是一份几乎毫无信度可言的试卷。

  在今天的教育研究中经常被应用的一种定量分析方法是相关分析,包括回归分析、因素分析等。这些方法可以揭示出事物之间的相关关系。然而相关并不等于因果。学校早上八点上课,商店早上9 点开门,二者相关很高,但并不存在因果关系。心脏跳动与思维之间亦有很高相关,但二者亦不存在因果关系。人类的许多误解都是源于错误地对事物之间的相关关系作出因果的解释。“重物下落较快”这一错误看法就是由于人们对“质量大”和“下落快”之间的相关关系错误地作出了因果的解释。“心脏是思维的器官”这一错误看法就是由于人们对心跳与思维之间的相关关系错误地作出了因果的解释。

  教育研究总是力图揭示出教育活动与教育的社会成果之间的因果联系,从而为教育决策提供依据。相关是因果关系的必要条件,但不是充分条件。定量方法只能揭示出事物之间的相关关系,但不能对这种关系做出因果的解释。因此,揭示出“相关”即为定量方法的“终点”,还需要借助定性的方法来继续对这种相关关系做出(或不做) 因果的解释。

  今天,在教育研究中的确存在一种将定量方法神化的倾向,以为一报告统计数字、一计算相关或进行显著性检验,科学性就得到保证,有时候,甚至使数学工具成为一种故弄玄虚的装饰物,使一些完全不能成立的论点借助数学的徽记而披上科学的外衣。这种倾向不利于教育研究的深入开展。

  之所以产生这种倾向,一方面是由于一些研究者虽然掌握了一些数学工具,但缺乏对这些数学工具的真正理解,以至不能正确地判断应用这些数学工具的前提条件是否具备,不能对借助这些数学工具得到的研究结果给予合理的解释;另一方面,是由于一些研究者缺乏教育方面的实践经验,在自己的研究工作中缺乏清晰的理论假设和基于经验的直觉。为了克服这种倾向,一方面,研究者需要加深对现代数学工具的理解,不仅知其然,而且知其所以然;另一方面,研究者应更多地深入教育实践,提高自己的理论水平和定性分析能力。

本文链接:http://buggystordera.com/fanyidengzhixing/657.html