- 相關推薦
閱卷管理與監測系統
——大規?荚囎魑脑u分研究系列之六
上文說過,大規?荚囍凶魑脑u分的誤差控制包括三個不可缺少的基本環節,這就是評分標準、評分方法 和閱卷管理。監測系統是閱卷管理系統中一個有特殊意義的組成部分。一次大規模作文考試,如果沒有一套完 善的管理制度,沒有一個有效的監測系統,則任何評分標準的厘定、評分方法的改進都只是一句空話。
在測試研究中,考務管理是一個專門的領域;在測試機構中,考務管理是一個有特定職能的分支機構? 慮到本刊的讀者對象,以下只作約略的概述。
1.大規模作文考試的閱卷管理系統
大規模作文考試的閱卷管理系統應承擔以下三個方面的職責:a.閱卷的業務領導,b.閱卷人員的行政 管理,c.閱卷質量的監測。在現階段,我國比較完善的閱卷管理程度可以示意如下:
作文閱卷管理示意圖
(附圖 {圖})
現代科技的發展,為作文閱卷的管理提供了重要的輔助手段。借助這種手段,閱卷管理的主要工作有:
①試卷的隨機編排
試卷的隨機編排就是把不同學校的考生打亂混合排列。有了電腦,這項工作在技術上是不難解決的。重點 學校與非重點學校之間,水平可以相差很大,如果不解決隨機編排問題,則監測系統的數據將失去代表性,既 使得這些數據缺乏應有的說服力,也容易出現盲目的調控。有了隨機編排,不但閱卷員的評分狀況能夠得到比 較客觀的反映,而且就閱卷員本人來說,由于一本試卷(即同一考場中)兼有各類學校的考生作文,可以大大 減弱評分心理的位置效應(參閱《系列之一》)。此舉可以消除評分的系統誤差,即各校的平均成績與其實際 水平大體接近,但還不能遏制評分的隨機誤差(參閱《系列之一》文末注釋)。
②閱卷員的選擇與培訓
《系列之三》所披露的數字表明,閱卷人員決不是“年齡大、職稱高”才好。閱卷隊伍的形成應該是一個 選擇的過程,由于大規?荚囎魑脑u分的特點與困難,閱卷者應該是一支半專業化的隊伍,為此,需要逐步建 立閱卷人員檔案!案呖甲魑脑u分誤差控制”課題組的試驗省分有的正考慮實行“閱卷員證書”制度(國外已 有),這是條很有價值的措施。
在選擇閱卷人員的基礎上還要進行培訓。以下兩項調查反映了短期培訓的效果。
調查A
取各類作文10篇,15名閱卷員在培訓前后兩次重評。結果如下:
培訓前 培訓后 篇平均標準差 4.84 3.97 總體標準差 3.97 4.63
可見經過培訓,閱卷員評分的一致性有所提高,在拉開分數距離方面情況有所改善。
調查B
取各類作文60篇,分成對等兩組,16名閱卷員先評第一組(作為培訓材料),相隔3日再評第二組, 結果如下:
第一次 第二次 篇平均標準差 3.467 3.105
觀測結果與調查A相近。
培訓可以有兩種方式:a.短期集中培訓,b.結合閱卷過程進行。后者一般都與樣本卷討論和典型卷討 論合并進行,將在下面專門介紹。
③樣本卷的選定及其策略
即使有了比較完備的評分參照量表(參閱上期),每次大規?荚嚨臉颖揪砣允遣豢缮俚。這是因為每年 的試題都有其個性,有其需要特殊處理的矛盾,需要根據當年試題情況編制樣本卷系列予以解決。
樣本卷的功能,一是使評分標準明確化、具體化,二是針對影響閱卷穩定的心理因素予以盡可能的控制。 因此編制樣本卷系列,在著眼點方面,在策略方面,和參照量表的編制可以有所不同。參照量表的編制要遵循 “等距性”原則,即各典型例卷之間,如果按百分制計算,其分距大體上是相等的;樣本卷系列的制訂,則可 以進一步著眼于“分界線”和“分歧點”。
例如:“趨中傾向”(參閱《系列之一》)是大規?荚囋u分中一個比較突出的問題,針對這種情況,1 991年江西省在高考作文評分選定樣本卷時采取了以下對策:a.一、二類樣本卷取下限,b.三類卷取上 、下限。采取上述措施的結果,各類試卷的分布狀況有所改善: 類別 一 二 三 四 五 百分比 2 22 43 27 5
高考作文每年分值不同,為了便于比較,重新劃分分數段使之能與1990年相對應,結果如下:
(91)29---35 (91)20---28 (91)12---19 (91)1---11
(90)33---40 (90)23---32 (90)14---22 (90)1---13
1991 10% 46% 36% 8%
90(綜) 6% 58% 27% 9%
90(綜) 11% 62% 22% 5%
從表中的數據可以看出,高分數段的情況沒有顯著變化,而第二檔次的人數有大幅度下降,第三檔的數字 有明顯上升。從整體上看,打保險分,送“及格”分的傾向有所抑制。
再取同是采用分項評分法的90年文科考生分與91年全省考生抽樣統計的平均數、標準差、變差系數( 標準差/平均分)相比,結果如下:
平均分 標準差 變差系數 90年(滿分40分)24.65 6.65 26.98% 91(滿分35分) 20.17 6.41 31.78%
統計表明,變差系數有所增加,即分數離散狀況好于前一年。
“分歧點”就是容易引起分歧的問題。每年閱卷,都可以發現“有的作文好評,有的作文難評”現象。對 于某些作文,評分比較容易趨于一致,對于另一些作文,看法往往分歧。歸納、分析、研究這些評分差別較大 的試卷,及時提出來討論,統一認識,納入樣本系列,是極其重要的。
④閱卷流程管理
根據我國慣例,大規模作文考試通常在暑期或接近暑期進行。在高溫、大兵團突擊作戰的閱卷條件下,應 該特別注意閱卷人員的生活安排和保健措施。就閱卷流程管理而言,要特別注意以下兩項工作:
a.均衡投卷,控制速度
閱卷速度必須均勻,前松后緊之類都必然擴大誤差?紤]到閱卷員熟練程度不斷提高,可以先略慢后稍快 ,但各組之間必須同步前進。要嚴禁各組攀比速度,領導小組要掌握進度,但決不應公布進度,一公布必然對 較慢的組產生壓力而滋生誤差。此外,如果閱卷人員之間存在著利害關系(相互競爭的學校、區縣等),試卷 的投放還要注意流向,以免人為因素干擾。
閱卷的速度與質量有直接關系,速度過快必然評估粗糙。由于目前實行的承包制以及閱卷數量與報酬掛鉤 的原因,閱卷速度不斷加快。據了解,高考作文有的地區個別閱卷員的速度竟達到日300份以上,在這種情 況下,閱卷質量是無法得到保證的。承包制不適用于作文閱卷,必須予以解決。
b.制訂行為準則
“多元評定法”是減小各評閱者評分誤差的重要措施。根據賽蒙茲(Symonds)的研究,一組作文若由兩人 評定,其相關系數為0.55,經四人評定后再由另四人評定,則相關系數可達0.82,若經八人評定后再 評定,相關系數可以增加到0.90。目前,美國威斯曼的“快速印象法”和英國倫敦教育研究所的實驗都要 求一份試卷經四人評定。在我國,一般原則上規定一份試卷應由兩人共評,要求已經很低,但實際上仍無法做 到。在這種情況下,應該就“對子”行為作出一些規定,例如至少要求兩人先共評若干份,分評后每天必須相 互抽查各等級的作文若干篇,發現問題及時磋商,并有相應的檢查措施,等等。這已經是最低限度的要求。
紀律渙散、工作態度不嚴肅,是無法保證閱卷質量的。因此,還應當制訂《閱卷員守則》,并且有相應的 獎懲制度。對于不合格的閱卷人員必須堅決汰除。課題組各試驗省份都有被判“紅牌”者,對維護閱卷的嚴肅 性有良好的作用。
⑤監測及復查
由于這個問題的重要性,將在下文專門介紹。
2.建立、健全監測系統
大規模作文考試如果沒有一個有效的監測系統,則任何研究、條例和改進措施將毫無意義。我國長期慣用 的“復查”就是一種監測方法,不過隨著科技手段的進步,監測手段日益豐富,怎樣借助科技手段來發展監測 系統就成為人們研究的一個課題。
科技手段應用于評分監測,有“隱形筆”等[注],不過目前主要是電腦。國外有利用電腦直接進行調控 的,即以試卷中某些客觀性較強試題的得分為參照系,如果發現某地區或某閱卷員的主觀題給分與其它地區或 其他閱卷員的評分平均值相比明顯偏低或偏高,可以通過數學方法加以調整。我國英語高考也曾采用過這種方 法。但語文是一門綜合性很強的學科,其測試也屬于異質性測試,經過多次測算,各試題(包括作文)的得分 之間沒有必然聯系。即以寫作能力而論,母語和外語不同,母語作文的能力層次要求大大高于外語,高層次能 力(如立意)與低層次能力(如書寫)之間,得分也沒有必然聯系。因此用其它試題作參照系的方法就作文評 分而論是不科學的,也是不可取的。再就各閱卷員之間的評分來說,由于評分對象的差別(例如一市集中閱卷 ,各區之間的水平就會有所不同),很難據此就作出“偏嚴”、“偏松”的判斷,如果驟然利用電腦直接調整 ,很難避免盲目調控。因此,至少就作文評分而言,機器只能及時發現問題,最后的裁斷還必須由人工(專家 )來做出。
當前,利用電腦監測主要有以下幾種方法:
①指標監測
用以監測的指標主要有“平均分”和“標準差”。平均分可以顯示出閱卷者給分有沒有偏高或偏低的問題 ;標準差顯示給分的離散程度,顯示出有沒有“打保險分”的趨向。將閱卷員每日每份試卷的給分及時輸入電 腦,如有問題,就可以及時發現。
②參照系監測
由核心組先隨機抽閱一批試卷,將數據輸入電腦,以所形成的曲線作為參照系。參照系有允許浮動的一定 幅度。閱卷員每日評分結果在圖形顯示上如果超越了幅度,電腦就能及時檢出以備復查。
③“暗點”監測
即由核心組隨機抽閱一批試卷,秘密輸入電腦,閱卷員評此卷時,如果給分差距過大,就能及時發現檢出 ,顯示該閱卷員所評其它試卷也可能存在問題。本方法原理雖然簡單,但頗為有效。
④內部相關監測
這是我國試驗分項評分時所創造的一種方法。其原理是各分項得分之間往往具有一定的相關性,由此設計 了數學模型,把測算結果稱為U值。U值過大或過小,都可以提供信息供復查組審核、裁奪。此方法1992年 在河北省試驗與指標監測法同時采用,當年結果如下(X撥為平均分S為標準差):
試卷 增加分 減少分 增加分 減少分 平均每
袋數 數篇數 數篇數 數總和 數總和 袋改動 X撥出線 14 77 29 209 127 24 S出線 9 26 15 73 26 11 U值小 13 50 53 166 119 21.9 U值大 8 61 18 200 51 31.4
說明:平均分低于控制線的11袋,經復查,分數變動269,平均每袋24.5分;高于控制的3袋, 分數變動67分,平均每袋22.3分。
U值方法尚在進一步完善和論證的過程之中,但實踐證明它在發現問題方面是有效的。由此也可以看出,在 平均分、標準差均未出線的范圍內還存在著大量誤差,需要研究對策。這也正是作文評分監測系統科研的任務 。[注]該筆書寫的符號,只有借助特定燈具才能顯示。這樣,共評者彼此不知道對方所給的成績,而由監測 者(或組長)裁奪。如果差別過大,則需重評。
—一全文完—一