使用者工具

網站工具


測驗編製:1.編製標準化測驗的一般程序

測驗的研發是指根據一個具體的計畫來撰寫題目,然後將這些題目排列編輯成一份測驗,來對一個人的知識、技能、能力、興趣、態度或其他某些特質進行測量的過程。它受到測驗的目的和對測驗分數預期性推斷的引導。測驗編製過程要包括以下幾方面的考慮:內容、形式、將使用的場合、和使用該測驗的可能後果。測驗編製也包括規定施測程序、決定測驗評分方式、以及向受測者和測驗使用者公布分數的條件。

本章主要講述以下幾方面:闡述測驗的目的;定義測驗的架構;研發命題的內容細則;研發並評鑑試題、計分程序及評分規程(rubrics);編輯測驗;和修訂測驗。第一節描述測驗編製的過程。始於對測驗目的的闡述,終於測驗的組合。

第二節論及測驗編製中需特別考慮的幾個問題,包括描述測驗架構的輪廓和實作評量的研發。

最後一節討論測驗的修訂。信度、效度及公平性等問題將融合在測驗編製的各個階段中討論。

一、測驗的編製

教育和心理測驗的研發過程,通常始於對測驗目的和所要測量的構念或內容領域進行陳述。由於測驗編製過程中必須做好幾個決定,同樣構念或內容領域的測驗可以在好幾個重要方面都不相同。

測驗編製四階段

我們可以將整個程序,從最初的測驗目的陳述到最終成品,分四個階段來看:

(l)描述測驗目的及所測量的領域和構念的轄域;
(2)研發和評鑑測驗的內容細則;
(3)編擬試題、施測程序和評分方法、預試和試題分析評鑑;
(4)組合和評鑑正式試卷。

以下是對一個典型的測驗編製過程的描述。不過根據具體情形,人們有充分理由只須遵循某些步驟,而不見得要亦步亦趨。

測驗目的與測驗架構

第一步是將最初的測驗目的的文字和所要測量的構念或內容領域擴展成一個架構,對測驗的目的和所測量的構念及內容領域的外延作進一步的充實描述。因此,測驗架構必須詳述構念或內容領域的各不同方面(如內容、技能、過程和特徵分析等)例如「八年級數學包括代數嗎?」「口頭能力包括課文理解和詞彙嗎?」「自尊心是否同時指感覺和行為?」對於測驗架構可以從理論上描述,也可以像許多證照測驗和雇用測驗那樣,從內容領域或職位工作分析的角度上來描述。測驗架構會對後面的測驗評鑑起指導作用。在效度一章裡,對於構念或內容領域、測驗架構和測驗目的之間會有更深入的討論。

測驗內容細則

當測驗內容和測驗分數的意義決定後,下一步就是通過測驗的內容細則來設計測驗。測驗的內容細則像建築藍圖一樣,用以描述測驗題型式、作答方式或答題條件、及評分程序的類型。 測驗的內容細則可闡明在計量心理學(psychometrics)方面所期望的試題的特性,比如,難易度(difficulty)和鑑別度(discrimination),以及所期望的測驗特徵(如,試卷平均難度、試題間的相關係數、和信度)。測驗的內容細則還可包括時間限制、原定受測者群體的特性,和施測的具體步驟和規定。 所有後面的測驗編製活動都是根據測驗的內容細則來執行的。

常模參照或是標準參照

測驗的內容細則應說明(或起碼暗示)測驗分數主要是常模參照式(norm-referenced)還是準則參照式(criterion-referenced)。 當分數是常模參照式時,相對分數的理解就比較重要。因為個人分數或可分類的次群體的分數會在一個或多個分數分布名次,或與各種參考群體的平均分數做比較。參考群體的劃分可根據年齡、年級、特徵分析類別或職種而定。 當分數是標準參照式時,絕對分數的理解就比較重要。這種分數的意義不依次,而是直接表示受測者在某個事先定義的標準領域裡所達力層次。常常相對理解和絕對理解都會用於某個測驗,但編製者決定哪種方法和該測驗更相關。

題型

試題性質和答題形式依測驗的目的和已定義的內容定。選擇回答形式(如多項選擇題)適用許多測驗目的。測驗內容細則須指明每道題有幾個選擇。其他的測驗目的可以通過文字題來與達到。

簡答題(shon-answer items)只需要幾個字就可完成。問答題(extended- response items)需受測者書寫一句甚至多段文字才能完成。實作評量(performance assessment)常需在模擬情境或條件下檢測受測者在所測知識和技能方面的實際運用能力。例如,有種實作評量是標準化職位操作選項。一項任務在標準化條件下以標準化形式交給受測者。舉例而言,職位操作選項可能包括實務者對某項設定條件的準確分析判斷和處理建議的能力,管理者對某個組織的目標清楚闡明的能力,或一個學生做科學實証的能力。

題型與評分方式

所有題型都要說明如何評分。有些施測計畫裡每道選擇題只有一個選擇是正確的。在另一些施測計畫裡,所有選擇可能各占一定分量。簡答題的話,可能一串可接受的替換回答就夠了;而伸展題就需要更詳細的評分規定(有時叫評分規程,scoring rubrics)。評分規程詳細列出評鑑分數的具體準則,但也會因評判要求的程度深淺、分數段的數目多少或其他因素而異。常規做法是測驗編製者為評分人員提供每個分數段的樣例以幫助他們明了分數評分標準。

分析性與整體性評分

包括實作評量在內的伸展題主要有兩類評分方法:分析性評分(analytic scoring)和整體性評分(holistic scoring)。兩種方法都要求能反映測驗架構的明確評分標準,但區別在於評鑑報告的詳細程度。採用分析性評分時,分數標準的每個重點項目都分別受到獨立評定;除了總分外,每個重點項目也都分別計分。採用整體性評分法時,同樣的(重點項目)分數標準可能也會用到,但最後只給一個總分。

使用時機

由於分析性評分法可提供數個重點項目方面的訊息,它可以評鑑受測者的強、弱項,具有診斷性的價值。與此相對的是,當只需要一個總分數就足以達到目的,或評量的技能太過於複雜或關係緊密時,或者受測者人數太多,而評分人員負擔太大時,整體性評分法可能才是較佳的選擇。不管用哪種方法,設計題目、編寫評分規程、選擇評分方式是一整套的過程。

參與人員

集體參與測驗編製的方式可以用在試題設計、評分規則上,有時也可用於評分過程本身。許多有關人員(如執業者、老師)都可以加入出題、製定評分規程、和評鑑學生表現的行列。

參與者資格

如果採用集體參與的方式,參與者對所評量的內容領域方面的知識,和他們運用評分規程的能力非常重要。所以他們應該是學科專家、資深老師、或有經驗的評分人員等。

熟悉受測群體

對那些參與測驗編製和評閱試卷的人來講,熟悉參加測驗的受測群體的特徵也同樣重要。受測群體的相關特徵可能包括:期望受測者具有技能的典型程度範圍、他們對於答題方式的熟悉程度、以及主要使用的語言。

試題審查與預試

測驗編製者常常建立一個試題數目遠超出測驗內容細則所要求的題庫,使得研發人員有餘地去選擇符合測驗內容細則的一套試題。試題的品質通常要通過試題審查和預試來確定,主要是檢查試題的內容、品質、和文字清晰度,有時候也審查試題在性別和種族文化上的敏感度。通常在命題時會提醒命題者盡量避免可能冒犯或引起某些受測者不快的語言和議題,在審查試題時會邀請不同性別及不同種族文化的人士參加。

預試的目的與方式

為了了解試題是否合適,常在受測者群體中進行有代表性地抽樣,再對其施行預先的測試。預試有助於確定試題的某些心理計量方面的特性,例如,試題的難易度和鑑別度。許多使用中的測驗計畫(如TOELF,GRE)常把試驗性質的試題在位告知的情況下夾藏在正式測驗中。這些試題的答題結果不會算在受測者的分數內,但受測者的反應卻給測驗編製者提供了非常有用的數據資料。

編組題本

測驗編製的下一步是將試題編組成一個測驗,或是為適性測驗(adaptive test)確認一個題庫。測驗編製者要負責使選來用於測驗的試題都符合測驗細則的要求。根據測驗目的需要,選擇試題所需考慮的方面有,試題內容質量和範圍、試題和內容領域的比重以及所選試題對指定的受測群體是否合適。測驗編製者常明確規定在一個測驗裡試題的心理計量方面的係數分布。例如,在試題難度係數的分布上篩選性測驗的分布就不同於一般性學力測驗的分布。當試題的計量心理方面的係數用試題反應理論(IRT)估算時,對數學模型是否和實際數據資料相吻合也須進行評鑑。這方面的評鑑是看試題反應理論的假設條件是否得到滿足來完成,如單向度性(unidimensionality)、局部獨立性(local independence)、測驗速度(speed tests)和相等斜率參數(即試題特徵曲線的斜率)等。

測驗編製/1.編製標準化測驗的一般程序.txt · 上一次變更: 2013/11/22 07:42 (外部編輯)