如何编制优质英语科试题理论篇.docx

资源描述

如何编制优质英语科试题理论篇.docx

《如何编制优质英语科试题理论篇.docx》由会员分享，可在线阅读，更多相关《如何编制优质英语科试题理论篇.docx（12页珍藏版）》请在冰点文库上搜索。

如何编制优质英语科试题理论篇.docx

如何编制优质英语科试题理论篇

如何編製優質英語科試題—理論篇

~南投縣國教輔導團國中英語組定期會研討主題分享暨研習心得報告~

吳英朱

1、前言

依據本團97年度的精進計畫，在每個月的定期會當中除了例行性的事務討論外，納入團員的進修成長課程，以提升輔導團員專業能力。

本團採讀書會的方式，本年度共讀的書目為”英語教育學”（作者廖曉青,心理出版社2007年5月出版），並由團員自己選定書中主題，於定期會時輪流分享。

會選定如何編製優質英語科試題為分享之主題，主要是因為代表本縣參加了兩場教育部辦的試題編製有關的工作坊。

一是去年6月8日在高雄辦的精進試題評析能力工作坊，第二場是2月21、22日在三峽所舉辦的語文領域英語組輔導群試題編製與試題實作工作坊。

這兩場研習收穫頗多，好東西忍不住要與好朋友分享。

再者，”英語教育學”一書中第16章為”英語測試理論和方法”，可作為我兩次研習所學的一個佐證資料。

以此主題作為分享篇名的另一項重要原因是本縣今年7月份將有兩天的試題分析實作編製研習，且十月份亦會有全縣段考試題命題比賽，希望藉由本文對縣內老師有些許的幫助，可以對命題這一範疇先有基本概念。

更期許自己能整理出一些有參考價值的東西分享給大家（希望沒有誤導大眾），以不負中央團所託之任務。

基於上述理由，「強迫」自己寫出一些有關testing的東西是責無旁貸。

既然是讀書心得分享，內容當然是必須「有所本」，本文的大綱架構主要根據「英語教育學」一書的第十六章”英語測試理論和方法”中的一到三節為主幹，分別探討英語測驗的功用、英語測驗的類型、以及評估英語試卷好壞的原則，再加上本人參加的研習資料，以及參考教育心理學—認知取向（RichardE.Mayer著，林清山譯）等書加以彙整，最後不能免俗地加上個人一點點淺見做為結語。

至於本章第四節提到成績的計算方法，我想這部份是屬於統計學的範疇，在此略過不談。

第五節筆試的命題與評分方法，可說是本章節最實用最精彩的部份，在參加精進試題評析能力工作坊與試題編製與試題實作工作坊時，亦有不少實際參與修題的經驗，另闢所謂的「實務篇」，再與大家分享。

2、英語測驗的功用

評量到底有何作用呢?

根據本書提到的”英語測試是一種了解、檢查和鑑定學習者的語言知識和技能的重要手段，是英語教學中不可分割的部份。

”英語測試在英語教學中的重要意義和功能，主要表現在以下幾個方面：

1、提供回饋資訊的作用：

評量與測驗實為提供教學回饋的重要途徑。

藉由評量結果，教師可檢視自的教學品質，包括省思自己的教學內容、方法、進度，進而發現問題及時改進。

學生方面可更加了解自己學習狀況，檢驗自己的學習態度、方法，糾正自學習的弱點做補強，促使自己的學習成效再提升。

可見評量與測驗不管是對老師的教學成效或學生的學習成效，都扮演著重要的角色。

2、篩選擇優作用：

教學過程中有時需對學生進行科學的評估，憑經驗或印象或少數人的意見是不夠客觀公平，故評量可作為選拔人才的重要參考。

3、反撥作用（backwasheffect）：

測驗對教學的影響稱為反撥作用，反撥作用有正面的亦有負面的。

但藉由編寫試題者以正向積極的態度看待教學與考試的關係並能依據教學目標、能力指標來命題，應可將反撥作用的負面作用減至最低。

我想這是我們身為英語教學專業從業人員能夠使得上力且應共同來努力的部份。

4、提供研究資料作用：

英語測驗的結果可作為英語教學研究和改革的可靠資料。

若有一新的教學理論形成，再用此方法教學後可用評量的方式作個檢驗，是否該教學法是否可行。

再者，每年國二生要抽測的TASA（TaiwanAssessmentofStudentAchievementhttp:

//tasa.naer.edu.tw/release/index.）

其評量結果就是作為研究改進英語教學及提出有效政箂參考的。

考試、測驗的功用好處可說是不勝枚舉，在出題時一定要注意的是給學生考試的目的是什麼，是要當作自己改進教學的參考、當作幫助學生復習的工具、當作學生提升學習效率的手段、當作分出學生程度高下的利器（當然這是很cruel）、亦或是當作專門機構人員的研究數據，各種目的的出題方式、偏重的方向皆不相同，所以了解施測目的是命題人員的第一考量。

因應各種不同的目的，當然就有各種不同型態的考題，下一個部份會將英語測驗種類加以說明。

在正式介紹英語測驗的類型前想提醒的是：

有一種我們第一線英語教學工作者最常使用的小考（quizz）,是應該被謹慎使用的。

原因有三：

Iftheteacherdoesdecidetogivequizzes,sheshouldbewaryofthreeendenciesthatmaynegativelyaffectlearning.Thefirstistoplacesuchrelianceonthethreatofaquiztomotivatethestudentsthatsheneglectstoplanadequatelyforherownteaching.Quizzesmaybeusedtogiveanextraincentive,butpropermotivationcannotbemaintainedonthebasisofquizzesalone.Second,theteachershouldtakecarenottoaskquestionsofthesamedifficlutylevelonaquizzthatshewouldonanexamination.Thepurposeistocheckinitialcomprehensionofanysegmentofmaterial,notfinalmasteryThird,theteachershouldnotovertest.Ifshedecidestogivequizzes,sheshouldnotgiveoneeveryday,atleastnotforagrade.Mostofthetimeinclassshouldbedevotedtoteaching-learningsituations,nottesting.（KennithChastain,1988）

“Quizz”實在是讓老師又愛又恨，適時適切的用的確可以提學生的學習成效，但用的過量過度會反客為主影響教學的品質進度及學生學習的興趣。

怎樣才是一個比較好的原則呢?

怎樣可以讓測驗的反撥作用是正向的呢?

我想別讓小考時間佔用超過十分之一的上課時間會好一些吧!

而且更高明的小考方式是能夠利用上課活動引起學生getinvolvedinyourclassroomactivity,學生會想用敢用會用你所教的字詞句，不就自然達到測驗的目的了嗎?

此外，如果考試真的是無可避免，另一個減低測騐backwasheffect的方法是在配分上作調整，以十題的試卷來說，答對1到3題一題得15分，答對4到6題開始一題得10分，答對7到9題開始一題得5分，10題全答對滿分105分（多5分做bonus又何妨）。

分數出爐後，別忘了大似讚美鼓勵低成就學生的努力與進步，增加slowlearner的自信心。

總之，一定要讓testing變成我們教學的助力而不是阻力。

3、英語測驗的類型

說到測驗的類型，真可說是包羅萬象，在2月21、22日在三峽所舉辦的語文領域英語組輔導群試題編製與試題實作工作坊的研習中，劉慶剛教授舉出了各種考試的類型，如下表，各位若是有興趣的話不妨自行加以研究。

Typesofassessment

Achievementassessment

Proficiencyassessment

Norm-referencing（NR）

Criterion-referencing（CR）

MasterylearningCR

ContinuumCR

Continuousassessment

Fixedassessmentpoints

Formativeassessment

Summativeassessment

Directassessment

Indirectassessment

Performanceassessment

Knowledgeassessment

Subjectiveassessment

Objectiveassessment

Checklistrating

Performancerating

Impression

Guidedjudgment

Holisticassessment

Analyticassessment

Seriesassessment

Categoryassessment

Assessmentbyothers

Self-assessment

（CEFdocument,p.183）

本書將五花八門的考試的類型依目的、學習過程、測試規模、評估標準、評分方式以及試題測試成分共六類，依較常見的測驗名詞依序整理成以下五種類別：

（1）根據測驗目的分類：

1、成就測驗（achievementtest）：

最常使用於平日教學中，測驗內容與教學內容、目標高度相關，目的在評量學生經由學習後是否獲得某一特定知識。

2、學力測驗（proficiencytest）：

相較於achievementtest測驗學生對某一教學單元的精熟程度，proficiencytest主要是測試整體語言的表現水準，並不侷限於任何單一的語言技巧，或任何單一版本教科書內容。

像是大家熟知的TOEFL、GRE等考試。

以上兩種測驗的區別如下：

Whereasanachievementtestlookbackonwhatshouldhavebeenlearned,theproficiencytestlooksforward,definingastudent’slanguageproficiencywithreferencetoaparticlulartaskwhichheorshewillberequiredtoperform.

Agoodachievementtestshouldreflecttheparticularapproachtolrarningandteachingthathaspreviouslybeenadopted.

Theproficiecytestisconcernedsimplywithmeasuringastudent’scontrolofthelanguageinthelightofwhatheorshewillbeexpectedtodowithitinthefutureperformanceofaparticulartask.（J.B.Heaton,1990）

再引用去年6月8日在高雄辦的精進試題評析能力工作坊張武昌教授提供的資料（周中天，國中小英語命題原則與精神），更能清楚地看出這兩者的不同：

成就測驗

能力測驗

目的

檢視學習成就、診斷學習缺失，以利補救。

評量學生能力、瞭解學生程度

重點目標

重視人人達成學習目標

重視鑑別度、排名

命題範圍

以特定教學內容為命題範圍

命題範圍不受限制

測驗層次

知識、理解、基本運用為主

綜合運用為主

測驗題型

單項式題目為主（單字、片語、文法、造句、翻譯）

整合式題目為主（cloze、閱讀測驗、作文）

與教學關係

配合教學目標與進度

與教學無明確相關

學生準備

有明確的準備內容

無法在短期準備

3、診斷性測驗（diagnostictest）：

此種測驗主要目的是要發掘學生在語言的那一方面出了問題。

雖然diagnostictest一詞很廣泛地被使用，但很少有測驗是單獨為此目的而編製的。

因為achievementtest和proficiencytest常帶有“診斷”的色彩。

至於測驗內容大致可包括：

phonemedescriminationtests,grammarandusagetestsorcertaincontrolledwritingtests等等。

（2）根據學習過程分類：

1、安置測驗（placementtest）：

為評估學生應被安置於什麼地方而進行的前測，通常用於學年、學期開始前為了解學生實際掌握英語知識和具備能力的程度，以便定訂出符點學生起點行為的教學計畫，或是根據安置測驗將學生予以分組教學，每當學生顯示了進步，便可以再予以施測安置。

2、形成性測驗（progresstest）：

為大家所熟知英文翻譯應是formativetest,常用於一般教學過程中，目的在獲取回饋資訊了解學生的學習情況。

據此結果，教師可加強學生學習較弱部份進行compensatoryactivitiesorexercises,藉此學生可填補鞏固所學知識。

此外，形成性評量通常不算成績，只作為老師教學、學生學習的檢視工具，而非評分依據。

3、總結性測驗（finaltest）：

為大家所熟知英文翻譯應是summativetest,此類測驗通常可用來描述已發生在學生內部的學習，一般用於單元、學期、學年結束時，目的在檢查學生經過一段學習後是否達成學習目標。

形成性評量和總結性評量都只是為check學生是否真正有學進去，老師是否有達成教學目標，而非用來排名次或分出勝負。

（3）根據測驗規模分類：

1、標準化測驗（standardizedtest）：

以測驗原理為依規，按照科學方式編制，嚴格控管測試誤差的一種考試。

也就是要做到試卷編制、施測過程、評判分數、分數解釋以及題庫建置標準化。

現今的TOEFE、GRE、全民英檢等大規模商業化考試，都算是標準化測試。

學校最常使用的標準化測驗，應該是標準化性向測驗。

2、課堂測驗（classroomtest）：

課堂測驗的規模及嚴謹程度相較起標準化測驗可說是小屋見大屋了。

不過由於是針對學生的情況及根據所學的教材所編製的試卷，學生比較有方向準備，對學習有立即的回饋效果。

（4）根據評估標準分類：

1、常模參照測驗（norm-referencedtest）：

此種驗的解釋方法是告訴受試者在接受同一測驗的較大群體中是站在什麼地位。

主要目的是讓某考生知道本身在所屬考試群體中處於那個水準。

在教學上僅只能反映與同學在學習成效上的優劣排名，並無法顯示受試者達成了學習目標。

常模參照測驗常用於地區性或全國性評估的標準測驗上，例如基本學力測驗。

2、標準參照測驗（criterion-referencedtest）：

有些測驗事先設定如果你的分數超過某一數值便算通過，這便是標準參照測驗，像是全民英檢。

在教學上主要目的是要了解學生能否達到某一能力水準，像是能否聽懂英語國家人士關於日常生活、社交生活的講演、對談;能否在一小時內寫出250個字等等。

標準參照測驗常被使用在proficiencytest或教師用在成績報告單的評分上。

（5）根據評分方式分類：

1、主觀測驗（subjectivetest）：

指的是評分時，需評分者運用主觀經驗、洞察力，甚至是世界觀來作出判斷，給予評分。

像是作文、問答申論題均屬此類。

雖說主觀的評分方式常常不夠客觀，影響試卷信度，但因可直接測出學生實際運用語言的能力，故效度相對提高。

2、客觀測驗（objectivetest）：

指的是評分時不需要或幾乎不需要評分者進行主觀判斷，非專業人士或電腦就可以進行判讀進而評分。

對就是對，錯就是錯分數公正客觀，試卷的信度較高。

選擇是就是經典題型。

值得一提的是要測試不同的語言能力可採合適的評量方式，不需自我設限，非得”客觀”不可。

引用下列文字供大家參考：

Objectivetestsneednotbyconfinedtoanyoneparticularskillorelement.Inoneortwowell-knowntestsinthepast,attemptshaveevenbeenmadetomeasurewritingabilitybyaseriesofobjectivetestitems.However,certainskillsandareasoflanguagemaybetestedfarmoreeffecrivelybyonemethodthanbyanother.Readingandvocabulary,forexample,oftenlendthemselvestoobjectivemethodsofassessment.Clearly,theabilityrequiringthestudenttowritecanonlybesatisfcatorilytestedbyasubjectiveexaminationrequiringthestudenttoperformawritingtasksimilartothatrequiredinreallife.（J.B.Heaton,1990）

我想國中基本能力測驗為求絕對的公平客觀，只採選擇題形式測驗，當然有其無奈之處，但聽、說、讀、寫四個基本能力只有測驗到讀而已，在教學上仍難擺脫偏重閱讀的教學、文法的講解和解題的技巧，而忽略其他三項重要的能力。

基測已經對學生”不仁”，但身為專業的英語教師不能對我們親愛的學生”不義”，在教學上仍需儘量地”均衡一下”

4、如何評估試卷品質

怎樣的試卷稱得上是一份好的試卷呢?

這份考卷能測出學生的程度嗎?

試卷出得太難還是太簡單了呢?

這些都是命題人員相當關心的問題。

一般而言，要評斷一份試卷的品質可以從效度、信度、難度、區別度加以分析，就不難判別試題的優劣。

就本書所提及的四個向度作整理如下：

（1）測驗的效度（validity）：

在本書中被提及效度大致有內容效度（contentvalid）、效標關聯效度（criterion-relatedvalidity）、預測效度（predictivevalidity）、共時效度（concurrentvalidity）。

只舉其中內容效度加以說明，因為它跟一般教師的命題最息息相關。

其所指的是考試題目是否涵蓋了考試範圍內的重要部份，也就是能測出所要評量的內容，舉個很簡單的例子：

如果我們要測驗的是學生是否學會了動詞時態的用法，但在試題中大部份的題目卻要學生做名詞單複數的變化，或形容詞最高級比較級的轉換，那這份試題的效度必然很低。

若要提高試題的測試效度，根據本書作者所引述的步驟簡述如下：

（1）根據教學大綱分別列出教材內容的各項重點

（2）內容重點和學習結果的分數比例可根據教學時數或專家意見來決定（3）編制命題雙項細目表（4）依照雙向細目表的具體規定來編擬試題。

上個月21、22日兩天在三峽的研習，劉教授亦提及所謂的雙向細目表的編寫大略原則，提供各位作參考：

Makingatwo-wayspecificationtable:

Example

Objectives

Materials

Knowledge

Comprehen-

sion

Applica-

tion

Analysis

Synthe-

sis

Evaluation

To-

tal

Words/phrases/grammar

Cloze

15.5

Readingcomprehen-

sion

44.4

Total

100

33.3

44.4

8.8

2.2

如能在出題之前，做一份雙向細目，將能很很清楚的確定我們所出的考題均有cover到認知領域教學目標，確認了我們要考學生的些能力，那麼效度就有了初步的保障了。

至於什麼樣的題目算是考knowledge，什麼樣的題目算是考application呢?

劉教授也給了一些範例（如下表），請自行參考。

Whatisthecognitivedomain?