多元评量理念与实务.docx
《多元评量理念与实务.docx》由会员分享,可在线阅读,更多相关《多元评量理念与实务.docx(30页珍藏版)》请在冰点文库上搜索。
多元评量理念与实务
多元評量理念與實務
張清濱彰化師範大學及朝陽科技大學兼任教授
1、引言:
評量是教學的重要元素
教學是一種複雜的歷程,究竟包含哪些要素?
有些學者認為教學至少涉及五個要素---學生、教師、教材、環境、及時間(Hyman&Rosoff,2000:
193)。
但大體上,教學的歷程涉及學生、教師、教學目標、教材設備、教學方法、及教學評量,如圖1。
今說明如後:
1、學生
教學的主要對象是學生。
沒有對象,教學必成為自導自演,紙上談兵,不切
實際。
教學時,教師必須先瞭解學生的起點行為(enteringbehavior)及個別差異,判斷學生的能力水準,才能因材施教。
2、教師
教學的主角是教師。
他(她)應該扮演良師的角色,傳道、授業、並解惑。
現代的教師同時要扮演「十項全能」的角色:
廚師、人師、經師、工程師、設計
圖1教學要素之間的關係
師、醫師、園藝師、幽默大師、魔術師、及裁縫師(張清濱,2008a:
125)。
3、教學目標
教育的目的何在?
教學的目標為何?
這是教學歷程必須考慮的要素。
教學沒有目標如無舵之舟,茫茫然沒有方向,隨波逐流。
教學前,教師應把握教學的目標,安排教學活動,以達成預期的效果。
4、教材設備
教學的材料(teachingmaterials)通常包括教材及視聽媒體器材。
教學前,教
師對於教材應有透徹的瞭解並應準備有關的教學媒體。
如無媒體器材可資應用,師生亦可製作教具,可能的話,得由學生自備。
五、教學方法
教學方法包括教學策略、方法、技術或技巧。
教學方法很多,譬如問題教學法、思考教學法、小組教學法、練習法、討論法、探究法、欣賞法、協同教學、合作學習、及電腦輔助教學等。
教師應該判斷何種學科採用何種教法才適當。
六、教學評量
學生學習有無困難?
教學目標是否達成?
教學效果如何?
唯有實施教學評量,教師才能瞭解學生學習的情形。
通常教學開始前,教師應該進行診斷性評量(diagnosticevaluation);教學過程中,教師要進行形成性評量(formativeevaluation);教學結束,教師也要進行總結性評量(summativeevaluation)。
2、教學評量的基本概念
1、教學評量的目的
在教學歷程中,學生有必要瞭解他(她)們學得如何,教師也有必要瞭解他(她)們教得如何。
教學評量本身就是達成目標的一種手段。
它的目的約有下列六點(張清濱,2008b:
432):
(一)瞭解學生的起點行為
教師面對一群未曾教過的學生,不知道他(她)們的準備度(readiness)如何,教師可進行簡單的測驗,即可瞭解他(她)們的起點行為(enteringbehavior)。
對於新生及未曾教過的學生,學期開始之初,教師更應進行教學評量。
(二)診斷學生學習的困難
學習的範圍甚廣,學生學習後到底有何困難?
什麼地方有困難?
譬如國中、高中一年級學生,有些學生不會發音,另有些學生不會拼字,也不懂文法等。
教師可透過評量發現問題之所在。
(三)協助學生學習
教學評量最主要的目的是要幫助學生學得更好。
從評量的過程中,教師可發
現學生學習的優缺點,重新建構課程與教學,設計合適的教學活動,讓學生更容易學習。
(四)評定學生的學習表現
教學告一段落,教師應就教學的範圍施以評量,以瞭解學生的學習結果及表現。
學習表現包括知識、技能、態度、理想、情操、勤惰等。
教師應就其學習的程度,評定其等第或分數。
(五)檢討教學的得失
從學生的學習表現,教師應就評量的結果,檢討教學的得失。
在教學的過程中,教師的教學有哪些優點?
有哪些缺點?
評量的難易度是否適當?
哪些學生學會?
哪些學生還不會?
原因何在?
都應加以分析,以作為改進教學之參考。
(六)提升教學的品質
評量的最終目的是改進教學,提升教學的品質。
評量的本身是一種手段,改進教學才是目的。
評量的結果應當告知學生本人及家長,給予回饋。
對於成績較差的學生,教師應施以補救教學,提升其能力與水準。
2、教學評量的原則
教學評量時,教師要先考慮命題方式為何?
包括哪些範圍?
評量的對象是誰?
評量的工具如何完成?
如何評分?
下列10個原則可供教師們參考(張清濱,2008b:
434):
(一)評量要依據教學目標
評量的主要功能在於判斷教學目標是否達成。
在評量的過程中,不論是教師評量學生或學生自我評量,目標必須具體、明確。
因之,教學目標應以行為目標(behavioralobjectives)的方式敘寫。
評量應根據教學目標轉化成評量的題目。
(二)評量要兼顧認知領域、技能領域、及情意領域
教師的觀點往往左右評量的內容。
如果教師注重態度與價值觀念的培養,則
評量將著重於學生在課堂上發展這些態度與價值的程度。
如果教師注重於認知領域,則評量注重於學習單元中知識的獲得。
但是,學習是完整的活動,知識、思考的歷程、技巧、態度、價值、及行為的改變一樣重要,不分軒輊。
雖然,某些學科的教學目標有輕重緩急之分,但在教學評量時,卻不宜有所偏廢。
(三)評量要適應學生的個別差異
評量的題目要顧及學生的程度。
如果評量是針對同一年級的學生,試題的難
易度要適中,應以大多數的學生程度為準。
如果評量是針對資賦優異的學生,試題就要有挑戰性。
如果評量是針對智能不足的學生,試題難易度就要淺顯易懂。
(四)評量是繼續不斷的歷程
教師應經常考查學生,教學前、教學中、及教學後都可以評量學生。
診斷性評量可辨別學生個人及團體的需要。
形成性評量可看出學生每天進步的實況。
單元結束所做的總結性評量則可瞭解單元目標是否達成。
這三種評量方式,教師教學時應相機採用。
(五)評量是師生共同合作的歷程
教師、學校行政人員、學生、甚至學生家長都應參與評量的工作,因為他們對於學校計畫均有密切的關係。
教師與學生共同評量有助於目標的澄清。
團體評量與自我評量有賴於教師的指導及學生的合作。
家長應多參與討論其子女的學習情況。
視導人員與其他有關的學校行政人員亦應提供協助,並與教師合作,設計有效的評量工具。
(六)評量應在各種不同的情境實施
學生的態度、興趣、觀念的改變、及技能的增進在團體設計、討論、報告中可予以評估。
學生在戲劇、韻律、及角色扮演所表現的行為也可顯示其學習增長的情形。
學生必須在各種不同的場合予以評量,始能判定學習是否改變其行為。
(七)評量應利用各種不同的方法
教師可利用許多不同的工具及評量的技術,以蒐集有關教學結果的資料。
常用的評量方式有觀察、討論、面談、個案會商、個案研究、教師自編測驗、師生合編測驗、標準化測驗、問卷、社交距離測驗、查核法、學習日誌、日記、軼事紀錄等。
教師使用何種方式評量,要看評量的目標如何以為定。
教師不可僅使用一種方式去評量某一目標。
即使教師使用查核表、等級量表或測驗,教師也可同時使用觀察法。
混合使用各種方法比單獨使用一種方法要好些。
(八)教師應提供學生自我評量的機會
透過自我評量,學生可分析自己的技能、態度、行為的優、缺點與需要。
當他們評估個人與團體努力的結果時,他們也就培養個人的責任觀念。
自我評量促進自我學習。
(九)評量應力求客觀、公正、公平
評量試題的題意要明確,不可模稜兩可。
試題也要顧及不同的族群、性別、語言、地區、及文化的差異,不可厚此薄彼。
見仁見智及容易引起爭議的題目均應力求避免。
(十)評量應與教學密切結合
評量應該是教學的一環。
成功的教師會觀察並記載學生學習進展的情形。
他們會根據評量的結果,改進教學。
評量可提供立即回饋,師生均有裨益。
3、教學評量的特性
良好的教學評量要考慮五個C:
符合性(congruence)---評量的項目要符合教學的目標;完整性(completeness)---評量的試題要涵蓋整個教學的層面;一致性(consistency)---評量的試題在不同的時間施測,能得到一致的結果;確信性(confidence)---試題的內容信用可靠;成本性(cost)---試題所花的成本費用是合理的(Smith&Ragan,1999:
95)。
具體地說,任何評量的工具至少要具備四個特性:
可靠性、標準性、效用性、及可行性(reliability,standardized,validity,practicality,RSVP)(Ormrod,2009:
361)。
今略述如下:
(一)可靠性(reliability)
如果評量能一致地測量到所要測量的項目,並且具有很高的可信度,則此種評量是可靠的。
我們可以相信如果我們明天或下周給予相同的測驗,學生基本上在兩次評量仍然可以得到相等的分數。
評量工具沒有信度通常由於試題缺乏客觀性、評量工具過於冗長、題意不明、或行政上的缺失使然。
(二)標準性(standard)
評量的試題要能夠做縱的及橫的比較,以顯示有無進步。
縱的比較係指同一系統在不同的時段內比較,譬如甲校前年、去年、與今年畢業生基本學力測驗成績的比較,250分以上的比率提升或下降?
橫的比較係指不同的系統在相同的時段內比較,譬如甲校今年的畢業生基本學力測驗成績與他校、他縣市比較。
評量的結果要能夠相互比較,除了要有信度及效度外,試題尚應力求標準化。
施測的內容、程序、及計分的準則都以相同的方式處理。
標準化減少錯誤的機會,達到公開、公平、公正的標準。
(三)有效性(validity)
如果評量能真正地評量到或測量到所要評量的項目,那麼這個評量是有效度的。
每一道試題都要符合與所要評量的目標。
每一目標所命擬的試題都是代表可能發展那些目標的試題。
如果試題不能測驗到所要測量的項目,則此種評量是沒有效度的。
心理學家指出效度可分為三種:
(一)預測效度(predictivevalidity),即評量工具能預測未來的表現,例如智力測驗分數能預測學生未來的學業成就;
(二)建構效度(constructvalidity),即評量工具能否測量特殊的人類特質或特徵,例如智力測驗能否真正測量智力,或人格測驗能否測量人格特質;(三)內容效度(contentvalidity),即評量的內容及題目能代表所要測量的全部知識及技能。
(四)實用性(practicality)
要增加試題的實用性,最好發展評量的效度與信度,評量的試題儘可能接近實際的生活情境。
試題生活化可以使學生應用學習過的知識與技能。
然而,創造效度與信度的願望和評量情境的現實性是有落差的。
評量的資源有其限制:
學生沒有足夠的評量時間,教師也沒有充分的閱卷時間。
總而言之,在這四個特性中,效度最為重要。
教師必須使用評量的技術,評量學生的成就是否達成教學目標。
然而,信度是效度的必要條件。
評量要產生有效的結果,只有當評量也能產生一致的結果---施測的程序、計分的標準力求公正客觀。
信度不能確保效度。
但標準化可以增進評量結果的可靠性。
實用性唯有在效度、信度、及標準化沒有重大缺失時始可考慮。
3、多元評量的理念
1、多元評量的定義
多元評量係指評量的目標、內容、方式、情境、次數、人員都是多元的
,即使評量標準、答案也應該是多元的。
茲列述如下:
(一)評量目標多元
教學評量應把握各類目的及目標,以檢驗目的及目標是否達成。
目標包括學
校教育目標、課程目標、學科目標、單元目標及行為目標等。
每一類目標都是多
元的,絕非單元的目標。
就以國民教育階段九年一貫課程為例,即有10項課程目標(教育部,2012):
1.增進自我了解,發展個人潛能。
2.培養欣賞、表現、審美及創作能力。
3.生涯規劃與終身學習。
4.表達、溝通與分享。
5.尊重、關懷與團隊合作。
6.文化學習與國際瞭解。
7.規劃、組織與實踐。
8.運用科技與資訊。
9.主動探索與研究。
10.獨立思考與解決問題。
國民教育階段九年一貫課程目標再衍生國民中、小學各學習領域目標、各學
科目標。
每一學科也有單元目標及行為目標。
一般言之,宗旨及目的皆指遙遠的、抽象的、非短期內可達成的,如憲法及教育宗旨的目的。
目標則指近程的、具體的、短期內即可達成的,如學習領域目標、學科單元目標、及行為目標。
教學及評量是否已經涵蓋課程的重要目標?
是否符合小班教學的基本目標?
教師命題時即應把握多元化的教學目標,轉化成評量試題,以檢驗教學目標是否達成,評量始不致有所偏失。
(二)評量內容多元
學習領域包括認知領域、技能領域及情意領域。
認知領域又分為記憶、瞭
解、應用、分析、評鑑、創造等層次。
技能領域也分為技巧、模仿、機械練習、
創作等層次。
情意領域則可分為情緒、情操、態度、價值觀念等層次。
記憶是學習的基礎,沒有記憶,就很難學習。
但是,記憶不等於學習,它只
是認知領域的一部分。
傳統上,教學評量往往偏向記憶,很少評量高層次的認知
諸如分析、整合、歸納、評鑑、創造的能力,難怪一般學生普遍欠缺批判思考及創造思考的能力。
任何學科都有技能的成分,有些是生活技能的一部分。
譬如,語文學科教
導學生說話的技巧及作文的技巧,社會學科傳授社交的技巧,自然學科辨認環境
生態的技巧等。
教學要與生活結合,評量就應與生活知能結合。
認知領域屬於智商(intelligencequotient,I.Q.),而情意領域涉及情緒智商
(emotionalintelligenceqoutient,E.Q.)。
有些教師往往忽略情緒智商的教學與評
量,因而學生缺乏毅力、耐力及挫折容忍力,容易自暴自棄,隨波逐流。
評量應兼顧三大學習領域,教學評量不能只著重認知領域,忽略技能領域及
情意領域,否則會淪為「智育掛帥」的弊病,培養一批「五育不全」的人。
多元
化的評量內容自應儘量兼顧多元智慧的八項智慧:
語文、邏輯數學、空間、肢體
運動、音樂、知人、知己、及自然觀察的智慧等。
今以汽車駕駛為例,說明教學評量的方式如下:
1.認知領域
(1)記憶:
能說出常見的汽車廠牌三種。
(2)瞭解:
能指出一種汽車廠牌的特徵。
(3)應用:
能運用駕駛的原理、原則、知識,駕駛一種廠牌的汽車。
(4)分析:
能拆卸一種廠牌汽車的零件,分辨其功能。
(5)評鑑:
能判斷何種廠牌的汽車性能最優越。
(6)創造:
能創新一種汽車的零件或廠牌。
2.技能領域:
駕駛技術純熟,從不違規。
3.情意領域:
能心平氣和,遵守交通規則,小心駕駛,照顧自己,關心別人。
(三)評量方式多元
評量的方式約可分為四種:
1.口試或筆試,如論文式問題、簡答式問題、口頭辯論、訪談等。
2.成品製作,如美術工藝作品、學習檔案紀錄、研究報告等。
3.實作演示,如實驗、操作、表演、朗讀、修理、開車等。
4.選擇答案,如多重選擇或是非題、電腦化測驗等。
(4)評量情境多元
評量不限於固定的場所,教室內、教室外、校園內、校園外,都可視實際
的需要,進行教學評量。
譬如交通安全測驗,不能只在教室紙筆測驗,尚應觀
察學生在馬路上的行為,是否遵守交通規則,有無違規情事?
又如英語會話
測驗,教師也可利用電話,與學生用英語交談,亦可測出英語會話的能力。
學校是社會的縮影;教育即生活。
學校環境應佈置具有教育意義的生活環
境。
譬如學校可設計模擬超級市場,陳放各種日常生活用品諸如:
肉類、食品、
蔬菜、水果、飲料等,讓學生學習;也可把教室佈置成為模擬超級市場,當作教
學與評量的場所。
台中市立篤行國民小學教學評量即採取跨科、跨領域的方式,
結合數學、道德與健康教育等科設計模擬超級市場,要求學生進行採購的活動。
該校三年級教學評量,教師把班上學生分成幾個小組,每一組學生發給500元紙鈔,抽出題目後開始購物。
採買的食物,必須符合均衡飲食的原則。
結帳時則要正確付款,同時自行找錢。
每個過程,同組學生都要相互討論:
一餐的飲食是否
均含有蛋白質、脂肪、維生素、澱粉、礦物質、水份等,及預算是否夠用等問題。
教師從中評量學生的學習成果(葉志雲,1999.12.15)。
譬如學生買的食品不均衡,
都是吃了會發胖的食物,則健康教育不及格;要是價錢算錯,數學不及格;如果
「以少報多」,道德教育就算不及格。
此種評量方式,兼顧過程與結果,統整多
元智慧,融合有關學科,真正寓「教」於「樂」。
(5)評量次數多元
評量是繼續不斷的歷程。
它不是一個月考一次或一學期考幾次而已。
認真
的教師教學前通常會問學生幾個問題,實施診斷性評量(diagnosticevaluation),
以瞭解學生的起點行為(enteringbehavior);教學中隨時檢查學生是否聽得懂,實
施形成性評量(formativeevaluation),以掌握學生學習的狀況;教學後教師應統整
教材,實施總結性評量(summativeevaluation),以檢驗學生是否達成教學目標。
教學評量多元化也可指次數多元。
譬如,某校月考或期考考完,學生覺得成
績不滿意,可向學校教務處登記,再考一次。
以成績最高的那次分數計算,但題
目不一樣,難易度卻相同。
一些在及格邊緣的學生自認只要再努力一點,就會及
格,要求再考一遍。
另有些自認有80分以上實力的學生,卻只考到65分,也要
求再考一遍。
果然,這些學生第二次考試的成績普遍都有進步。
原來他(她)們
都進行自我補救教學,把疏忽的地方改正過來,沒唸熟的地方,徹底把它弄懂。
此種評量方式頗能引導學生進步,提升其程度與水準。
(6)評量人員多元
教學評量不純粹是教師的事。
它涉及教師、學生、家長及有關學校行政人
員。
因此,教學評量可由學生自我評量、同儕評量、教師評量、家長評量。
評量
人員增加,評量的效度、信度就提高。
茲以自我評量為例,說明如次:
平常考試完畢,教師可把試卷發給學生,要求他(她)們根據正確的答案,
評閱自己的試卷,打分數。
在評量的過程中,學生可以真正瞭解自己做錯的地方,
而尋求改進。
但也有學生塗改答案,企圖矇騙教師,以求較高的分數。
針對此種
情況,教師可改變評量技術。
考完後,教師先把每位學生的試卷答案影印下來,
然後再把試卷發還給學生,要他(她)們打分數。
俟收回後,再行核對試卷與原
先影印下來的試卷,有無塗改,即可知道班上哪些學生不誠實,考試會作弊。
因
此,自我評量不僅可幫助學生瞭解自己,也可當作誠實測驗。
教師如要知道班上
學生考試是否會舞弊,使用此法,不誠實的學生也就無所遁形。
通常有些學生自我評量時,表現平庸卻為自己打很高的分數;亦有學生表現優異,卻為自己打很低的分數。
這顯示學生的價值判斷呈現兩極化。
前者表現出很有自信心,但也看出此類學生有優越感,不切實際、浮華不實的個性;後者表現出缺乏自信心,而且有自卑感,妄自菲薄,總以為自己不如人。
這些都是一般教學評量不易評量到的地方。
同儕評量可提供學生互相學習的機會。
譬如檔案紀錄評量,教師可讓學生互相觀摩,俾能「見賢思齊,見不賢而內自省」,而且可以培養學生評鑑的能力。
學生三五成群相互評量也可以培養學生的價值判斷能立即做決定的能力。
然而,自我評量及同儕評量僅是評量的歷程,不能當作評量的結果。
學生的學習表現最後應由教師確認。
(7)評量答案多元
評量的題型日趨多元,答案也朝向多元。
多重選擇題從中選擇正確的答案,
即是一個明顯的例子。
正確答案也許不只一個,此種題型頗能給予學生較多的思
考空間。
小班教學注重創造能力的培養。
評量也應該多採擴散式思考(divergentthinking)不宜侷限於封閉式的固定答案。
下列問題可供學生思考:
1.請用4,6,7,2等4個數字,把它們放在下列4個空格內,使它的和
最大?
(Shepard,1995)
□□
+□□
___________
□□□
正確答案:
72及64;或74及62。
2.□+□=5可能有幾種不同的答案?
正確答案:
無限個。
整數有:
0,5;5,0;1,4;4,1;2,3;3,2等。
其他答案尚有小數、分數、正、負數…..等。
2、多元評量的理論基礎
教師為何要用多元評量的途徑評量學生的學習成就?
多元評量的途徑為何受到學校的重視?
要探討這些問題,可從近數十年來心理學家、哲學家、社會學家、及教育家們的研究,看出端倪。
下列六種學說及理念說明多元評量的重要性,也奠定多元評量的理論基礎,多元評量乃應運而生。
(1)多元智慧理論
Gardner(1983)指出人類的智慧至少有七種:
邏輯--數學的(logical-mathematical)、語文的(linguistic)、音樂的(musical)、空間的(spatial)、肢體--動覺的(bodily-kinesthetic)、知己的(intrapersonal)、及知人的(interpersonal)智慧。
後來,他又提出第八種智慧--自然觀察的智慧(thenaturalist)(Gardner,1995)。
Gardner的多元智慧理論給學校教育人員一個重要啟示:
3R’s教育或核心課程雖有一席之地,藝能科目諸如音樂、美術、體育、及社團活動例如交友及人際關係仍不可偏廢。
人生中有許多的際遇與機會。
擅長跳舞、歌唱、打球、烹調、機械操作者可以登上世界的舞臺,揚眉吐氣。
對於中途輟學或不擅於傳統紙筆測驗的學生,學校如果能改用另類評量,給予表現的機會,照樣會有揮灑的空間。
因此,教師若要開發人礦,啟發學生的潛能,就要善用多元評量。
(2)學習型態理論
學習型態(learningstyles)係指學生學習偏好的方式,也可界定為「個人認識及處理資訊的形式」(Kellough&Kellough,2003:
29)。
Riessman(1966)從感官的觀點,研究學生的學習型態,發現每位學生都有不同的學習型態。
他把學習型態分為三種類型:
(一)視覺型(reading):
此類學生視覺反應敏銳,善於閱讀,一目十行,過目不忘;
(二)聽覺型(listening):
此類學生聽覺反應靈敏,長於傾聽,輕聲細語,風吹草動,都可聽得一清二楚;(三)動作型(doing):
此類學生手腳特別靈活,敏於操作,喜歡打球、運動、吹奏樂器、做實驗、及操作機械等。
學生偏愛的學習型態取決於遺傳與環境因素。
有些學生在正式場合學習成效最好,另有些學生喜歡在非正式、輕鬆的場合學習,亦有些學生需要按部就班地學習。
學習型態會隨著環境的因素而改變。
教師的教學與評量應該採取多面向的角度看待學習型態。
因此,教師應該運用觀察法及非正式的途徑去判斷學生的學習型態。
教學評量宜設計各種不同的情境,評量學生的能力與表現。
(3)社會互動理論
依據建構主義(constructivism)論者的研究,瞭解(understanding)存在於環
境的互動中(Savery&Duffy,1995)。
換言之,學習是在環境的互動中產生的。
環境包括學生周遭的人、時、地、事、物。
在學校的環境裡,影響最大的因素包括:
1.教師與學生之間的互動,2.學生與學生之間的互動,3.校園景觀與學生之間的互動,4.學校設施與學生之間的互動,5.學校組織氣氛與學生的互動,6.生活經驗與學生之間的互動(張清濱,2008a:
233-234)。
教師教學評量時往往著重課堂內的學習,而忽略課堂外,甚至校園外的學習活動。
因此,教學評量應與生活情境相結合。
(4)行為目標分類
行為目標(behavioralobjectives)是一種操作型的目標陳述。
它是以學生的行為,準確地描述教學後期望學生獲得可觀察的學習結果及標準(張清濱2009:
150)。
這些目標可依學習領域及層次分為:
認知領域cognitivedomain)、情意領域(affectivedomain)、及技能領域(psycho-motordomain)。
行為目標的分類成為建立測驗題庫及測量各種教育目標的工具。
Bloom(1956)首先提出此一理念,延攬一群美國測驗專家於1949年開始進行研究,終於在1956年出版教育目標的分類第一冊。
他們把認知領域的