同儕互評：讓「評量」本身變成學習

一句話重點

同儕互評（Peer Assessment）讓學生互相評閱作品並給予回饋，本身就是一種高效的學習活動。兩個大型統合分析一致顯示：互評對學業表現有小到中度的正效果（g=0.31 至 g=0.606），效果不輸教師親自評量；更關鍵的是——搭配線上科技會放大互評的效果，這正是把互評搬上平台的直接論據。

研究發現了什麼

Double、McGrane 與 Hopfenbeck（2020）發表於 Educational Psychology Review（32 卷 2 期，481–509 頁）的統合分析，整合了 54 篇控制組研究（141 個效果量），主要發現：

整體效果：g=0.31（p<.001）——參與同儕互評的學生，學業表現平均優於控制組約三分之一個標準差。
vs 教師評量：g=0.28（p=.007）。也就是說，讓學生互評，效果不亞於老師親自批改——學生在「評別人」的過程中，自己也在學。
vs 自我評量：g=0.23，未達顯著（p=.209），互評與自評之間沒有可靠差異。
作者特別指出，互評的成效「在廣泛的情境中都相當穩健」（remarkably robust across a wide range of contexts）。

Yan 等人（2022）發表於 Educational Research Review（37 期，100484）的統合分析規模更大：175 篇獨立研究、626 個效果量、共 19,383 名參與者。結果顯示：

同儕互評 g=0.606、自我評量 g=0.585、兩者混合 g=0.448——互評與自評都是有效的介入。
最值得高教教師注意的調節變項：使用線上科技會放大同儕互評的效果，但對自我評量則不會。互評涉及作品交換、匿名、回饋傳遞等流程，平台化正好解決了紙本互評的摩擦成本。

兩個必須誠實面對的保留

第一，兩篇統合分析的效果量差距不小（g=0.31 vs g=0.606），部分原因在納入標準：Yan 等人（2022）包含重複測量設計的研究，這類設計的效果量（g=0.877）明顯高於實驗／準實驗設計（g=0.290）——引用 g=0.606 時宜知其偏高的來源。第二，「互評 vs 自評」的同研究內直接比較僅 15 篇研究、31 個效果量，作者自承統計檢定力不足，不宜據此斷言孰優孰劣。穩妥的結論是：互評至少與教師評量一樣有效，且線上化會更好。

教師可以怎麼做

1. 先給評分規準，再開始互評

互評的學習效益來自「用標準審視作品」的認知歷程。發下作業時同步公布 3–5 個向度的評分規準（rubric），並用一份範例作品帶全班試評一次，校準大家對標準的理解。

2. 每人評 2–3 份，匿名雙向

每位學生評閱 2–3 份同儕作品即可——重點不是評得多，而是認真讀、認真比對標準。採匿名降低人情壓力，讓回饋更誠實。

3. 要求「可行動的回饋」，不只給分數

規定每份評閱至少寫出一個具體優點＋一個具體修改建議。研究顯示互評的價值在「評」的歷程，純打分數會浪費這個學習機會。

4. 安排修改回合，讓回饋落地

互評後給學生 3–7 天修改期再交最終版。收到回饋卻沒有機會運用，效果會大打折扣；「初稿 → 互評 → 修改 → 終稿」才是完整循環。

5. 把流程搬上線

Yan 等人（2022）的明確發現：線上科技會放大互評效果。用平台處理作品分派、匿名、回饋遞送與紀錄，教師只需抽查回饋品質、處理爭議案例。

搭配 Uedu 工具

討論區同儕回饋＋ AI 貼文評分：互評的鷹架

讓學生把作品（短文、提案、報告摘要）發到討論區，同儕依公布的規準回覆評語；AI 貼文評分同步對貼文與回饋品質給出參考評分，作為學生回饋的「鷹架」——學生可以比對自己的評語與 AI 評分的差異，校準自己的評量眼光。共編文件則適合長篇作品的逐段批註互評。

問卷系統：結構化評分規準＋成效驗證

用問卷把評分規準做成結構化表單（各向度量尺＋開放式建議欄），系統自動彙整每位學生收到的所有評分。成效驗證可設計兩組比較：互評組 vs 教師評量組，以寫作或報告品質的前後測檢驗——Double 等人（2020）的 g=0.28 告訴我們互評不會輸給教師批改，你可以在自己的課堂重現這個比較。

一個可立即試做的小活動

下次的小作業改成「交初稿＋評兩份」：學生把 300 字初稿貼上討論區，每人依你給的三向度規準匿名回覆兩位同學（一個優點＋一個建議），三天後交修改版。一個循環就能觀察到修改版與初稿的品質差異。

結語

讓學生互相評閱，不是老師偷懶，而是把「評量」本身變成學習——跨 175 篇研究、近兩萬名學習者的證據顯示互評有 g≈0.6 的效果，54 篇控制組研究更證明它不輸教師親自批改（g=0.28）；而當互評搬上線上平台，效果還會更大。

給教師的提醒：本文為教學參考，所引研究多為特定情境（學科、國別、班級規模）下的質性或相關性研究，其「教學功能」與「策略」屬於可遷移的原則而非保證成效的處方。請依您的學科特性、學生組成與課程目標調整運用。

--

2

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定