自動寫作評閱：讓 AI 承包第一輪，教師留給高層次

一句話重點

自動寫作評閱（automated writing evaluation，AWE）最聰明的用法不是取代教師，而是承包第一輪草稿回饋：近年統合分析顯示它對寫作品質有大幅正向效果（g = 0.861），把教師的時間釋放給機器做不好的高層次回饋。

研究發現了什麼

AWE 指的是由系統自動分析學生文章並提供分數與回饋的技術，從早期的 Criterion、Grammarly 到生成式 AI 時代的各種寫作助手。它對寫作學習到底有沒有用？兩個世代的證據值得並讀。

Stevenson 與 Phakiti（2014，發表於 Assessing Writing）對早期 AWE 研究的批判性回顧給出謹慎的結論：有適度的證據顯示 AWE 回饋能改善「當下那篇文章」的品質，但幾乎沒有證據顯示效果能遷移到更廣泛的寫作能力。組內研究普遍看到分數上升與錯誤減少，組間比較的結果則參差不齊。

近十年工具成熟後，圖像明顯改變。Zhai 與 Ma（2023，發表於 Journal of Educational Computing Research）統合了 2010 至 2022 年間 26 篇研究、2,468 名參與者，發現 AWE 對寫作品質有大幅正向整體效果（g = 0.861，p < .001）。調節分析顯示：AWE 對大專階段學生的效益高於中學生，對 EFL／ESL（英語為外語／第二語言）學習者的幫助大於母語者——正是台灣大學課堂的典型情境。

但細看回饋的「強項分布」，AWE 的能與不能仍然清楚：它擅長語法、用字、格式這類表層與中層問題的即時診斷；至於論證是否成立、證據是否相干、文章對讀者是否有說服力——這些高層次修辭問題，仍是人類教師的主場。

解讀時請留意

統合分析中的 AWE 研究多以「寫作品質分數」為結果變項，且不少是組內前後測設計，效果量可能偏高；Stevenson 與 Phakiti 對「遷移證據有限」的提醒至今仍然成立。AWE 的分數本身也不宜直接當成績——把它定位為修訂歷程的工具，而非評分的權威。

教師可以怎麼做

建立「先 AWE、後教師」的兩段式回饋流程

規定學生：草稿先經過 AWE 回饋並完成一輪修訂，才能提交給教師。教師收到的版本已清除大半表層錯誤，你的時間自然流向論證與結構。

明確劃分回饋分工，並告訴學生

向學生說明：「機器看語法與清晰度，我看論點與證據。」分工透明化能避免學生把 AWE 高分誤解為文章已經完成。

要求「修訂說明」而不只是修訂

讓學生附上一段話：採納了哪些 AWE 建議、拒絕了哪些、為什麼。把被動接受回饋轉為主動判斷，這正是寫作能力遷移的關鍵機制。

教學生辨識 AWE 的誤判

挑幾個 AWE 建議錯誤或不適用的真實案例在課堂上討論。學會對機器回饋存疑，是 AI 時代寫作素養的一部分。

用延後的寫作任務檢驗遷移

學期末安排一篇不經 AWE 的限時寫作，與學期初基準相比。這能回答 Stevenson 與 Phakiti 的核心疑問：能力是真的長進了，還是只是那幾篇文章被修好了？

搭配 Uedu 工具

ClassroomGPT（課程 AI 助教）

在 ClassroomGPT 的 system prompt 中內建你的評分規準（rubric），把它調校成課程專屬的第一輪寫作回饋者：要求它先指出兩個優點、再給三個具體可改的建議、不直接改寫。搭配頻道知識庫上傳課程的寫作指引與範文，回饋就能緊扣你的標準而非泛用模板。

共編文件

讓學生在共編文件上完成草稿與修訂歷程，教師與同儕的高層次評論直接落在段落旁。版本軌跡保留了「AWE 修訂前後」的對照，學期末回顧時，每位學生都能親眼看見自己的寫作如何演化。

一個可立即試做的小活動

下一份寫作作業改為兩階段繳交：第一稿交給 AI 回饋並修訂，第二稿連同「修訂說明」交給教師。批改時只評論證與結構，表層問題一律不碰——體驗一次回饋分工後，你會很難回到過去。

結語

寫作回饋的瓶頸從來不是教師不夠用心，而是時間的分配。讓機器做它擅長的即時、耐心、不知疲倦的表層診斷，把人類的判斷力留給真正需要判斷力的地方——這不是偷懶，這是設計。

給教師的提醒：本文為教學參考，所引研究多為特定情境（學科、國別、班級規模）下的質性或相關性研究，其「教學功能」與「策略」屬於可遷移的原則而非保證成效的處方。請依您的學科特性、學生組成與課程目標調整運用。

--

2

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定