一句話重點
自動寫作評閱(automated writing evaluation,AWE)最聰明的用法不是取代教師,而是承包第一輪草稿回饋:近年統合分析顯示它對寫作品質有大幅正向效果(g = 0.861),把教師的時間釋放給機器做不好的高層次回饋。
研究發現了什麼
AWE 指的是由系統自動分析學生文章並提供分數與回饋的技術,從早期的 Criterion、Grammarly 到生成式 AI 時代的各種寫作助手。它對寫作學習到底有沒有用?兩個世代的證據值得並讀。
Stevenson 與 Phakiti(2014,發表於 Assessing Writing)對早期 AWE 研究的批判性回顧給出謹慎的結論:有適度的證據顯示 AWE 回饋能改善「當下那篇文章」的品質,但幾乎沒有證據顯示效果能遷移到更廣泛的寫作能力。組內研究普遍看到分數上升與錯誤減少,組間比較的結果則參差不齊。
近十年工具成熟後,圖像明顯改變。Zhai 與 Ma(2023,發表於 Journal of Educational Computing Research)統合了 2010 至 2022 年間 26 篇研究、2,468 名參與者,發現 AWE 對寫作品質有大幅正向整體效果(g = 0.861,p < .001)。調節分析顯示:AWE 對大專階段學生的效益高於中學生,對 EFL/ESL(英語為外語/第二語言)學習者的幫助大於母語者——正是台灣大學課堂的典型情境。
但細看回饋的「強項分布」,AWE 的能與不能仍然清楚:它擅長語法、用字、格式這類表層與中層問題的即時診斷;至於論證是否成立、證據是否相干、文章對讀者是否有說服力——這些高層次修辭問題,仍是人類教師的主場。
統合分析中的 AWE 研究多以「寫作品質分數」為結果變項,且不少是組內前後測設計,效果量可能偏高;Stevenson 與 Phakiti 對「遷移證據有限」的提醒至今仍然成立。AWE 的分數本身也不宜直接當成績——把它定位為修訂歷程的工具,而非評分的權威。
教師可以怎麼做
建立「先 AWE、後教師」的兩段式回饋流程
規定學生:草稿先經過 AWE 回饋並完成一輪修訂,才能提交給教師。教師收到的版本已清除大半表層錯誤,你的時間自然流向論證與結構。
明確劃分回饋分工,並告訴學生
向學生說明:「機器看語法與清晰度,我看論點與證據。」分工透明化能避免學生把 AWE 高分誤解為文章已經完成。
要求「修訂說明」而不只是修訂
讓學生附上一段話:採納了哪些 AWE 建議、拒絕了哪些、為什麼。把被動接受回饋轉為主動判斷,這正是寫作能力遷移的關鍵機制。
教學生辨識 AWE 的誤判
挑幾個 AWE 建議錯誤或不適用的真實案例在課堂上討論。學會對機器回饋存疑,是 AI 時代寫作素養的一部分。
用延後的寫作任務檢驗遷移
學期末安排一篇不經 AWE 的限時寫作,與學期初基準相比。這能回答 Stevenson 與 Phakiti 的核心疑問:能力是真的長進了,還是只是那幾篇文章被修好了?
搭配 Uedu 工具
在 ClassroomGPT 的 system prompt 中內建你的評分規準(rubric),把它調校成課程專屬的第一輪寫作回饋者:要求它先指出兩個優點、再給三個具體可改的建議、不直接改寫。搭配頻道知識庫上傳課程的寫作指引與範文,回饋就能緊扣你的標準而非泛用模板。
讓學生在共編文件上完成草稿與修訂歷程,教師與同儕的高層次評論直接落在段落旁。版本軌跡保留了「AWE 修訂前後」的對照,學期末回顧時,每位學生都能親眼看見自己的寫作如何演化。
下一份寫作作業改為兩階段繳交:第一稿交給 AI 回饋並修訂,第二稿連同「修訂說明」交給教師。批改時只評論證與結構,表層問題一律不碰——體驗一次回饋分工後,你會很難回到過去。
結語
寫作回饋的瓶頸從來不是教師不夠用心,而是時間的分配。讓機器做它擅長的即時、耐心、不知疲倦的表層診斷,把人類的判斷力留給真正需要判斷力的地方——這不是偷懶,這是設計。