AI 導師的黃金證據：哈佛物理 RCT

一句話重點

哈佛一項 194 名物理大學生的 crossover RCT 顯示，建立在「主動學習」原則上的 AI 導師，比傳統課堂主動學習教學讓學生學得更多、效果量達 0.73~1.3 SD，且花的時間更少——關鍵不在「用 AI」，而在 AI 是否會逐步引導、提問與即時回饋。

研究發現了什麼

Kestin, Miller, Klales, Milbourne 與 Ponti（2025）發表於 Scientific Reports（Nature 旗下，15:17458）的研究，以哈佛 194 名物理大學生進行 crossover 隨機對照試驗（RCT）。研究者自製了一套 AI 導師「PS2 Pal」，與課堂中由教師帶領的主動學習對照，兩組教授完全相同的內容。

結果相當突出：AI 組學得顯著更多，效果量落在 0.73~1.3 個標準差（大效果），學習增益超過控制組的兩倍。更難得的是，AI 組花的時間還更少（49 分鐘 vs 60 分鐘）。

中位後測分數：AI 組 4.5 vs 控制組 3.5
組間差異經 Mann-Whitney 檢定，p<10⁻⁸（極顯著）

研究者反覆強調的關鍵設計：這套 AI 導師刻意建立在與課堂相同的「主動學習」教學原則上——逐步引導、向學生提問、給予即時回饋，而不是單純把答案告訴學生。換言之，AI 之所以有效，是因為它複製了好的教學法，而非因為它是 AI。

外推限制：這不是「AI 教學的普世效果量」

本研究為哈佛單一族群、僅兩週的短期介入、由作者自行打造的導師，且可能存在新奇效應。這些漂亮的數字反映的是「一套設計良好的引導式 AI 導師，在特定情境下的表現」，不可外推成「只要用 AI 就能拿到 0.73~1.3 SD」。換到不同學科、不同學生母群、長期使用後，效果量很可能會收斂。

教師可以怎麼做

把「主動學習」寫進 AI 的指令

在 AI 導師的 system prompt 明確要求它逐步引導、先提問再揭示、給即時回饋，並禁止直接給最終答案，重現本研究 PS2 Pal 的核心設計。

內容對齊、變因受控

讓 AI 導師教與你課堂相同的內容。研究的可信度來自「兩組教一樣的東西」，課堂實作時也應確保 AI 與教學進度同步。

設計前後測量學習增益

本研究的證據是後測分數。請在介入前後各做一次小測驗，用增益（gain）而非單次分數來判斷成效。

用 crossover 設計兼顧公平

讓全班輪流體驗 AI 導師與傳統教學，既能比較成效，又避免「只有一半學生享受到好處」的倫理問題。

同時記錄學習時間

AI 組用更少時間（49 vs 60 分）達到更好成績。除了分數，也別忘了測量效率。

搭配 Uedu 工具

ClassroomGPT + RAG 頻道知識庫

用 ClassroomGPT 重現本研究的「逐步引導式 AI 導師」：在 system prompt 寫入主動學習原則（先提問、給線索、即時回饋、不直接給答案），並把課程教材上傳到 RAG 頻道知識庫，讓 AI 的引導緊扣你課堂教的相同內容，而非泛泛而談。成效指標設為：前後測增益，以及與傳統教學交叉（crossover）的後測差。

線上測驗系統 + Bloom 認知層次分析

用線上測驗系統與 AI 自動出題快速產出對齊內容的前後測題組，並用 Bloom 認知層次分析檢視 AI 引導是否真的把學生推向更高的認知層次，而不只是記憶。

一個可立即試做的小活動

挑一個你課堂最常見的物理／概念迷思，在 mygpts 自建一個頻道，於 system prompt 寫上「用蘇格拉底式提問引導學生自己推導，絕不直接給答案」。讓半數學生先用它、半數先聽傳統講解，兩週後比較雙方的後測中位數，親手複製一次這個 crossover 設計。

結語

哈佛的 RCT 給了我們目前最硬的證據：AI 導師之所以能贏過課堂，不是因為它是 AI，而是因為它把「主動學習」做對了。把好的教學原則寫進 AI、用前後測誠實量測、並對單一族群短期結果保持謙遜——這才是把這份 0.73~1.3 SD 轉化為自己課堂可信成效的正確路徑。

給教師的提醒：本文為教學參考，所引研究多為特定情境（學科、國別、班級規模）下的質性或相關性研究，其「教學功能」與「策略」屬於可遷移的原則而非保證成效的處方。請依您的學科特性、學生組成與課程目標調整運用。

--

2

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定