史丹佛法學院震撼研究：盲測中 75% 教授偏好 AI 回答，勝過同儕親筆撰寫

史丹佛法學院教授 Julian Nyarko 領導的一項開創性研究顯示，法學教授在盲測中壓倒性地偏愛 AI 生成的學生問題回答，勝過同儕教授親手撰寫的答案——這項發現可能徹底改變法律教育的授課方式。

這份名為《法學教授偏好 AI 而非同儕答案》（Law Professors Prefer AI Over Peer Answers）的研究，邀集了全美 16 位法學院教授參與，測試大型語言模型能否勝任合約法課程的輔導工作。

在將近 3,000 次匿名比較的盲測評比中，教授們給 AI 回應的評分顯著高於其他教授撰寫的答案，AI 在正面對決中拿下 75% 的勝率。「這項研究挑戰了人們對 AI 在法律教育中角色的重要假設，」Nyarko 表示，他同時主持史丹佛法學院的「前沿科技法律創新實驗室」（Legal Innovation through Frontier Technology Lab，簡稱 liftlab）。他與耶魯、紐約大學、芝加哥大學等頂尖機構的同僚共同撰寫了這份論文。「我們選擇以法律為研究對象，正是因為這個領域需要判斷力、縝密推理，以及在模糊情境中游刃有餘的能力——而不只是事實記憶。」

AI 真的能推理嗎？

這項研究特別值得關注的原因在於，過去 AI 的評測大多聚焦在有明確對錯的學科。相較之下，法律推理要求對互相競爭的論點進行細緻分析，並得出站得住腳的結論。

「坦白說，結果的懸殊程度令我們感到驚訝，」Nyarko 補充。「這些題目並非簡單到有標準答案。許多題目需要綜合複雜材料、應用於新情境，並以有助於學生培養自身分析能力的方式解釋法律概念。」

參與者設計了 40 道合約法課程中學生下課後或課後輔導時間可能會問的代表性問題，親自撰寫自己的答案，然後在不知道答案來自 AI 還是其他參與教授的情況下進行評比。AI 系統的表現與研究中最佳的人類教師旗鼓相當。

或許最驚人的一點是：教授們僅在 3.5% 的情況下將 AI 回應標記為「教學上具傷害性」，而同儕撰寫的答案被標記的比例則為 12%。

「在大多數 AI 受測的領域，都有所謂的標準答案。但在法律領域，往往沒有，」共同作者、耶魯法學院教授 Sarath Sanga 說。「兩種對立論點都可以是好的。我們想知道的是，AI 能否達到律師用來評價彼此論點的那種潛在專業標準。在這個案例中，答案是肯定的。」

研究團隊採取多項嚴密措施以確保研究效度。他們將 AI 回應的長度與結構校準到與人類答案一致，採用多種評估方法，並請教授評估回應是否可能誤導或混淆學生。

翻轉法律教育

「我們把這項研究設計得盡可能嚴謹，因為後果實在太重大，」Nyarko 解釋。「法律教育的目的是訓練未來律師進行批判思考、有說服力地論辯，並駕馭倫理複雜性。我們的研究朝著釐清 AI 能否支持這項使命邁出了重要一步。」

第一作者、隸屬 Nyarko 旗下 liftlab 的研究員 Alejandro Salinas 強調了這項研究的教育意涵：「我們的研究把焦點轉向 AI 輔導在法律這類需要高度判斷力的學科中能帶來什麼貢獻。我們發現，當由法律教育者評估時，AI 導師能提供高品質、隨時可得的支援，補足課堂教學，並可能擴大取得專業指導的機會。」

研究也檢視了特定的 AI 模型，包括商業家教系統與 Google 的 NotebookLM，發現表現各有高低。然而，即使在 AI 因上下文長度限制而表現受限的情況下，教授仍經常偏好 AI 而非人類撰寫的版本。

這項研究發表之際，全美法學院正努力在維持嚴謹學術標準的同時，將 AI 工具整合進法律教育。部分機構已擁抱 AI 實驗，其他機構則對幻覺、過度依賴、批判思考能力弱化等潛在風險保持警戒。

「我們的研究評估的是 AI 工具所給答案的品質。但如何導入這些工具才能最有效提升學生學習，仍是個開放性問題。因此我們並不主張全面採用 AI 導師，」Nyarko 提醒。「但我們的資料顯示，全面懷疑同樣缺乏根據。對話的重點應從『AI 能否給出準確、高品質的回應』轉向『我們如何負責任地部署 AI，以造福我們的學生』。」

關於 liftlab

liftlab 是最早將研究、原型設計與產業界即時協作結合的法律 AI 學術計畫之一。其使命是利用 AI 與其他前沿科技，提升私部門取得高品質法律服務的機會。為了縮短理論與實務之間的距離，liftlab 的工作超越純概念探討，實際建構原型以探索 AI 解決方案的實用性。

關於史丹佛法學院

史丹佛法學院是世界頂尖的法律學術與教育機構之一。其校友是法律、政治、商業與高科技領域最具影響力的決策者之一。教師們在最高法院出庭辯護、向國會作證、產出傑出的法律學術與實證分析，並定期以法律與政策專家身分為國家媒體撰稿。史丹佛法學院建立了一種法律教育模式，提供嚴謹的跨領域訓練、實作經驗、全球視野以及對公共服務的重視。

Reddit 熱門留言 (5)

#1 HackerNews 用戶 ▲ 412

75% 偏好 AI 真的很驚人，但這是否代表 AI 真的『更會教』，還是它給出的答案本來就傾向於面面俱到、人畜無害，而這恰好符合多數教授的口味？

#2 HackerNews 用戶 ▲ 287

作者群來自史丹佛、耶魯、NYU、芝加哥——這基本上是法學界的 F4。研究本身設計也滿嚴謹，3,000 次盲測比對夠大。

#3 HackerNews 用戶 ▲ 198

『AI 僅 3.5% 被標記為教學有害 vs 教授同儕 12%』——這個對比才是這篇最可怕的數字。不是 AI 多神，是人類教授自己寫的東西也常常誤導學生。

#4 HackerNews 用戶 ▲ 156

我倒不意外。法律寫作的本質就是結構化論證，LLM 在這方面本來就是強項。真正的考驗是實戰：寫訴狀、辯論、面對法官追問。

#5 HackerNews 用戶 ▲ 89

作者本人也說了，不主張全面採用 AI 導師。但這個研究確實把『AI 不能做需要判斷力的工作』這個敘事打掉了一塊。