史丹佛法學院教授 Julian Nyarko 領導的一項開創性研究顯示,法學教授在盲測中壓倒性地偏愛 AI 生成的學生問題回答,勝過同儕教授親手撰寫的答案——這項發現可能徹底改變法律教育的授課方式。
這份名為《法學教授偏好 AI 而非同儕答案》(Law Professors Prefer AI Over Peer Answers)的研究,邀集了全美 16 位法學院教授參與,測試大型語言模型能否勝任合約法課程的輔導工作。
在將近 3,000 次匿名比較的盲測評比中,教授們給 AI 回應的評分顯著高於其他教授撰寫的答案,AI 在正面對決中拿下 75% 的勝率。「這項研究挑戰了人們對 AI 在法律教育中角色的重要假設,」Nyarko 表示,他同時主持史丹佛法學院的「前沿科技法律創新實驗室」(Legal Innovation through Frontier Technology Lab,簡稱 liftlab)。他與耶魯、紐約大學、芝加哥大學等頂尖機構的同僚共同撰寫了這份論文。「我們選擇以法律為研究對象,正是因為這個領域需要判斷力、縝密推理,以及在模糊情境中游刃有餘的能力——而不只是事實記憶。」
AI 真的能推理嗎?
這項研究特別值得關注的原因在於,過去 AI 的評測大多聚焦在有明確對錯的學科。相較之下,法律推理要求對互相競爭的論點進行細緻分析,並得出站得住腳的結論。
「坦白說,結果的懸殊程度令我們感到驚訝,」Nyarko 補充。「這些題目並非簡單到有標準答案。許多題目需要綜合複雜材料、應用於新情境,並以有助於學生培養自身分析能力的方式解釋法律概念。」
參與者設計了 40 道合約法課程中學生下課後或課後輔導時間可能會問的代表性問題,親自撰寫自己的答案,然後在不知道答案來自 AI 還是其他參與教授的情況下進行評比。AI 系統的表現與研究中最佳的人類教師旗鼓相當。
或許最驚人的一點是:教授們僅在 3.5% 的情況下將 AI 回應標記為「教學上具傷害性」,而同儕撰寫的答案被標記的比例則為 12%。
「在大多數 AI 受測的領域,都有所謂的標準答案。但在法律領域,往往沒有,」共同作者、耶魯法學院教授 Sarath Sanga 說。「兩種對立論點都可以是好的。我們想知道的是,AI 能否達到律師用來評價彼此論點的那種潛在專業標準。在這個案例中,答案是肯定的。」
研究團隊採取多項嚴密措施以確保研究效度。他們將 AI 回應的長度與結構校準到與人類答案一致,採用多種評估方法,並請教授評估回應是否可能誤導或混淆學生。
翻轉法律教育
「我們把這項研究設計得盡可能嚴謹,因為後果實在太重大,」Nyarko 解釋。「法律教育的目的是訓練未來律師進行批判思考、有說服力地論辯,並駕馭倫理複雜性。我們的研究朝著釐清 AI 能否支持這項使命邁出了重要一步。」
第一作者、隸屬 Nyarko 旗下 liftlab 的研究員 Alejandro Salinas 強調了這項研究的教育意涵:「我們的研究把焦點轉向 AI 輔導在法律這類需要高度判斷力的學科中能帶來什麼貢獻。我們發現,當由法律教育者評估時,AI 導師能提供高品質、隨時可得的支援,補足課堂教學,並可能擴大取得專業指導的機會。」
研究也檢視了特定的 AI 模型,包括商業家教系統與 Google 的 NotebookLM,發現表現各有高低。然而,即使在 AI 因上下文長度限制而表現受限的情況下,教授仍經常偏好 AI 而非人類撰寫的版本。
這項研究發表之際,全美法學院正努力在維持嚴謹學術標準的同時,將 AI 工具整合進法律教育。部分機構已擁抱 AI 實驗,其他機構則對幻覺、過度依賴、批判思考能力弱化等潛在風險保持警戒。
「我們的研究評估的是 AI 工具所給答案的品質。但如何導入這些工具才能最有效提升學生學習,仍是個開放性問題。因此我們並不主張全面採用 AI 導師,」Nyarko 提醒。「但我們的資料顯示,全面懷疑同樣缺乏根據。對話的重點應從『AI 能否給出準確、高品質的回應』轉向『我們如何負責任地部署 AI,以造福我們的學生』。」
關於 liftlab
liftlab 是最早將研究、原型設計與產業界即時協作結合的法律 AI 學術計畫之一。其使命是利用 AI 與其他前沿科技,提升私部門取得高品質法律服務的機會。為了縮短理論與實務之間的距離,liftlab 的工作超越純概念探討,實際建構原型以探索 AI 解決方案的實用性。
關於史丹佛法學院
史丹佛法學院是世界頂尖的法律學術與教育機構之一。其校友是法律、政治、商業與高科技領域最具影響力的決策者之一。教師們在最高法院出庭辯護、向國會作證、產出傑出的法律學術與實證分析,並定期以法律與政策專家身分為國家媒體撰稿。史丹佛法學院建立了一種法律教育模式,提供嚴謹的跨領域訓練、實作經驗、全球視野以及對公共服務的重視。
Reddit 熱門留言 (5)