模拟场景
周三上午10:00。Diana Rivera在主会议室召开了紧急审查会议。潜在客户的会议已以含糊的借口推迟。Sarah Park打印了AI生成的备忘录和她的Westlaw验证结果,显示三条伪造的引用和混淆的法规分析。Marcus Chen被要求带着他的笔记本电脑和AI对话记录出席。James Whitfield博士准备了他两个月前提交但从未被实施的AI治理建议的一页摘要。在场的每个人都知道这本可以是一场灾难。现在的问题是接下来该怎么办。
利益相关者与角色
modules.m3.simulation.stakeholdersSubtitle
Diana Rivera——管理合伙人
角色简介
倡导了AI计划,现在面对实施不足的后果。必须在问责与士气以及律所持续AI采用之间取得平衡。
目标
- 在不制造替罪羊的情况下确定适当的问责
- 建立即时保障措施以防止再次发生
- 在恢复信心的同时保持律所的AI采用势头
约束条件
下周必须向过失保险公司报告。知道过度反应可能导致员工完全放弃AI工具,而反应不足可能导致真正的事件发生。
专属信息
Diana收到了另一名律师助理的匿名电子邮件,称AI生成的备忘录在至少两件其他案件中已发送给客户,未经任何律师验证。她尚未确认这是否属实。
Marcus Chen——资深律师助理
角色简介
生成备忘录的律师助理。经验丰富、工作超负荷且深感尴尬。知道AI工具的使用方式与大多数员工一直以来的使用方式完全相同。
目标
- 证明工作流程失败是系统性的,而非个人的
- 保护自己的专业地位和继续就业
- 在新AI协议的同时倡导合理的工作量期望
约束条件
知道承认问题的系统性可能牵连同事,但保持沉默会使自己成为唯一的替罪羊。
专属信息
Marcus有聊天记录显示AI工具自身的文档建议'始终对照权威数据库验证法律引用'——这一警告未包含在律所的培训材料中。他还知道其他两名律师助理一直在做同样的事。
Sarah Park——律师助理
角色简介
分配备忘录任务并发现错误的律师。松了一口气但意识到自己在委派失败中的角色。受到合伙人施压以最大化AI驱动效率。
目标
- 确立委派是合理的但验证漏洞不是
- 推动明确的任务分配协议,指定辖区、深度和验证期望
- 解决激励偷工减料的时间压力文化
约束条件
她汇报的合伙人明确告诉律师助理'让AI做初稿,你只需要润色一下就行了。'提出这一点可能损害她的地位。
专属信息
Sarah在验证过程中发现,伪造的案例之一实际上使用了真实的案名,但事实和裁判结果完全不同。AI取用了一个真实的引用,却附上了伪造的内容——这是比简单伪造更复杂的幻觉形式。
James Whitfield博士——质量保证负责人
角色简介
律所的AI治理专家,自入职以来一直倡导更严格的协议。有一份全面的治理提案已提交但从未被审查。
目标
- 利用这一事件实施他一直在提议的治理框架
- 建立正式的AI事件审查和报告流程
- 获得持续AI能力评估的预算和权限
约束条件
必须以建设性而非惩罚性的方式提出改革以维持员工的认同。知道过于繁琐的协议会像原始指南一样被忽视。
专属信息
James已将律所的AI实践与15家类似规模的律所进行了基准对比。Rivera & Goldstein在AI治理成熟度方面排名后四分之一。他还发现企业AI供应商最近更新了其服务条款,加入了律所尚未审查的责任限制条款。
规则
时长
共60-90分钟,分为三个阶段
沟通方式
公开讨论形式;Diana主持会议并管理发言顺序。参与者可以直接相互交流,但必须保持角色。
决策方式
会议必须产出三项书面成果:(1)问责认定,(2)今天即时生效的流程变更,(3)30天行动计划。Diana拥有最终决定权,但必须获得至少两名其他参与者的共识。
阶段
事件审查(20分钟)
Diana开启会议并请每位参与者陈述所发生事情的经过。Marcus介绍他的过程,包括他使用的确切提示词。Sarah解释她如何发现错误以及具体出了什么问题。James展示他的治理评估。每人4-5分钟。暂不进行交叉质询——此阶段旨在确立事实。
根本原因分析与问责(25分钟)
关于出了什么问题以及谁应承担责任的公开讨论。参与者可以有策略地透露独占信息。Diana必须在个人问责和系统性改革之间导航。关键张力:是Marcus未做验证的错?Sarah模糊委派的错?Diana在没有治理的情况下倡导采用的错?还是律所忽视James提案的错?
决议与改革(20分钟)
小组必须就三项交付成果达成一致:问责认定(对个人的后果,如有的话)、即时流程变更(今天改变什么)和30天行动计划(律所将在一个月内实施什么)。每位参与者为自己的优先事项辩护。Diana必须达成共识并做出最终决定。
modules.m3.simulation.simVariationsTitle
- 如果备忘录到达了客户手中会怎样?假设Sarah没有发现错误,备忘录被转发给了潜在客户,客户随后基于夸大的评估聘请了律所,重新回放这一场景。问责的计算方式如何改变?
- 如果匿名举报是真的会怎样?在第二阶段期间,Diana透露了关于未经验证的AI备忘录在其他案件中已发送给客户的匿名邮件。问题是系统性的。当事件不再是孤立的时,小组如何应对?
- 如果Marcus反击会怎样?在问责讨论中,Marcus透露施压律师最大化AI效率的合伙人曾直接告诉他:'就让AI处理吧,这就是我们花钱买它的原因。'这如何改变责任分析?
总结讨论
modules.m3.simulation.debriefSubtitle
关于提示词设计
- Marcus原始提示词的哪些具体元素导致AI产出了伪造的输出?
- 您会如何不同地构建提示词?写出您的改进版本。
- 期望每个律师助理都成为专家级提示词工程师是否现实?如果不是,什么制度性解决方案有帮助?
- 您如何区分因提示词不好而错误的AI输出与尽管提示词良好但仍然错误的AI输出?
关于监督与验证
- AI生成的工作成果是否应受到与人工生成的工作成果不同的验证标准?为什么或为什么不?
- 如何在不使AI工具比手动研究更慢的情况下将验证内置到工作流中?
- 分配任务的律师在指定如何将AI用于委派任务方面应扮演什么角色?
关于组织文化
- 时间压力和效率指标的文化如何助长了AI相关风险?
- 鼓励AI实验和执行质量控制之间的正确平衡是什么?
- 律所是否应该像衡量AI采用率一样严格地衡量AI输出质量?
- 如何为报告AI相关错误和险些酿成事故创造心理安全感?
关于您自己的实践
- 您是否曾在未验证每一条引用的情况下使用AI工具进行研究?是什么让您信任了输出?
- 您的组织是否有明确的AI辅助法律研究协议?如果没有,您会提议什么?
- 本来可以防止此事件发生的最重要的一个提示词工程习惯是什么?
- 说出一个您将在下周内在自己的工作流中实施的具体改变。
参考文献与来源
专业标准
- ABA《职业行为示范规则》第5.3条——关于非律师助手的责任(AI辅助工作的监督)
- ABA正式意见512(2024年)——生成式AI与胜任、保密和监督的义务
- 加利福尼亚州律师协会AI律师实践指南(2024年)——验证和监督要求
提示词工程与AI治理
- 法律提示词工程:可靠AI辅助研究的原则——Stanford CodeX(2024年)
- AALL《法律研究中使用AI的指南》(2024年)
- 国际法律技术协会——律所AI治理框架(2024年)
评论
正在加载评论...