案件
Rivera & Goldstein LLP是一家以严谨工作成果著称的30人雇佣法律所。六个月前律所采用了一款企业级AI工具时,管理合伙人Diana Rivera将其倡导为在不牺牲质量的情况下应对律所日益增长的案件量的方式。进行了培训课程。分发了指南。每个人都点了头。大多数人忘记了。
Marcus Chen,一位拥有八年经验的资深律师助理,在同时为三名律师处理任务时,收到了律师助理Sarah Park的紧急请求:为新客户接待准备一份关于州法下不当解雇索赔的初步研究备忘录。客户是一家科技公司的中层管理人员,在向人事部门举报安全违规后被解雇。Sarah需要在第二天早上客户会议前获得备忘录。
Marcus打开AI工具,输入'总结不当解雇和报复索赔的法律,包括相关案例和法定保护',然后按下回车。AI在不到两分钟内产出了一份精致的四页备忘录。它引用了三部州法律、四个联邦案例和两个州上诉法院判决。它的结论是客户在'法定和普通法理论下都有强有力的不当解雇索赔依据。'Marcus对其进行了格式化,添加了律所的信头模板,并在晚上11:47发送给了Sarah。
关键时间线
6个月前——AI工具采用
Rivera & Goldstein许可了一款企业级AI助手。为所有员工举办了培训课程。分发了书面指南,但未纳入现有工作流程或监督协议。
周二下午4:30——任务分配
律师Sarah Park分配给Marcus Chen一份关于不当解雇的初步研究备忘录,用于第二天早上的潜在客户会议。Marcus当时已在处理另外两项紧急事务。
周二晚上11:47——备忘录发出
Marcus使用一个单一的、非结构化的AI提示词生成了备忘录。他在律所信头上对其进行了格式化,并发送给Sarah,未独立验证任何引用或法律结论。
周三早上7:15——险些酿成大祸
Sarah在喝咖啡时审查备忘录,注意到引用的一个州上诉法院案例与她在该领域见过的任何判决都不匹配。她在Westlaw上查询。该案例不存在。她检查了其他引用。还有两个也是伪造的。法规分析混淆了两个不同州的保护措施。会议还有90分钟就要开始了。
为什么这很重要
没有受到制裁。没有客户受到损害。没有法庭被误导。从所有可见指标来看,什么都没发生。但Rivera & Goldstein事件揭示了比单一灾难性失败更隐蔽的东西:它暴露了AI生成的工作成果通过忙碌、人手不足的工作流程而不受质疑地通过的日常风险。Marcus并非粗心——他经验丰富、受人信任且工作超负荷。AI输出看起来与他多年来看到律师们产出的备忘录一模一样。失败不在于人;而在于提示词、流程,以及产出精致输出的工具一定在产出准确输出的假设。
情境分析
将一项常规任务转变为险些酿成大祸的系统性因素。
提示词设计失败
- 提示词未指定管辖区,使AI混淆了多个州的法律
- 未请求分析框架,产出了叙述文而非结构化的法律分析
- 提示词要求得出结论('总结法律')而非研究调查,鼓励AI做出断言而非报告
- 未指示标记不确定性或区分已确立和有争议的法律观点
工作流程漏洞
- 律所的AI辅助研究工作流程中没有内置验证步骤
- 任务委派时未指定研究哪个辖区的法律
- 时间压力激励了速度而非准确性——备忘录在数小时内而非数天内到期
- 没有为AI生成的研究输出指定或安排第二审核人
监督失败
- 分配任务的律师未指定备忘录的预期格式、深度或来源
- 没有协议要求将AI生成的工作成果标记为AI生成,以提醒审核人
- 律所的AI指南在纸面上存在,但未融入日常监督
- 律师助理的工作量未受监控——Marcus同时处理三件紧急事务
机构因素
- AI培训是一次性事件,而非持续的能力要求
- 律所衡量AI采用率但不衡量AI输出质量
- 不存在AI相关错误或险些酿成事故的事件报告机制
- 文化上庆祝AI效率提升,而未同等重视AI风险管理
利益相关者与角色
每位参与者扮演一个具有不同目标、约束和私人信息的角色。角色设计旨在讨论中产生建设性张力。
Marcus Chen——资深律师助理
角色简介
八年经验,一直被评为顶尖表现者。首次将AI工具用于实质性研究任务而非简单摘要。在接到任务时正同时处理三件紧急事务。
目标
- 证明错误是流程失败而非能力失败
- 保护自己的职业声誉和在律所的地位
- 倡导合理的工作量管理和更清晰的AI使用协议
约束条件
Marcus知道其他两名律师助理几个月来一直以同样的方式使用AI工具——单一提示词,不做验证——且未出现问题。他还没有告诉任何人这件事。
Sarah Park——律师助理
角色简介
第三年律师,在晨间审查中发现了错误。她在当天较晚时分配了备忘录任务,未指定辖区或预期来源。她庆幸自己发现了错误,但意识到她差点将备忘录转发给合伙人用于客户会议。
目标
- 承认自己在委派失败中的角色,但不接受不成比例的责任
- 推动对所有AI生成的工作成果实施强制验证协议
- 确保律所的应对措施解决系统性问题,而不仅仅是个别事件
约束条件
Sarah知道她汇报的合伙人一直在施压律师使用AI以提高可计费效率。她感到无法抵制不合理的周转时间要求。
Diana Rivera——管理合伙人
角色简介
倡导了律所的AI采用计划。真诚地相信AI对律所的竞争力至关重要,但现在正面对她的愿景与律所实施之间的差距。负责全所风险管理。
目标
- 控制声誉风险,防止事件外泄
- 实施有意义的保障措施而不扼杀律所的AI势头
- 确定适当的问责,而不将个人作为系统性失败的替罪羊
约束条件
Diana下周要与律所的过失保险公司开会。她知道保险公司一直在询问律所的AI实践。如果此事件浮出水面,保费可能大幅增加。
James Whitfield博士——质量保证负责人
角色简介
六个月前被聘来监督AI整合。前法律技术顾问,在三家Am Law 100律所有经验。从入职第一周就一直倡导更严格的协议,但被告知'先让团队熟悉工具。'
目标
- 利用这一事件实施他从第一天就一直提议的验证协议
- 建立正式的AI相关错误事件审查流程
- 获得持续AI能力培训的预算和权限
约束条件
James有一份两个月前提交给Diana的AI治理政策草案。它从未被审查。他还知道企业AI供应商的服务条款中有一项关于数据保留的条款,律所尚未全面评估。
学习活动
基于Smoother方法论的六种渐进任务类型,从事实理解到专业自我反思逐步提升。
- 阅读完整案例叙述。识别每个结果可能不同的决策点。
- 重建Marcus的原始提示词。然后写出他应该使用的提示词,识别每项具体改进。
- 绘制从任务分配到险些酿成大祸的事件链。识别所有行为者、他们的角色以及链条可能被打断的节点。
- 研究AI工具的能力和局限性。供应商的文档对法律研究准确性有何说明?
- 从Marcus的视角重写叙述:晚上11:47他在想什么?对一个处于压力下的人来说,AI输出看起来是什么样的?
- 解释为什么精致的格式使AI错误更难被发现。看起来专业的输出如何创造了虚假的可靠性感。
- 将此事件与传统律师助理研究错误进行比较。AI生成的错误与人工研究错误有什么根本不同?
- 创建利益相关者影响图:如果备忘录到达了客户手中,谁会受到影响?追溯潜在后果。
- 对照提示词工程最佳实践评估Marcus的提示词。识别每一个不足并解释其重要性。
- 评估律所的AI指南在纸面上是否充分。如果是,为什么在实践中失败?如果不是,缺少了什么?
- 分析时间压力在此事件中的作用。在真实世界的截止日期条件下,是否可能保持AI输出质量?
- 质疑验证步骤会捕捉到所有错误的假设。哪些类型的AI错误即使有验证也最难被发现?
- 设计一个三步AI辅助研究工作流,包括提示词结构化、输出验证和审核人签字。
- 为Rivera & Goldstein起草修订后的AI使用政策,针对本案中暴露的具体失败。
- 为律师助理可用作起点的常见法律研究任务创建'AI提示词模板'。
- 以您分配的角色进行事后审查会议的角色扮演。准备一份3分钟的开场陈述。
- 比较不同团队创建的AI提示词模板。哪个最能有效防止这种特定类型的错误?
- 对照真实世界的约束评估每个团队提出的工作流:时间压力、人员配置限制和成本。
- 评估修订后的AI政策:它们是否解决了根本原因还是只是症状?它们能否在忙碌的周一早上存活?
- 审查律所原始的AI指南。按清晰度、具体性、可执行性和与现有工作流整合的标准对其评分。
- 您是否曾经因为工作成果'看起来没问题'而在未完全验证的情况下提交?是什么让您信任了它?
- 这个案例如何改变了您对'负责任地使用AI'在日常实践中真正意味着什么的理解?
- 反思了解最佳实践与在压力下遵循它们之间的差距。什么系统可以帮助您弥合这一差距?
- 根据这个案例研究,确定您将在自己的AI使用工作流中做出的一项具体改变。
提示词工程实践练习
取原始失败的提示词('总结不当解雇和报复索赔的法律,包括相关案例和法定保护'),重写五次,每次改进一个具体维度:辖区具体性、分析结构、来源可靠性指令、不确定性标记和输出格式要求。比较您的五次迭代,看看每项改进如何改变AI的输出质量。
参考文献与来源
专业标准
- ABA《职业行为示范规则》第1.1条——胜任义务,关于技术胜任的评注8
- ABA《职业行为示范规则》第5.3条——关于非律师助手的责任(适用于AI工具监督)
- ABA正式意见512(2024年)——生成式AI工具与胜任、保密和监督的义务
提示词工程资源
- 法律提示词工程:可靠AI辅助研究的原则——Stanford CodeX工作论文(2024年)
- AALL《法律研究中使用AI的指南》——美国法律图书馆协会(2024年)
- Thomson Reuters实务法——AI辅助法律起草最佳实践(2024年)
评论
正在加载评论...