描述了人机协同的几种主要的方式。
四象限
| 人知道 |
在网上看到相关的材料,有一个说法是把AI与人交互的方式按照象限进行划分。x轴的右边是AI知道,左边是AI不知道,y轴上部分是人知道,下部分是人不知道。
第一象限:AI知道,人也知道。 这一象限表示人类与AI共享相同的知识背景和技能。对于这类任务,双方都“会”,因此沟通和协作相对直接。。典型场景包括让AI处理一些已有明确规则或大量数据支撑的标准化任务,例如润色文章、生成常规代码、清洗数据、运行基础测试等。这些事情人类也能完成,但AI往往可以更快、更高效地执行。因此,在该象限中,我们常常选择将执行权“让渡”给AI,自己从具体操作者转变为任务的设计者和质量把关人。有人形象地将这一象限称为“权力让渡区”或“解放区”,意思是把繁琐重复的工作交给AI完成,人类则晋升为指挥者和品鉴师
。例如,程序员利用代码补全工具自动生成样板代码,自己专注于架构设计和代码审核;又如文案创作者让AI润色措辞,自己负责确定内容创意和最终风格。甚至这篇blog都是AI协助生成的。
第四象限,AI知道,人不知道。 这一象限表示AI掌握了人类尚不了解或做不到的知识与能力,AI在帮助人类解答疑惑、拓展认知。典型应用是我们通过提问向AI寻求知识或方案,例如在搜索问答中咨询ChatGPT某个专业问题:人类原本不清楚答案,而AI基于海量训练数据可能知道或者能推理出答案,从而帮我们解惑,这也是AI被最常用的一个形式。又比如让AI总结一篇冗长的报告,提炼出我们尚未读过的关键信息——此时AI通过快速阅读和语言概括“学会”了报告内容,而人类从AI的总结中获得新知。这类场景下人是认知上的学生,AI扮演老师或引路人的角色。再如内容创作中,AI能生成我们想象不到的创意文本或图像(AIGC),让普通人也能触及高级作家的文笔或专业画师的风格。因此第二象限也被称为“能力外挂区”或者一个“万能知识库”,意味着AI宛如我们的外挂工具或“钢铁侠战甲”,为人类暂时补上短板、拓展认知边界。
第二象限, AI不知道,人知道。这一象限表示人类拥有某些AI尚未掌握的知识、经验或洞察。通常涉及一些无法量化或标准化的人类独特智慧,例如丰富的情感共情能力、复杂的道德判断、前沿的创造性构思、深厚的行业诀窍等,或者为提炼成数据的任务场景等等。这些是AI模型训练数据中缺乏的“盲点”。典型场景包括:企业刚制定的内部流程或专业领域的新方法论,AI尚未见过相关资料而一无所知,但从业者心里有数;又或者涉及高度语境化的决策(如结合企业文化、人性和市场直觉的战略决策),需要人类基于长期沉淀的智慧来判断。这一象限中,人类需要主动将知识传递给AI,以弥补AI的认知空白。这常通过“喂养模式”实现——例如给AI提供具体案例让它学习模式,使用检索增强生成(RAG)技术接入AI原本不知道的数据,或者提前定义好专业术语表供AI参考。通过输入这些额外信息,人类将自己的经验融入AI的提示,使其能够理解并处理那些原先只有人知道的任务。可以说,这一象限下AI是学生,人类要扮演好教师的角色,将独有的知识显性化、结构化,然后喂给AI。许多企业级应用(如将公司知识库接入大模型)正属于此象限:AI本身不知道企业内部数据,但人类可以通过微调或RAG让AI“学习”这些数据,从而使其胜任定制化的问答或分析任务。
第三象限,AI不知道,人也不知道。 这一象限代表人类和AI都处于未知领域。面对全新的问题,双方都没有现成答案,需要合作探索。这可以看作是一种开放式对话和共同创发的过程:人类发挥想象力和直觉,提出大胆的假设或创意;AI则利用强大的计算和推理能力,对这些想法进行验证、演绎,在海量可能性中寻找规律和可行方案。例如,对于尚未解明的科学难题(意识的起源、宇宙暗物质的性质等),研究者可以与AI协作,一起尝试各种理论推断,或者设计到其他几个象限的内容的不断转换。
总的来看,在人与AI交互的过程中,y轴有往左移动的趋势,x轴有往下移动的趋势。
三模式
问答,chatgpt模式,问答式交互指以对话问答为主要形式的人机互动,用户以自然语言向AI提问或下指令,AI根据请求给出回答或执行操作(通常输出文本)。ChatGPT 等对话机器人是这一模式的典型代表。交互特点: 这是最基础的人机互动形式。
协助,copilot模式,辅助式交互指AI作为嵌入式助手参与人类的工作流程,实时提供建议、补全或其他支持,但不完全接管任务。这种模式下,人和AI如同搭档协作,共同完成工作。交互特点: 辅助式AI通常集成在特定软件或环境中,根据上下文主动提供帮助,而无需每次都明确提问。例如GitHub Copilot嵌入在IDE中,会基于当前代码上下文自动建议下一段代码。相比问答式,辅助式交互中的AI参与度更高,会持续分析人正在做的事情,并适时给出辅助输出
Agent,完全自动的模式,智能体式交互(AutoGPT 等)智能体式交互是指AI以代理(Agent)的形式自主执行复杂任务,具有一定的目标规划、自主决策和行动能力。在这种模式下,人类只需给出高层目标或指令,AI智能体会像一个自治的“数字员工”一样去完成任务的各个步骤。
交互特点: 智能体式交互中的AI具备高度自主性。用户与其交互更类似于委派任务:人类提出目标,AI负责完成,过程中可能只在关键节点征求人类反馈或资源许可。以 AutoGPT 为代表的开放代理,它利用大模型来连续地思考和行动:自动将大目标分解为子任务,调用工具或执行代码,处理每一步结果,再决定下一步。整个过程循环往复,直到达到用户要求的目标或达到设定的停止条件。因此,与前两种模式相比,这里的AI已经从助手升级为“执行主体”,人类的角色退居为监控者和最后的验收者。这种模式下,人机交互不再是频繁的问答或提示,而是围绕任务进展的少量高层次沟通(例如AI在阶段性汇报或遇到障碍时再与人互动)。
适用场景: 智能体模式适合需要多步骤决策、长期运行、较少人工介入的任务。例如,市场研究代理可以被赋予“持续跟踪竞争对手动态”的目标,它会每天上网收集信息、更新报告,只有发现重大情况时才提醒人工。又比如软件运维代理承担“服务器性能监控”任务,长期自主检查日志,发现异常自动处理或通知工程师。再如AutoGPT这类工具,可以根据一句模糊指令(“写一篇关于AI趋势的文章并发布到论坛”),自己上网搜索资料、撰写初稿、注册账户发布,全流程自动化完成。这类场景中,AI像一个机器人员工,可以显著降低人类的重复劳动和时间投入。需要注意的是,目前智能体应用多在较封闭或可控的环境中表现较好,比如企业内部流程自动化、游戏中的AI角色、数据定期处理等。对于开放环境的复杂任务,现有AI智能体还在探索阶段。
局限与挑战: 尽管前景诱人,当前的智能体式AI仍有明显局限。首先,可靠性是大问题。由于AI自主决策的链条很长,每一步的误差可能累积,最终导致跑偏或陷入死循环。许多用户尝试AutoGPT后发现,它常常会卡在某个环节或者执行无意义的操作,需要人为介入调整。其次,资源消耗较高。一个持续运行的AI代理需要大量算力和API调用,成本随任务复杂度飙升。此外,部署和管理这样的智能体也门槛较高。