
最近几个月AI Agent 的热度居高不下从 GitHub 上的开源框架到各大厂的发布会似乎不谈 Agent 就落伍了。与此同时一个更贴近普通人的问题浮出水面AI Agent 和手机到底该怎么结合很多人第一反应是这不简单吗做个 App把大模型塞进去让用户能聊天、能生成图片不就是“手机 AI Agent”了或者让 Agent 能控制手机自动帮你点外卖、抢票、回消息。如果你也这么想那可能从一开始就走错了方向。这就像在智能手机时代试图把 PC 上的软件直接移植到触屏手机上结果往往是水土不服。今天市面上很多所谓的“手机 AI 应用”本质只是一个带聊天界面的模型客户端或者一个预设流程的自动化脚本离真正的“智能体”相去甚远。真正的结合点远不止一个“App壳大模型”那么简单。它关乎交互范式的重构、个人数据隐私的平衡、以及云端智能与本地算力的协同。本文将抛开那些华而不实的噱气从技术实现和产品逻辑出发为你拆解手机与 AI Agent 结合哪些路是死胡同哪些才是值得投入的活路。读完本文你将获得对“手机 AI Agent”核心价值的清晰判断避免被概念误导。三种主流技术路线的深度剖析云端服务型、设备端模型型、混合智能型及其实现原理。一个可实操的、基于流行框架的轻量级手机端 Agent 原型开发指南。开发中必须规避的“坑”与面向未来的最佳实践建议。1. 为什么“App里聊个天”不是真正的手机 AI Agent在深入技术之前我们必须先统一认知什么不是手机 AI Agent。误区一聊天机器人 App ≠ Agent。一个只能进行多轮对话、生成文本或图像的 App它只是一个交互界面。真正的 Agent 核心能力是“感知-思考-执行”的自主循环。它需要理解你的意图不仅仅是文字规划步骤并调用工具API、系统能力、其他App去完成任务。比如你说“帮我订明晚七点公司附近人均200的日料并通知小李”一个真正的 Agent 需要理解时间、地点、预算、菜品偏好调用地图API找餐厅调用订座API读取通讯录找到“小李”调用短信或社交App发送通知。这远非聊天能涵盖。误区二手机自动化工具 ≠ Agent。像 iOS 快捷指令或 Android 的 Tasker能执行复杂的自动化流程但它们缺乏“思考”能力。流程是预先、固定编排的if-else。而 Agent 应能根据动态环境和模糊目标实时规划新的行动路径。自动化工具是“僵硬的剧本”Agent 是“灵活的导演”。误区三本地跑个大模型 ≠ Agent。在手机上部署一个 7B 或更小参数的模型确实能让一些交互离线进行响应更快且保护隐私。但这只是提供了“思考”推理的本地能力。如果它不能感知手机状态电量、位置、正在运行的应用、不能执行操作点击、输入、调用系统服务那它仍然是一个被动的“大脑”没有“手脚”。所以手机 AI Agent 的终极形态应该是深度融合到移动操作系统中的、具备情境感知、自主规划与安全执行能力的智能副驾。它知道你正在做什么上下文猜到你接下来想做什么意图预测并能安全、高效地替你完成执行。当前我们正处在这个演进的早期阶段而正确的技术选型决定了你是能走到终点还是早早掉队。2. 核心架构剖析三种主流技术路线与选择理解了目标我们来看路径。目前将 AI Agent 能力引入手机主要有三种技术架构各有优劣。2.1 云端服务型 AgentCloud-First Agent这是目前最常见、最容易上手的方案。原理手机 App 作为“感官”和“手脚”负责收集用户输入语音、文字、截图和设备状态将其发送到云端服务器。云端部署强大的大模型如 GPT-4、Claude 3和 Agent 框架如 LangChain、AutoGen进行核心的推理、规划和工具调用。执行结果再返回给手机端呈现或操作。优点能力强大可利用最顶尖的大模型处理复杂任务。开发迭代快无需担心手机算力限制逻辑主要在云端。跨平台一致服务一套iOS、Android、Web 通用。缺点网络依赖与延迟必须联网响应速度受网络影响。隐私风险用户数据需上传至云端。成本高大模型 API 调用费用随使用量增长。系统交互深度受限云端 Agent 难以直接、精细地操控手机本地 App 和系统设置。典型场景复杂行程规划、深度内容创作、需要联网搜索的综合信息处理。2.2 设备端模型型 AgentOn-Device Agent这是追求即时响应和隐私保护的方案也是苹果、谷歌等大厂重点布局的方向。原理在手机端直接部署轻量化的大语言模型LLM或小型多模态模型。所有感知、思考、规划过程均在设备端完成。执行操作则通过操作系统提供的无障碍服务AccessibilityService或自动化框架实现。优点超低延迟本地推理响应即时。隐私极致数据不出设备。离线可用无网络环境下仍能工作。缺点模型能力受限受手机算力和功耗限制只能运行参数量较小的模型复杂任务处理能力弱。开发门槛高涉及模型压缩、转换、端侧推理引擎优化如 MNN、TFLite、Core ML。工具调用能力弱本地模型难以直接生成精确的操作指令与系统交互的可靠性挑战大。典型场景简单的文本总结、离线问答、基于固定模板的信息提取、本机自动化快捷操作。2.3 混合智能型 AgentHybrid Agent这是目前看来最有前景、也最符合实用主义的架构。原理采用“云端协同”策略。设备端部署一个轻量级的“调度模型”或“意图识别模型”负责处理敏感、高频、低延迟的简单任务并初步理解用户意图。对于复杂任务它将抽象后的、脱敏的上下文信息发送到云端由强大的云端 Agent 处理并将规划好的“高级指令序列”下发给设备端执行。优点平衡性能与隐私敏感操作本地化复杂思考云端化。体验优化简单任务即时响应复杂任务后台处理。灵活性高可根据网络状况、电量、任务复杂度动态调整策略。缺点架构复杂需要设计精密的云端协同协议、任务拆分与状态同步逻辑。调试困难问题可能出现在端、云或通信环节。典型场景这是未来主流方向。例如本地模型识别出“订餐厅”意图并将“时间”、“地点”、“品类”等结构化信息脱敏后发送云端云端完成餐厅搜索、比价和规划返回“打开大众点评App-搜索‘国贸日料’-按评分排序-点击第一家-选择19:00-2人位-下单”这样的可执行指令流到手机端执行。对于大多数开发者和产品团队从云端服务型入手验证想法逐步向混合智能型演进是一条稳健的路径。接下来我们就以这条路径为例构建一个原型。3. 环境准备从零搭建手机 AI Agent 开发栈我们假设一个场景开发一个能帮用户“订咖啡”的手机 AI Agent 原型。它需要理解自然语言指令调用云端工具查询咖啡店、模拟下单并能在手机上自动执行打开外卖App、填充信息等操作模拟。技术栈选择后端云端AgentPython FastAPI LangChain。LangChain 提供了丰富的 Agent 构建模块。前端手机端Android (Kotlin) 为例。iOS 原理类似使用 Swift。通信WebSocket 或 SSE (Server-Sent Events) 用于长连接实现指令流式下发。手机端自动化Android 使用UIAutomator或AccessibilityService进行模拟操作仅用于原型上架商店需谨慎。环境清单Python 环境3.9 或以上。Android 开发环境Android Studio支持 Kotlin。大模型 API准备一个 OpenAI GPT 或国内可访问的等效 API Key如智谱、DeepSeek。必要的 Python 包通过pip安装。# 创建并进入项目目录 mkdir hybrid_phone_agent cd hybrid_phone_agent # 创建后端服务目录 mkdir backend cd backend python -m venv venv # Windows: venv\Scripts\activate # Mac/Linux: source venv/bin/activate # 安装核心依赖 pip install fastapi uvicorn langchain langchain-openai langchain-community python-dotenv # langchain-community 包含许多工具集成4. 核心流程拆解一个“订咖啡”Agent 是如何工作的整个系统的工作流可以分为五个关键步骤理解它有助于我们进行编码指令输入与上传用户在手机 App 中输入“帮我订一杯美式咖啡送到XX大厦A座半小时后要”。App 收集文本可能连同手机位置需用户授权一起打包通过 HTTP POST 发送到云端服务。云端 Agent 规划与工具调用云端服务收到请求唤醒 LangChain Agent。Agent 利用大模型理解指令并规划步骤a) 解析出咖啡类型、送达地址、时间要求。b) 调用“咖啡店搜索工具”模拟一个返回附近咖啡店列表的函数。c) 调用“下单工具”模拟生成订单。生成可执行指令序列Agent 完成规划后不直接返回“已下单”而是生成一套给手机端的操作指令。这套指令需要被手机操作系统理解。指令下发与手机端执行云端通过 WebSocket 将指令序列如[{action: launch_app, package: com.sankuai.meituan}, {action: click, text: 搜索框}, {action: input, text: 瑞幸咖啡}]下发给手机 App。手机 App 的“执行引擎”解析这些指令并调用 Android 的自动化 API 来模拟用户操作。状态同步与确认手机端每执行完一个步骤可将状态成功/失败反馈回云端云端 Agent 可根据反馈决定继续执行或调整计划。最终将结果“已成功下单预计30分钟后送达”返回给用户界面。这个流程体现了“云端思考端侧执行”的混合智能核心思想。5. 完整示例构建云端 Agent 服务我们先实现云端部分即负责“思考”和“规划”的大脑。文件结构hybrid_phone_agent/ ├── backend/ │ ├── .env # 存储API密钥等配置 │ ├── main.py # FastAPI 主应用 │ ├── agent_coffee.py # 订咖啡Agent核心逻辑 │ └── requirements.txt第一步配置环境变量在backend/.env文件中保存你的大模型 API 密钥。# .env OPENAI_API_KEYsk-your-openai-api-key-here # 若使用国内模型例如智谱AI ZHIPUAI_API_KEYyour-zhipuai-api-key第二步实现 Agent 工具我们创建两个模拟工具搜索咖啡店和创建订单。# backend/agent_coffee.py import os from typing import Type, Optional from pydantic import BaseModel, Field from langchain.tools import BaseTool, StructuredTool from langchain_openai import ChatOpenAI from langchain.agents import AgentExecutor, create_react_agent from langchain import hub # 用于拉取预设的prompt # 1. 定义工具的输入参数模型 class CoffeeShopSearchInput(BaseModel): location: str Field(description送餐地址) coffee_type: Optional[str] Field(defaultNone, description咖啡类型如美式、拿铁) class PlaceOrderInput(BaseModel): shop_name: str Field(description咖啡店名称) coffee_type: str Field(description咖啡类型) delivery_address: str Field(description送餐地址) delivery_time: str Field(description期望送达时间如半小时后) # 2. 实现工具函数 def search_coffee_shop(location: str, coffee_type: Optional[str] None) - str: 根据地址和咖啡类型搜索附近的咖啡店。 # 这里是模拟函数真实场景应调用地图或外卖平台API shops [ {name: 瑞幸咖啡 (XX大厦店), distance: 200m, rating: 4.5}, {name: 星巴克 (环球金融中心店), distance: 500m, rating: 4.3}, {name: Manner Coffee (国贸店), distance: 800m, rating: 4.7}, ] result f在{location}附近找到以下咖啡店\n for i, shop in enumerate(shops, 1): result f{i}. {shop[name]}距离{shop[distance]}评分{shop[rating]}\n result 请选择一家进行下单。 return result def place_order(shop_name: str, coffee_type: str, delivery_address: str, delivery_time: str) - str: 在指定咖啡店下一单。 # 模拟下单逻辑 order_id fORDER_{os.urandom(4).hex().upper()} return f✅ 下单成功\n订单号{order_id}\n店铺{shop_name}\n商品{coffee_type}\n送达地址{delivery_address}\n预计送达{delivery_time}\n\n【手机端执行指令】请打开外卖App在搜索框输入{shop_name}进入店铺后选择{coffee_type}并下单至{delivery_address}。 # 3. 将函数包装成LangChain Tool search_tool StructuredTool.from_function( funcsearch_coffee_shop, namesearch_coffee_shops, description根据送餐地址和咖啡类型搜索附近的咖啡店。, args_schemaCoffeeShopSearchInput, ) order_tool StructuredTool.from_function( funcplace_order, nameplace_coffee_order, description在选定的咖啡店创建订单。需要店铺名、咖啡类型、送餐地址和期望送达时间。, args_schemaPlaceOrderInput, ) # 4. 创建Agent def create_coffee_agent(): # 初始化LLM这里使用OpenAI GPT-3.5-turbo性价比高 llm ChatOpenAI( modelgpt-3.5-turbo, temperature0, # 降低随机性让Agent更稳定 api_keyos.getenv(OPENAI_API_KEY) ) # 获取一个适合ReAct框架的prompt # 可以从LangChain Hub拉取也可以自己写 prompt hub.pull(hwchase17/react) # 一个经典的ReAct格式prompt # 定义工具列表 tools [search_tool, order_tool] # 创建ReAct Agent agent create_react_agent(llm, tools, prompt) # 创建执行器 agent_executor AgentExecutor( agentagent, toolstools, verboseTrue, # 打印详细执行过程调试用 handle_parsing_errorsTrue, # 优雅处理解析错误 max_iterations5 # 防止无限循环 ) return agent_executor # 供外部调用的主函数 def run_coffee_agent(user_query: str) - str: 执行Agent处理用户查询 agent create_coffee_agent() try: result agent.invoke({input: user_query}) return result[output] except Exception as e: return fAgent执行出错{str(e)}第三步创建 FastAPI 服务现在我们将这个 Agent 包装成一个 HTTP 服务供手机端调用。# backend/main.py from fastapi import FastAPI, HTTPException from fastapi.middleware.cors import CORSMiddleware from pydantic import BaseModel from agent_coffee import run_coffee_agent import uvicorn app FastAPI(title手机AI Agent云端服务) # 允许跨域请求方便手机端调试 app.add_middleware( CORSMiddleware, allow_origins[*], # 生产环境应指定具体域名 allow_credentialsTrue, allow_methods[*], allow_headers[*], ) # 定义请求体模型 class AgentRequest(BaseModel): query: str # 可以扩展更多字段如用户位置、设备信息等 location: str None app.post(/api/agent/coffee) async def handle_coffee_order(request: AgentRequest): 处理订咖啡请求。 手机端发送用户查询本接口调用云端Agent处理并返回结果。 user_query request.query if not user_query: raise HTTPException(status_code400, detail查询内容不能为空) # 这里可以将用户位置等信息整合到查询中让Agent更智能 enhanced_query user_query if request.location: enhanced_query f我的位置是{request.location}。{user_query} print(f处理请求: {enhanced_query}) # 调用Agent agent_response run_coffee_agent(enhanced_query) return { success: True, query: user_query, response: agent_response } app.get(/health) async def health_check(): return {status: ok} if __name__ __main__: uvicorn.run(main:app, host0.0.0.0, port8000, reloadTrue)第四步运行并测试云端服务在backend目录下启动服务# 确保在虚拟环境中且 .env 文件已配置 uvicorn main:app --reload --host 0.0.0.0 --port 8000服务启动后你可以使用curl或 Postman 进行测试curl -X POST http://localhost:8000/api/agent/coffee \ -H Content-Type: application/json \ -d {query: 帮我订一杯热美式送到北京国贸大厦A座我半小时后要。, location: 北京市朝阳区建国门外大街1号}你应该会收到一个包含 Agent 思考过程和最终结果的 JSON 响应。最终结果里包含了给手机端的可执行指令模拟。6. 手机端Android执行引擎实现云端 Agent 生成了指令手机端需要解析并执行。这里我们实现一个极度简化的 Android 示例重点展示原理。真实产品需要处理复杂的权限、兼容性和稳定性问题。核心思路一个 Android App包含一个输入框和按钮用于发送请求到我们刚写的云端服务。接收云端返回的响应并解析出“手机端执行指令”部分。使用 Android 的AccessibilityService来模拟用户操作需用户手动在系统设置中开启辅助功能权限。关键代码示例 (Kotlin)// MainActivity.kt package com.example.phoneagentdemo import android.os.Bundle import android.widget.Button import android.widget.EditText import android.widget.TextView import androidx.appcompat.app.AppCompatActivity import kotlinx.coroutines.Dispatchers import kotlinx.coroutines.GlobalScope import kotlinx.coroutines.launch import okhttp3.* import okhttp3.MediaType.Companion.toMediaType import okhttp3.RequestBody.Companion.toRequestBody import org.json.JSONObject import java.io.IOException class MainActivity : AppCompatActivity() { private lateinit var etQuery: EditText private lateinit var btnSend: Button private lateinit var tvResult: TextView private val client OkHttpClient() private val JSON application/json; charsetutf-8.toMediaType() override fun onCreate(savedInstanceState: Bundle?) { super.onCreate(savedInstanceState) setContentView(R.layout.activity_main) etQuery findViewById(R.id.et_query) btnSend findViewById(R.id.btn_send) tvResult findViewById(R.id.tv_result) btnSend.setOnClickListener { val query etQuery.text.toString() if (query.isNotEmpty()) { sendRequestToAgent(query) } } } private fun sendRequestToAgent(query: String) { GlobalScope.launch(Dispatchers.IO) { val url http://YOUR_PC_IP:8000/api/agent/coffee // 替换为你的电脑IP val json JSONObject().apply { put(query, query) // put(location, getLastKnownLocation()) // 可加入真实位置 } val body json.toString().toRequestBody(JSON) val request Request.Builder() .url(url) .post(body) .build() client.newCall(request).enqueue(object : Callback { override fun onFailure(call: Call, e: IOException) { runOnUiThread { tvResult.text 请求失败: ${e.message} } } override fun onResponse(call: Call, response: Response) { val responseBody response.body?.string() runOnUiThread { try { val jsonResp JSONObject(responseBody) val agentOutput jsonResp.getString(response) tvResult.text Agent回复:\n$agentOutput // 关键步骤解析并执行指令 parseAndExecuteInstructions(agentOutput) } catch (e: Exception) { tvResult.text 解析响应失败: $e\n响应体: $responseBody } } } }) } } private fun parseAndExecuteInstructions(agentOutput: String) { // 这是一个非常简单的解析器实际项目需要更严谨的协议如JSON数组 if (agentOutput.contains(【手机端执行指令】)) { val instructionPart agentOutput.substringAfter(【手机端执行指令】) // 假设指令是文本描述实际应该是结构化的JSON tvResult.append(\n\n[解析到指令]: $instructionPart) // 这里应该调用一个真正的指令执行器 // InstructionExecutor.execute(instructionPart) } } }指令执行器 (AccessibilityService 示例框架)创建一个MyAccessibilityService类来执行自动化操作。由于代码较长且涉及较多 Android 特定 API这里给出核心逻辑框架// MyAccessibilityService.kt (框架示例) class MyAccessibilityService : AccessibilityService() { override fun onAccessibilityEvent(event: AccessibilityEvent?) { // 监听UI事件 } override fun onInterrupt() {} fun executeInstruction(instruction: Instruction) { // Instruction 是自定义的指令数据类 when (instruction.action) { launch_app - { val intent packageManager.getLaunchIntentForPackage(instruction.packageName) startActivity(intent) } click - { // 通过 AccessibilityNodeInfo 查找包含特定文本的节点并执行点击 rootInActiveWindow?.findAccessibilityNodeInfosByText(instruction.targetText) ?.firstOrNull() ?.performAction(AccessibilityNodeInfo.ACTION_CLICK) } input - { // 找到输入框节点并输入文本 // 通常需要先点击获取焦点再注入文本 } // ... 其他操作 } } }重要提醒上架 Google Play 或国内应用商店使用AccessibilityService进行自动化操作有严格的政策限制必须是为了辅助障碍人士且功能需明确告知用户。滥用会导致应用被下架。原型阶段用于学习和验证技术完全可行但产品化时需要探索更合规的系统级集成方案如 Android 的App Actions、Slices或与系统厂商合作。7. 常见问题与排查思路在开发手机 AI Agent 过程中你会遇到一系列典型问题。下表汇总了核心问题及其解决方法问题现象可能原因排查方式解决方案云端 Agent 返回“我不知道怎么做”或胡言乱语1. Prompt 设计不佳未清晰定义工具和范围。2. 大模型温度temperature参数过高。3. 工具描述description不够准确。1. 查看 LangChain Agent 执行的 verbose 日志。2. 检查传入模型的完整 Prompt。1. 优化 Prompt明确角色和任务边界。2. 将 temperature 设为 0 或 0.1。3. 为每个工具编写清晰、无歧义的描述。手机端无法连接到本地开发服务器1. 电脑防火墙阻止了端口。2. 手机和电脑不在同一局域网。3. Android 网络安全策略限制Android 9。1. 在电脑上ping手机 IP。2. 在手机浏览器访问http://电脑IP:8000/health。3. 查看 Logcat 网络错误。1. 关闭电脑防火墙或添加入站规则。2. 确保连接同一 Wi-Fi。3. 为 App 添加android:usesCleartextTraffictrue仅调试或配置网络安全策略。AccessibilityService 无法触发或操作失败1. 服务未在系统设置中启用。2. 目标 App 的 UI 结构动态变化。3. 节点查找策略不健壮如用 text但 text 是动态的。1. 检查onServiceConnected是否被调用。2. 使用uiautomatorviewer或Layout Inspector分析目标 App UI。3. 增加日志打印找到的节点信息。1. 引导用户手动开启辅助功能权限。2. 使用resource-id、content-desc等更稳定的属性定位。3. 结合多种查找方式并加入重试机制。指令流同步混乱多个指令同时执行导致错误1. 云端下发指令过快手机端未完成上一个就接收下一个。2. 网络延迟导致指令顺序错乱。1. 在手机端添加指令队列和状态机。2. 检查网络请求的时序日志。1. 设计指令确认协议。手机端执行完一个指令后向云端发送 ACK云端再下发下一个。2. 为每个指令分配唯一序列号。手机端耗电和发热严重1. 频繁轮询云端或使用长连接保活。2. 本地模型持续运行如果采用设备端方案。3. AccessibilityService 持续监控 UI 事件。1. 使用 Android Profiler 监控电量消耗。2. 检查网络请求频率和 CPU 使用率。1. 优化通信策略使用更高效的协议如 gRPC减少心跳频率。2. 本地模型仅在需要时唤醒。3. 精细化配置AccessibilityService的事件监听类型。8. 最佳实践与面向未来的建议构建一个稳定、可用、面向未来的手机 AI Agent远不止跑通原型。以下是从工程和产品角度提炼的建议1. 设计清晰的云端-端侧协议不要用自然语言作为指令传输媒介。定义一套结构化的、版本化的数据协议如 Protocol Buffers。指令应包含动作类型action、目标标识target、参数params、超时时间timeout、回退策略fallback等。这能极大提高通信的可靠性和解析效率。2. 实施分层降级策略网络不佳时是让用户等待还是启用本地轻量模型处理简单任务云端服务超时后是否有备选方案设计一个智能的分层策略优先使用云端强 Agent失败或超时后降级到设备端轻 Agent再失败则提供明确的错误引导或历史缓存结果。3. 极度重视隐私与安全数据脱敏上传到云端的文本尽可能移除个人身份信息PII。可以使用本地模型先进行一轮意图识别和实体提取只上传结构化、脱敏后的任务信息。权限最小化向用户申请权限时遵循最小化原则并清晰解释用途。例如只在需要订餐时请求位置权限用完后及时释放。代码安全不要将 API Key 硬编码在客户端。使用令牌Token或代理网关进行鉴权。4. 优化端侧执行引擎的健壮性多定位策略UI 自动化不能只依赖文本。结合resource-id、content-desc、className和相对位置进行定位。异常处理与重试操作失败后应有重试机制如间隔 500ms 重试 3 次。重试失败后应能准确上报错误上下文如当前屏幕截图、节点树方便调试。操作前验证在执行点击、输入前先验证目标节点是否可见、可操作。5. 拥抱系统级集成机会对于 Android深入研究和测试App Actions和Google Assistant的集成。对于 iOS关注SiriKit和Shortcuts。这些是操作系统官方提供的、更稳定、更合规的“智能服务”接入点。虽然目前能力可能有限但代表了未来的方向。6. 建立有效的评估体系如何判断你的手机 Agent 好不好建立多维度的评估指标任务完成率用户发出的指令有多少被成功、完整地执行步骤效率完成一个任务平均需要多少步步数越少说明 Agent 规划能力越强人工接管率有多少任务需要用户中途手动干预用户满意度通过简单的反馈机制收集主观评价。 这些数据是迭代优化 Agent 大脑Prompt、工具、模型和执行引擎操作成功率的关键。手机 AI Agent 不是将网页版 ChatGPT 做成 App也不是做一个高级版的“按键精灵”。它的核心价值在于深度融合情境感知、云端智能与设备操控能力成为用户数字生活的主动代理。当前的技术方案各有取舍混合智能架构是平衡能力、体验与隐私的务实选择。作为开发者从本文的原型出发你可以深入探索更稳定的端侧执行框架、更高效的云端协同协议或是尝试在设备端部署更强大的小型模型如 1-3B 参数的模型。这个领域刚刚起步基础设施和最佳实践仍在快速演变但其中蕴含的、重塑人机交互方式的潜力是确定的。