Principal Applied Scientist · Microsoft

Thomas Li

微软 Edge 构建主动式 AI 浏览器 —— 从 contextual chat 到 agentic loop,从单页面到整个 M365 生态。

AI 浏览器架构 Agent 系统 推荐算法 多智能体 LLM 路由
Tabs 业务增长
0.5M→3M Chat DAU
12 个月 领先 Google Chrome
5 任职公司
01 — 故事

ChatLoop
单页面整个 M365

作为 Edge AI 团队 Architect Leader Team 一员,自 2023 年起把 Edge Copilot 从 0 做到百万级; 基于 LLM 能力开发自动标签分组等核心功能,带动浏览器核心业务(千万级盘子)实现 3× 增长。 4 年下来沿着一条主线推进:让浏览器从"被动响应"演进为"主动陪伴"。

2023
浏览器内完成 contextual chat + RAG 原型;引入 router(意图识别),把历史与多标签页上下文纳入模型; 将模型输出映射为函数参数触发系统动作(tool calling 前奏)。
2024
早期 Browser Agent("Browse for me"),把检索、阅读与执行串接; 完成 Tabs / Favorites / History 的自动内容治理。
2025
Copilot 算法、工程升级,Text / Vision / CUA 统一成 React Loop; 提出并落地 Vision Action(免手操控的对话式动作);孵化 Office Agent(类似 Manus)。
2026
从「被动响应」到「主动陪伴」—— Lead Intent / Journeys / Blueprints 三条主线, 让浏览器同时在三个维度跃迁:输入信号从「当前页面」扩到「全 M365 + Copilot」, 架构从 Chat → Loop,产出从 Text 扩到 Image / 网页 / Action
02 — 工作

主动式浏览器的三轴跃迁

2026 主导推进的 Intent / Journeys / Blueprints 三条主线,本质是同一件事的三个维度演进。

Axis 1 输入信号
当前页面 多页面 + 浏览历史 + M365 + Copilot 记忆
Axis 2 架构形态
Chat (被动) Loop (主动观察 / 触发 / 执行)
Axis 3 产出形态
Text Image · 网页 · Action
Text
Copilot Contextual Chat
统一"多页面/历史/收藏"为模型上下文,router 长期演进 (gpt3.5 → BERT → SLM → GPT-4.1-mini)。 SSR 76% → 90%,Action 成功率 50% → 90%,动作链路延迟 10s → 1s
Image · Journeys 🌍 全球首发
Edge Copilot Mode 旗舰功能 · C5 GA
什么是 Journeys:基于用户浏览历史做主题自动分组(一个 group = 一个 journey), 每个分组生成 1 张视觉任务卡 + 2 个 suggested action,让用户在 SNTP 一眼接着干。

作为 Tech Lead,主导 Journeys backend 在 C5 GA —— 端到端拿下架构、可靠性、交付全权 ownership。 并行作为 Edge SAI 服务 owner,业务结果: +3.9% conversion · +4.3% CTR · +24% coverage
网页 · Web Blueprints
Edge 148 Canary · 浏览器原生
什么是 Blueprints:让浏览器为用户"长出"网页能力 —— 根据用户当前页面或浏览历史自动生成一个 mini-app(一组工具卡 / 操作面板); 对当前页面,还可以用自定义脚本或模板化脚本定向改造(隐元素、加按钮、抽数据…)。 把扩展商店里需要 CSS/JS 才能改造网页的能力,门槛降到自然语言。
Action · Browser Agent
Vision Action · React Loop
由 Intent 决定何时主动执行,结合 React Loop 与 Vision Action 实现"说一声就办了"。 打通视觉理解 + 动作触发,让用户"只说不点"完成复杂 UI 操作。

Multi-Agent数字员工

一条平行主线 —— 先从 0 搭建 multi-agent 技术基座(Societas),再让它"长在团队工作场域里"成为 AI 同事(Sociemate)。

Societas Multi-Agent 0→1

技术基座 · Office 工作流

早期主导从 0 搭建 Societas —— 对标业界 Suno / Manus 的 multi-agent 技术路线, 结合 EdgeML 现有能力孵化覆盖 Office 工作流(PPT / Doc 等)的 agent team 并推动上线, 成为后续数字员工方向的技术基座。

Sociemate 数字员工 · 负责人

团队优先 · 主动感知 · 长在 Teams

在 Societas 基础上的进一步思考:让 multi-agent 不只是"完成任务的工具",而是"长在团队工作场域里的 AI 同事"。 结合 OpenClaw / Hermes Agent 的本地大脑能力,0→1 设计并主导研发 Sociemate —— 一个 团队优先 + 主动感知 的 agent harness,落地在 Teams。

Tabs Auto Grouping
2023 全球首发,领先 Google ~12 个月

唯一同时负责 Client(Chromium C++/JS)+ 后端 + 算法的 0→1 项目。 Google Chrome 的同类功能 Tab Organizer(Gemini 驱动)于 2024 年 1 月才随 Chrome 121 推出。

从"内容回访"到 Jobs To Be Done
—— 一人三栖,从 0 推全栈

Client + Backend + Algorithm · Microsoft Edge

算法 · Algorithm

自研 Tab 语义相似度 + 主题聚类 pipeline;router 选型从 GPT-3.5 → BERT → SLM → GPT-4.1-mini 长期演进,平衡延迟、成本与效果。

客户端 · Client

Chromium 内核改造(Tab Strip / Group 模型扩展、Mojo IPC、UI 渲染),与浏览器原生组件深度集成。

后端 · Backend

从 0 搭建 Tab 内容预处理与 LLM 调用服务,含 prompt 编排、限流、缓存、降级。

业务影响 · Impact

Tabs 业务千万级盘子,AI + Tabs 从 0 → 百万级 DAU,带动 Tabs 业务 3× 增长,BSOM +1%。

🔗 作为 Edge 官方 Tab Groups 功能页 持续主推。

03 — 研究

论文 · 模型 · 专利

把工程问题抽象成可发表的 research,把 research 灌回产品 —— ICASSP 2026 的 WebRouter 就是 Edge Copilot 线上意图路由的关键一环。

2026

WebRouter: Query-Specific Router via Variational Information Bottleneck for Cost-Sensitive Web Agent

一作 ICASSP 2026 · IEEE Signal Processing Society

面向 Web Agent 的 query-specific 路由:基于变分信息瓶颈(VIB)对 query 编码做信息压缩, 在保证任务效果的前提下显著降低单 query 平均推理成本。 落地 Edge Copilot 线上意图路由(GPT3.5 → BERT → SLM → GPT-4.1-mini 演进路径中的关键一环)。

2024

Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering

ICONIP 2024

多模态推理混合架构,提升 VQA 任务的可解释性与准确率。

2026

Fara1.5 (Microsoft Research) — Edge × MSR 合作贡献

Microsoft Research · Computer Use Agent Models

作为 Edge 侧合作方,为 MSR Fara1.5 (4B/9B/27B) CUA 模型贡献训练数据 —— 交付 38,384 对多语言任务,覆盖德 / 西 / 法 / 葡 / 意 / 日 / 中 7 种语言, 补全 Fara backbone 在非英语 Web 上的 coverage。 Fara1.5-27B 在 Online-Mind2Web 上达到 72% 任务成功率, 超过 Gemini 2.5 Computer Use、OpenAI Operator、Yutori Navigator n1

— Patents

已申请微软发明专利 2 项(均含中国发明专利申请),覆盖 AI 浏览器核心交互能力。

04 — 经历

从推荐系统到 AI 浏览器

微软之前 9 年在腾讯音乐 / 网易云 / 阿里 / 华为,从 GNN 社交推荐到 push 投放,再到 HDFS 数据基建。

腾讯音乐
2018/09 – 2022/04
社交推荐负责人
整体负责实时社交(直播 / 声动合唱)与异步社交(关系链 / 家族推荐)的 算法 / 工程 / 团队直播:DSSM softmax in batch + bitwise FM/autoint + CGC + PCGrad + GradNorm + ESMM,关注渗透 +17%; 家族推荐:二部图 GraphSAGE + GNN + Attention + SSL,家族业务次留 +3.4%、关注渗透 +100%。
网易云音乐
2017/11 – 2018/09
社交推荐负责人
从 0 搭建"网易音乐人推荐"(w2v + LR),关注率与关注量 +100%;基于 itemCF + GBDT 搭关注 feed,播放量 +10%。
阿里 · iDST
2015/04 – 2017/11
资深算法工程师
天合计划:在线匹配业务逻辑(PID)与算法,实现保量。 手淘 Push:数据分析 + 在线投放工程 + 运营管理平台建设;对比原有圈人 +100%。
华为 · 2012 实验室
2013/01 – 2015/04
西安研究所
数据采集组:本地数据转发至 HDFS 集群,转发效率 ×10。Web 开发 + C++ 后端:网元创建与维护软件设计。

教育背景

西安理工大学
模式识别与智能系统 · 硕士
2009.09 – 2012.12
空军工程大学
电子信息工程 · 本科
2005.09 – 2009.07
05 — 足迹

水墨履历 · 足迹手账

✨ 五张手账由 GPT-Image-2 直出 · 仿宣纸水墨淡彩 · AI.梦剧院 MMXXVI

06 — 联系

聊聊 AI 浏览器Agent数字员工

欢迎合作 · 招聘 · 技术交流。北京 · GMT+8。

邮箱
250145013@qq.com
网站
thomasli.cn