中国·710公海寰宇-西湖大学修宇亮：数字人重建，慢慢都会变成基础模型的微调任务

2026-03-22 13:13:06

雷峰网讯 12月12日，第八届 GAIR 全世界人工智能与呆板人年夜会在深圳正式拉开帷幕。

本次年夜会为期两天，由GAIR研究院与雷峰网结合主理，大作院士任引导委员会主席，杨强院士与朱晓蕊传授任年夜会主席。年夜会共开设三个主题论坛，聚焦年夜模子、具身智能、算力厘革、强化进修与世界模子等多个议题，描绘AI最前沿的摸索群像，折射学界与财产界共建的智能将来。

作为 AI 产学研投界标杆嘉会，GAIR自2016年开办以来，始终苦守 “传承+立异” 内核，是 AI 学界思惟接力的阵地、技能交流的平台，更是中国 AI 四十年成长的精力家园。已往四年年夜模子驱动 AI 财产加快厘革，岁末年头 GAIR 践约所致，以高质量不雅点碰撞，为行业与公共出现AI时代的前沿洞见。

于12月13日的“世界模子”专场，西湖年夜学助理传授，远兮试验室卖力人修宇亮举行了以《走出蜡像馆，交互新世界：开拓三维数字人研究新边境》为主题的演讲，分享了其关在高精度数字人重修的三项最新进展。

修宇亮分享了远兮试验室最新的三个事情，别离为 UP2You，ETCH 及 Human3R。

因为兼具相机位姿变化及人物动作变化的特色，怎样从无穷制的一样平常收罗图象（如手机相册）出发，举行高精度的三维重修，是一个很是有挑战性的问题。修宇亮于博士时期，提出了第一套，先图生文，再文生 3D的两步走解决方案。这套方案可以兼容虚拟试衣及基在文字的穿搭编纂等下流运用，但效率很是低，DreamBooth及SDS（Score Distillation Sampling）漫长的微和谐优化流程，致使单个数字人建模使命需要3至4个小时。

远兮试验室的最新结果UP2You，将上述时间从4小时压缩到了1.5 分钟。其焦点思惟是将脏数据直接转化成对于后续重修友爱的多视角正交图片，于此基础上套用已经有的多视角重修算法，实现提效。

相较在传统方案，UP2You的上风，一是快——从一坨脏数据中，只需要1.5 分钟就能够拿到高质量的带纹理数字人；二是多多益善——用数目换质量，重修质量可以随输入图片数目的增长而不变变好。修宇亮总结，“不管图片有多脏，这个方案只要包管图片源源不停灌进来，更细节的几何及更完备的纹理，就能够立竿见影。”

修宇亮分享的第二项事情名为ETCH，旨于从穿衣服的人物三维扫描中，获得剖解学上准确的内部人体。因为此前的其他测验考试，很少建模人体及衣服之间的厚度，往往直接将最外层服装视为人体皮肤来做人体模子拟合，这就致使拟合成果遍及偏胖。而ETCH则是经由过程等变向量，界说了衣服及皮肤之间的厚度瓜葛，从而得到更正确的内部人体布局，并且因为扭转等变性的引入，也能够年夜年夜削减练习数据。于本年的ICCV上，ETCH获评Highlight Paper。

末了一项事情名为Human3R，旨于实现人物和场景的及时动态重修。“你很难只从人体动作出发，就看懂人于做甚么”，修宇亮注释，“但若把场景也给到你，语义就相对于清楚。”

据先容，Human3R于同时实现场景重修及人体状况猜测、追踪的基础上，可以做到及时15FPS 的推理，8GB显存占用。这象征着仅需一张商用GPU，便可实现SOTA级机能。单张显卡训一天，单个模子跑一遍，多人跟踪及时出，场景还有更准了些。

为了实现这一点，Human3R基本保留了CUT3R的 backbone，同时新增了一条人体回归的分支，借鉴了VPT（Visual-Prompt Tuning）计谋，以实现高效微调，如许就能够于不粉碎CUT3R 已经有的场景重修能力的基础上，对于人体相干的几何信息解码成 SMPL，场景于这里，可以视为一种上下文，包管人体被准确的放置参加景中。

瞻望将来，修宇亮末了分享了自身对于在数字人技能的不雅察。更强盛的通用3D重修模子正于让愈来愈大都字人重修使命水到渠成。“数字人的重修使命，逐步城市酿成基础模子的微调使命。”修宇亮指出。

如下为修宇亮的现场演讲内容，雷峰网(公家号：雷峰网)举行了不转变原意的编纂收拾：

很是侥幸来先容咱们试验室的最新事情进展。我今天禀享的标题问题是《走出蜡像馆，交互新世界》，起这个标题问题的重要缘故原由是，于我看来，数字人无非就是研究两个问题。一个是研究静态，就是怎么建模一个绘声绘色的数字人。另外一个就是动态，怎么让这小我私家可以活龙活现地震起来，这是两个很是要害的问题。

我今天禀享的有三个事情。第一个事情是关在三维形象重修，怎么从一样平常的图象内里去做高精度的数字人重修。第二个事情是ETCH，假如咱们已经经拿到了一个高精度的，穿戴衣服的人体几何建模，怎么可以或许再从这里拿到一个剖解学上准确的内部的人体布局？第三个是Human3R，咱们往往要把人的举动放到一个场景里才能更好地舆解，以是咱们最新的事情Human3R，就是把人及场景放到一路去做重修。

于讲以前，我先把数字人重修会用到的数据类型总结一下。咱们以相机及人动不动作为量纲，好比Snapshot这个数据集，它是相机静止，可是人于运动着的数据，绿色就是运动，红色就是静止，那固然这个运动的幅度也能够更年夜一些。这边是我从Youtube上找到的一个视频，它也是相机静止，人于运动。固然这件事也能够反过来。咱们也能够让人固定不动，让相机举行动弹。这边这个就是，由于要连结人的不变，就加了两个三脚架做人的姿态固定，如许也能够做重修。

咱们假如考量相机阵列收罗，从单个相机来看，它是相机固定，人于动的环境。假如咱们把详细的某一时刻的多相机收罗成果拿出来看，就又酿成了一个相机于动，可是人静止的环境。也就是素质上来说，密集阵列相机收罗可以或许work，还有是由于它于重修历程里测验考试把两个变量酿成一个变量。同时还有有最极度的，就是单张图片，相机及人都是不动的。

那此刻就有一个很天然而然的问题，假如相机是动的，人也是动的，咱们有无措施去做重修？我给出一个例子，手机相册，现实上咱们天天拍摄的照片就是如许。除了了这小我私家及穿的衣服，其它所有因素都是变化的。相机的位姿、人的动作、图象的比例，然后有年夜头照、有全身照、有半身照、有遮挡、有图象剪切……任何环境均可能会呈现。于如许很是脏的数据下，咱们能不克不及够把重修这个工作给做了？这就是我博士时期最先研究的一个问题。

这个问题的难点于哪呢？坦诚地讲，咱们不算是第一个来测验考试解决这个问题的。最早一个相干事情就是Photo Tourism，做场景重修的同窗或者者教员必定知道。好比我要重修巴黎圣母院，这个事情就是从整个互联网上把所有巴黎圣母院的照片拿下来，测验考试去跑SFM（Structure from Motion），拿到相机位姿，然后重修出它的点云。

但他们解决的问题实在比咱们这个要简朴一点。为何呢？由于巴黎圣母院是不会动的。它烧了以后固然形变了，但它没烧以前是不形变的，永远是阿谁样子，以是就有措施拿到相对于正确的相机位姿。可是对于在人这个场景，人的动作是会动的，相机也是动的，你没有措施跑这类传统的structure from motion拿到一个正确的相机位姿。以是咱们这个问题就显患上更有挑战，在是我于博士时期就做了PuzzleAvatar。

这是我接下来要讲的事情的一个前序事情。实在咱们的解决思绪长短常简朴的，一句话就能够讲清晰。咱们起首测验考试把这些图片压成token，或者者说压缩成文字，然后咱们再做文生3D，就这么简朴，这是个很是切合直觉的做法。然后人分许多个part，咱们有上衣、裤子、脸，为了包管从图象到文字的压缩是无损的，咱们就用许多的token去表达人的脸、上衣、裤子或者者鞋。

整个流程实在很是简朴。咱们把这些图片输入以后，起首测验考试去做支解，如许就能够支解出一堆裤子、一堆脸、一堆鞋，然后咱们对于每一一撮数据都别离用DreamBooth给进修到一个文生图模子里。好比脸是asset 01，上衣是asset 02，以此类推，如许就把图片压缩成为了文字情势。然后咱们再对于文字做文生3D，由于2三、24年阿谁时辰还有没有此刻这么多很快速的文生3D方式，咱们就用最原始的SDS把人优化出来。整个优化是两个流程，先测验考试恢复几何，然后用SDS跑优化文生3D。几何跑患上差未几了，咱们就测验考试固定几何，再跑它的纹理，如许咱们就能够把这小我私家带纹理的几何模子给重修出来。

如许的做法有甚么利益呢？由于咱们相称在把所有图片都压缩成文字了，那就能够做如许的工作。各人可以看到，左边是我的图片，右边是我同事的图片，都压缩成文字以后，文字之间是可以举行互换的。那咱们就做最简朴的工作，好比我的shirt叫A shirt，她的shirt叫B shirt，咱们做一下互换，我就把她的衣服穿上了。这于数字人里就是很典型的一个使命，虚拟试衣。同时由于我的所有图象都压缩成文字了，文字是很轻易编纂的，咱们可以把裤子改为牛崽裤，或者者衣服改为hoodie。这类转变同时也能够作用在几何及纹理，以是整套 pipeline 就变患上很是很是的洁净。

可是这里有一个问题，就是这个事情是没有措施落地的，由于它时间很是长。假如训过DreamBooth，或者者用过SDS的必定知道，这两个流程是空费时日。于那种平凡的GPU上，DreamBooth年夜概微调要一个小时摆布，SDS 优化要3个小时，那4个小时出一小我私家，这个时间是不成接管的。以是咱们前不久发了一篇新的事情，测验考试把这个时间从4个小时压缩到了1.5分钟。

咱们测验考试了一种全新的思绪去做这个问题。直白来说，PuzzleAvatar的思绪是先把图象尽可能无损压缩成文字，然后从文字恢复3D。此刻咱们换了一种思绪，就是能不克不及找到一种方式把dirty data 转化成 clean data，把它洗洁净。甚么叫洗洁净呢？洗洁净就是说，把这些图片全转化成多视角的正交图片，像中间展示的如许子。那如许的图片对于在后续的重修长短常很是友爱的，你可以套用任何现有的多视角重修算法，很快就能出来咱们想要的成果，以是咱们有措施把时间压到一分半。

咱们做了一个动画效果让各人感触感染一下这个使命，就似乎是你拿了一个卡片相机，围着一个动的人不停地拍。拍下来的图片，咱们有措施把它从脏图片洗成洁净的图片。有了这些洁净的图片，包括RGB，包括法向，咱们就能够重修出质量比力高的数字人。这个事情叫UP2You，UP是unconstrained photos的缩写，you就是yourself。

这边就是一个年夜概的pipeline。咱们输入的是如许一些脏脏的图片，起首有一个模块测验考试从这些脏图片内里拿到一个相对于正确的人形，也就是这小我私家到底胖还有是瘦。有了这个年夜概的人体外形，咱们就能够衬着出多视角的法向图。接下来的问题就是，我有一些法向图节制人体姿态，我又有一些脏脏的图片，它们界说了这小我私家的外表，那咱们怎么把这两个联合起来，末了天生一个多视角的图象？

要害就是这个Correlation Map。它是做啥的呢？简朴地讲，就是我此刻给你一小我私家体的pose，我需要按需去取这上面的像素，拿到每一一张脏图片及这个姿态之间的相干性。各人看右侧的可视化，可以看出来，当这个姿态是一个正面姿态的时辰，那些图象的正脸部分，权重或者者置信度就会相对于高。那这小我私家不停扭转，置信度也于不停变化，这个模块很是很是要害。

咱们这个要领最年夜的上风是甚么呢？这也是一个我尤其喜欢的性子，就是跟着输入图片的增多，重修质量可以不变地变好。换句话来说，咱们输入的是年夜量很是脏的图片，但不管它有多脏，只要可以或许包管源源不停地输入图片，末了重修的质量就能够不变变好，多多益善。

中间就是咱们的重修成果。最右侧是光场扫描的一个ground truth，你可以看到一张图片的成果、两张图片，十张图片，跟着输入图片的增多，我能拿到这小我私家的外表、正面、背面、反面、侧面，我能拿到的信息更周全，那理论上讲咱们也能够恢复出更好的几何及纹理。

咱们的整个练习是于合成数据上完成的，以是咱们也测试了于真实场景下的效果。这是咱们试验室的同窗，咱们用他们随意拍的照片做测试，发明也是可以泛化的。这是第一个事情，UP2You，重要讲的是怎样从脏图片内里去做三维重修。

第二个事情是ETCH。当我已经经有了一个穿戴衣服的人的几何布局，怎么拿到剖解学准确的内部人体布局？本年ICCV，咱们这项事情当选为了Highlight Paper。简朴来讲，咱们这个使命就是将一个参数化的人体模子，最多见的好比SMPL‑X或者者 MHR，想措施把它正确塞到三维扫描里。

这个正确怎么界说呢？各人可以看到，这张图最左侧是原始的输入，一个三维扫描的穿衣服人体建模，蓝色部门是真正的人体。用以前一些要领拿到的成果，你会发明这小我私家是有点偏胖的。缘故原由也很简朴，以前咱们分不清究竟是衣服还有是内部皮肤，以是咱们只能把衣服当做皮肤，然后去做body fitting，末了获得的成果往往就是偏胖。而第四个fitting，就是咱们此刻方案的成果。

于这个事情里，咱们重要的立异点就是测验考试建模衣服及人体之间的厚度瓜葛，把这个厚度瓜葛减失，就能够把衣服剥离，如许咱们就能够更正确地建模内部人体。

咱们整个pipeline，起首是扫描，于上面做匀称的采样酿成点云，对于在每一个点，咱们找到一个指向内部人体的向量，咱们叫它Tightness Vector。接下来咱们把这些点聚类到382 个marker，然后咱们针对于这些marker做fitting就能够了。整个pipeline实在很是很是切合直觉，历程也很是快，年夜概几秒钟就能够弄定。这边是一些末了的人体拟合成果。你会看到第三列的红色、黄色，实在就是界说了衣服到底间隔人体有多远。

咱们应该是第一个测验考试用向量来界说衣服及人体之间的瓜葛的事情。那为何要用向量做这件工作呢？由于假如用向量，咱们就能够使用扭转等变性来练习这个收集。那为何要用扭转等变性呢？由于如许练习可以更省数据。咱们实在遭到了冯海文的ArtEq这项事情的开导，简朴来说它的输入是赤身的人，咱们做的是穿戴衣服的点云，但实在问题素质上是比力相似的。衣服有非刚体形变，以是咱们的扭转等变性其实不完善，但咱们依然可以使用如许的性子，年夜年夜削减练习数据。

那又回到适才阿谁问题。以前的数据集，往往相机及人只能动一个，而咱们一样平常相册里的数据是人及相机都于动。但实在还有有一种人及相机都于动的环境，就是咱们一样平常最多见的，于互联网上处处都有的这类视频。咱们拍视频的时辰，相机不成能是静止不动的，它往往也会跟着人去挪动，只是及相册比起来，相册的图片比力离散，视频内里的这类收罗，相对于更持续一些，但它依然是人及相机都于运动着的环境。

那这边就讲一下咱们末了一个事情，叫Human3R。这个事情的这个初志是，咱们能不克不及够及时地，而且前用前馈式的方式同时重修人及场景，而且只用一个模子。

这边是成果，右下角是一个影戏场景，咱们可以看到跟着这个影戏场景的播放，这个场景自己是可以重修出来的，包括场景中人的姿态咱们也能够很正确地猜测出来，而且差别人体的tracking也能够做到。这整个重修的pipeline，咱们可以做到及时15 FPS，8GB显存占用，以是于一个商用的GPU上也能够跑患上很好。

这边要讲一下为何咱们要测验考试把人体及场景放到一块去做重修，很主要的一个缘故原由是为了更好地舆解人的举动。我举一个例子，实在你实在很难纯真从动作内里看到，一小我私家毕竟于做甚么。可是假如咱们把场景也给到你，你就能够很是清楚地看出来，这个语义就相对于清楚了。这就是为何咱们要测验考试把人及场景放到一块重修，由于如许可以更好地舆解人的举动。

咱们这个事情的标题问题叫Everyone，Everywhere，All at Once，是借鉴了杨紫琼教员的影戏Everything，Everywhere，All at Once。这个名字是我起的，我感觉还有是比力切合咱们整个事情的特色。为何叫 All at Once呢？起首咱们只有一个模子，没有许多个part，one model，并且one stage。咱们也是 one shot，也就是说不需要一小我私家一小我私家地出，咱们是所有人一块出。别的咱们整个练习只需要一张GPU，训一天就能够了。五个one，all at once，一股脑地、及时地把所有成果全数跑出来。

咱们的输入就是一个平凡的单目视频，输出包括一个全局坐标系下的人体姿态，包括三维场景重修以和camera pose。

咱们这个事情及以前的事情，最年夜的不同是甚么？咱们把以前的许多事情总结了一下，年夜概就是如许的范式，它们都是multi stage。好比我给一个视频，起首要做detection，检测到人的bounding box，然后对于每一个bounding box内里的人做tracking，拿到trajectory，再然后每一个人都要做HMR（Human Mesh Recovery），都要跑出一小我私家体的pose，同时咱们还有要做整个场景的深度预计，还有要做支解，要猜测相机的pose。末了所有的这些，场景的点云，人的pose，全数要放到一个框架内里举行结合优化，整个流程基本上都要跑几个小时。

这是各人以前的做法。咱们此刻把这些很是繁杂的流程全数砍失，只用一个模子，一个stage就能够解决问题。很年夜水平上这项事情是受王倩倩教员做的CUT3R的开导，它是一个online的4D重修事情，图片一张一张往内里进，整个4D的场景，包括人，包括物，一帧一帧地重修，均可以 online地去跑下去。我很是喜欢这个事情。

可是假如你看CUT3R的文章，它也是于一个很是年夜范围的数据上练习的。咱们假如要from scratch去练习的话，也一样需要年夜量的数据。可是问题于在，实在人及场景交互没有那末多的数据，咱们可能可以拿到许多的3D场景数据，可是很难拿到一个场景及人都于，并且场景及人的深度交互也都有的数据，以是咱们不能不测验考试只用一个很小的数据集把这工具给train起来。

咱们的做法于这边。各人可以看到，上面所有带雪花的都是CUT3R原始的backbone，咱们没有改动，由于咱们需要它连结原本的对于场景的重修能力。同时咱们加了一个branch，专门从这个场景内里read out出人的点云，然后read out出这小我私家体的pose。然后咱们还有借鉴了VPT（Visual-Prompt Tuning），如许可以很是高效地做微调，就能够实现一天、一张GPU，把这个模子给训出来，并且到达 SOTA 的机能。

这边展示了更多的成果。这是一个3DPW（3D Pose in the Wild）的场景，两小我私家于一条路上行走，你可以看到这小我私家的轨迹长短常光滑的，整个场景也能够都重修出来。可是咱们也测验考试做一下回环检测，这小我私家跑一圈，末了整个场景及人是否是也都能重修出来？效果实在也是比力满足的。这是于一个相对于长程的场景里，这是一个试验室，你可以看到跟着这小我私家于各个房间内里走动，末了整个房间被重修出来，然后整小我私家的轨迹也能够拿到。

这是咱们最喜欢的一个case，一个影戏场景，两小我私家，不光做pose，人的ID也能够同时做跟踪，并且跟着视频跑患上愈来愈多，整个场景也会不停地完美。

这边是一些咱们人体的pose猜测及ground truth之间的对于比，玄色的影子就是 ground truth，蓝色的就是人体预计的动作，各人可以看到险些是严丝合缝的，咱们的正确性长短常高的。

固然也有一些failure case，这是比力经典的一个，由于咱们这个要领还有是前馈式的，就是一步到位把所有成果给到你，没有任何后续的优化，以是有的时辰不免会呈现这类人及场景之间的交织。好比人坐到沙发里，或者者脚跑到地底下穿模，这类环境还有是有的。以和假如这小我私家于及场景交互的同时，还有及一些物体交互，好比说拿了一把吉他，那这个吉他相称在也是一个动态的，那这类环境咱们今朝没有措施建模，只能于处置惩罚的历程中咱们把这个工具抠失，只做静态场景及人的重修，动态场景今朝无法处置惩罚。

这里可以趁势讲一下，实在咱们认为这个事情有个很是天然的extension，就是把Everyone，Everywhere，All at Once，拓展成Everything，Everyone，Everywhere All at Once，人、场景、物全数一股脑地出来。咱们可以提早把这些物体给建模，然后只做 6D pose，也能够online地去把这物体重修出来。那这个问题怎么解决呢？列位教员假如感兴致的话，一会咱们可以再聊。

那这项事情给了咱们一个甚么开导呢？由于我是做数字人的，这实在是一个比力哀痛的工作，我发明许多数字人的问题跟着更通用的3D重修模子变患上愈来愈强盛，正于水到渠成。好比Human3R，简朴来说，咱们拿了一个有场景感知能力的视觉基础模子，轻微微调一下就能够做人体的pose。同时近来我发明了一篇曹旭教员新事情，叫KaoLRM，他们拿object centric的LRM，去做面部的重修，及以前的要领比拟，于跨视角上得到了更好的不变性。以是我的一个觉得是，可能将来数字人的许多重修使命，逐步城市变为一个基础模子的微调使命。

适才讲的三个事情咱们全数都开源了，也于网站上提供了一些可以交互的demo，接待各人去咱们的网站上利用下载，假如有bug也能够及我讲，咱们尽快修复。

末了su妹妹arize一下，咱们今天讲了三个事情。第一个是三维形象重修UP2You，重要解决的问题是怎么把脏数据变废为宝，怎么用脏数据做三维重修。咱们提出来的解决方案是数据整流器，就似乎交流电变直流电同样，咱们把脏数据酿成洁净数据，重修的问题就更好解决。

第二个事情是三维体型预计ETCH，咱们及以前的事情纷歧样的点是，以前做相干使命是从一个几何视角出发的，把衣服当做皮肤，然后去做fitting。而咱们是剖解学视角，咱们但愿拿到衣服之下阿谁真实人体的、剖解学准确的人体体型。咱们的解决方案就是测验考试建模从衣服到人体之间的厚度，咱们叫它Thightness Vector，等变紧度向量。

第三个是Human3R，人及场景的及时动态重修。以前的事情都是先分后总，先做人，再做场景，然后人及场景结合优化，很是费时吃力。咱们的思绪反过来，先总后分，先拿到一个年夜的重修成果，然后再从这个年夜的重修成果内里，一点一点把咱们需要的，好比人体的pose或者者物体的pose给读出来，末了可以实现人及场景端到端直出地效果。这是咱们思绪上的区分。

末了给咱们试验室打个告白。由于我是方才回国任教，咱们试验室重要还有是做关在人的一切，咱们做人脸，做人体，做人及物的交互，人及场景的交互，人及人的交互，咱们做衣服，咱们做肌肉，咱们做骨骼，做静态的人、动态的动作，咱们城市做，只要是及人相干的，都是咱们研究的重点，别的，小动物也是咱们感兴致的。咱们试验室也于雇用各类各样的拜候的同窗，实习生，RA，PhD以和 Postdoc，以是假如各人对于咱们的事情感兴致，接待后续跟踪咱们的最新进展，也接待插手咱们一路干，谢谢。

雷峰网文章

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-中国·710公海寰宇

产品

服务

关于710公海寰宇

信息公开

产品 +

服务 +

关于710公海寰宇 +

信息公开 +

投资者关系

加入710公海寰宇

客户留言