给环球共享一项在策动机视觉顶会CVPR 2025上被接纳的重磅接头,来自上海交通大学,上海东说念主工智能实际室等机构,论文名为 《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》(基于神经特征函数的数据集蒸馏:一个 Minmax 视角)
这项接头不错说是在数据蒸馏领域投下了一颗“深水炸弹”,它提议了一种全新的设施NCFM (Neural Characteristic Function Matching,神经特征函数匹配),不仅大幅擢升了数据蒸馏的性能,更在资源效劳上完了了质的飞跃!
比拟于DATM等SOTA设施,NCFM的GPU显存占用裁减了300倍以上!检会速率擢升了20倍!更令东说念主畏惧的是,NCFM仅用2.3GB显存,就在单张NVIDIA2080TiGPU上生效完成了CIFAR-100的无损蒸馏!这在之前是难以联想的。
话未几说,我给环球划个要点。
配景:大数据时间的“瘦身术”——数据集蒸馏在东说念主工智能领域,咱们常说“数据为王”。 模子要强大,海量数据少不了。 然则,大数据也带来了新的挑战:
存储压力山大: 动辄TB甚而PB级别的数据,存储资本腾贵检会耗时漫长: 在海量数据上检会模子,策动资源和时候资本都让东说念主望而生畏内存瓶颈突显:大模子 + 大数据,GPU显存分分钟被榨干为了处置这些问题,数据蒸馏 (Dataset Distillation)期间应时而生。 它的方向就像给数据集作念“瘦身”, 用一丝合成数据 (Synthetic Data) “浓缩” 原始大数据集 (Real Data) 的精华信息,让模子仅用这些“迷你”数据就能达到甚而卓绝在原始数据集上的检会效劳。
现存设施的窘境: “像素级”匹配 vs. “分散级”互异当今,数据集蒸馏设施主要分为两大类:
特征匹配 (Feature Matching): 这类设施就像“像素级”比对,径直比较合成数据和实在数据在特征空间的相通度。 举例,早期的 MSE (均方错误) 设施即是典型代表,但它通常忽略了数据的高维语义信息,效劳有限。分散匹配 (Distribution Matching): 这类设施更留心“分散级”的相通性,试图让合成数据和实在数据在分散上尽可能一致。 MMD (最大均值互异) 是常用的度量野心,但接头标明,MMD只是对皆了数据的低阶矩,并不可保证举座分散的相通性,并且策动复杂度较高。简便来说,现存设施要么过于简便罪行,无法捕捉数据的深层分散;要么策动复杂,效劳不高。这就限度了数据集蒸馏期间的进一步发展。
NCFM: Minmax 博弈下的“神经特征函数”为了破裂现存设施的瓶颈,NCFM 从全新的 Minmax 博弈视角动身, 引入了 “神经特征函数互异 (Neural Characteristic Function Discrepancy, NCFD)” 这一立异度量野心。
1. Minmax 博弈: “矛与盾”的抵抗学习
NCFM 将数据集蒸馏问题重新界说为一个 Minmax 优化问题,就像一场“矛与盾”的抵抗游戏:
“矛” (Discrepancy Metric Network, 互异度量会聚 ψ):它的方向是 最大化 (Max)合成数据和实在数据之间的互异 (Discrepancy), 勤快找到一个最能离别二者分散的“判别器”。 这个“判别器”即是神经特征函数互异 (NCFD)“盾” (Synthetic Data, 合成数据 D):它的方向是 最小化 (Min) 在 “矛” 的度量下,合成数据和实在数据之间的互异, 勤快生成尽可能“传神”的合成数据, “诈欺” “判别器”通过 “矛与盾” 的不休抵抗和迭代优化,NCFM 大概 自适合地学习到一个更鲁棒、更灵验的互异度量野心 (NCFD), 并生成更高质地的合成数据。 这种 Minmax 框架与 GANs 的抵抗生成念念想有不谋而合之妙,但方向和完了神情却人大不同。
2. NCFD: 基于“特征函数”的全面分散描摹
NCFD 的中枢立异在于 “神经特征函数互异” 这一度量野心。 它奥秘地哄骗了特征函数 (Characteristic Function, CF)的强大智商来描摹数据分散
什么是特征函数 (CF)?简便来说, 特征函数即是概率密度函数的傅里叶变换。它具有以下枢纽上风:
独一性:一个分散对应独一的特征函数,反之也是。这意味着特征函数大概完好、无损地编码分散的一说念信息全面性: 特征函数包含了分散的悉数矩信息,比 MMD 仅对皆低阶矩更全面NCFD 如何“神经”?NCFM 并莫得径直使用传统的特征函数,而是引入了一个轻量级的神经会聚 ψ 来学习特征函数的频率参数 t 的采样战术。这么作念的公正是:
自适合性: 神经会聚 ψ 不错阐明数据分散的特色, 动态转机频率参数的采样战术, 最大化互异度量 (NCFD)高效性:比拟于 MMD 的二次复杂度, NCFD 的策动复杂度是线性的,更高效3. 相位 (Phase) 与幅度 (Amplitude) 的精妙均衡
NCFM 在 NCFD 的策动中, 很是关切了神经会聚特征在复数域的 “相位 (Phase)” 和 “幅度 (Amplitude)” 信息
相位信息:编码了数据的 “中心” 和 “模式”, 关于保证合成数据的 “实在性 (Realism)”至关热切幅度信息:响应了数据的“规范” 和 “范围”, 有助于擢升合成数据的“种种性 (Diversity)”。NCFM 通过精妙地均衡相位和幅度信息, 使得合成数据既能保合手实在感,又能兼顾种种性, 从而显耀擢升了蒸馏性能
实际收尾: 性能与效劳的双重 “王炸”实际收尾充剖析说了 NCFM 的超卓性能和效劳:
性能大幅卓绝 SOTA: 在 CIFAR-10, CIFAR-100, Tiny ImageNet 以及高分辨率的 ImageNet 子集上,NCFM 都显耀卓绝了现存开端进 (SOTA) 的数据集蒸馏设施。 在 ImageSquawk 高分辨率数据集上,NCFM 甚而获取了惊东说念主的 20.5% 的精度擢升!资源效劳惊东说念主:比拟于 DATM 等 SOTA 设施,NCFM 的 GPU 显存占用裁减了 300 倍以上! 检会速率擢升了 20 倍!更令东说念主畏惧的是,NCFM 仅用 2.3GB 显存,就在单张 NVIDIA 2080 Ti GPU 上生效完成了 CIFAR-100 的无损蒸馏! 这在之前是难以联想的本文来源:AI寒武纪,原文标题:《上交CVPR 满分论文数据蒸馏期间,径直把 GPU 显存 “砍掉” 300 倍》
风险指示及免责条目 市集有风险,投资需严慎。本文不组成个东说念主投资建议,也未讨论到个别用户很是的投资方向、财务情状或需要。用户应试虑本文中的任何观点、不雅点或论断是否稳健其特定情状。据此投资,背负自诩。