数据建模目前两种通用方式(融合问题建模的数据表示之探讨)

在多维信号表示发展的历史长河中,傅立叶变换曾经长时间占据信号处理的统治地位,但由于其局部模式分析不足,人们逐步研究出小波分析、多尺度几何分析(如Ridgelet、 Curvelet变换)等不同形式的固定基函数系统,提供人工解析形式的数据表示或者变换。其典型构造思想在于采取各向异性基提升信号的特征表达、几何奇异性捕获和逼近能力。冗余与稀疏表示方法曾风靡一时,形态分量分析方法(Morphological Component Analysis,MCA),稀疏子空间聚类(Sparse Subspace Clustering,SSC)等研究延续至今并热力不减。然而,经典的“稀疏表示”方法通常以度量向量的一阶稀疏性为主要手段,其对类似图像等数据结构信号紧致表示能力有限。

对于二维图像信号而言,由于图像往往是冗余的,内部存在大量相似性,度量矩阵的低维结构的有效方式是结构化的稀疏性,这表现为矩阵低秩(low rank)性。矩阵的秩是向量稀疏性的高阶推广。向量稀疏性模型往往在矩阵低秩下可以得到推广,性能更为优异。以矩阵“秩”为度量的低秩表示已经证实是矩阵型结构数据冗余性,更好地刻画图像低维结构,例如低秩去噪可以取得更好的效果。基于矩阵低秩极小化,人们提出矩阵填补、矩阵回归、鲁棒PCA等方法。例如,鲁棒PCA就是将一个矩阵分解为一个尽可能低秩的矩阵和一个尽可能稀疏的矩阵。该方法被广泛应用于视频背景建模、人脸识别、雨滴去除、旧电影修复等。在高光谱遥感中,稀疏和低秩融合、稀疏子空间聚类、稀疏与低秩表示、监督分类与异常检测等是目前的研究热点。

数据建模目前两种通用方式(融合问题建模的数据表示之探讨)(1)

随着成像硬件的发展,所获取的多维数据表现为大体量、多样化的多模多通道矩阵信号。以高光谱遥感数据为例,通常以巨大的分块矩阵或多路数组(multi-way array)的形式表示,又称之为张量(tensor)。这些多路数据往往需要进行模式转换才能在特定的容许时间内高效处理海量数据集(快速性),这促使人们开始重新关注适用于超大数据集的矩阵和张量算法。从多线性代数为基础的张量分析的视角看,向量是一阶张量,矩阵是二阶张量,当遇到三维数组或更高阶的数据时,高阶张量表示因其更为丰富的多路分量分析和代数特征,具有数据多视角内在结构的捕获和表达能力。

对于高维数据,直接的方法是表达为高阶张量,可以推广矩阵秩的相关概念,引入张量秩,通过多重线性数据分析挖掘高维数据的内在本质结构,如Turker分解(或称为高阶SVD分解)和典范分解(canonical polyadic,分解为秩-1张量之和)等。在矩阵分析中,矩阵的秩是唯一确定的概念,即矩阵的行秩、列秩和矩阵秩相同。但在张量情形中,秩的概念并不像矩阵秩那样唯一定义,研究者构造了不同形式的张量秩。例如,一种张量的秩的定义形式是相对于矩阵的行秩和列秩进行描述,其方法是通过高阶张量矩阵化,通过张量模n-展开矩阵的秩进行定义。张量分析具有如下优势:

1. 提供快速且灵活地表示框架,能同时表示结构丰富的数据和复杂的优化。

2. 提供大规模多维数据的压缩形式,通过张量化和低秩张量分解,将大规模多维数据有效压缩成低阶因子矩阵及核心张量。

3. 具有处理有噪声和有缺失的数据的能力,能够利用低秩张量或矩阵逼近算法的数值稳定性和鲁棒性处理不完备数据或噪声数据。

4. 提供自然结合各种多样性先验和约束的灵活框架,可以无缝地将标准成分分析(双路成分分析)方法扩展到多路成分分析;在张量秩最小化的框架下建立低秩张量恢复、基于张量的RPCA、张量压缩感知等相关理论与方法。

5. 基于张量表示可以建立张量框架下的机器学习模型。由于张量能够保持关于对象结构的固有信息,张量表示通常有助于减轻鉴别性子空间选择中出现的小样本问题。

6. 在实际高维信号处理中,也可以将直接域是低阶张量的数据通过张量化操作组织为高阶张量然后执行多重线性分析。由于张量是向量和矩阵的自然推广,因此在张量表示框架下,可以建立张量PCA分解、张量填补(tensor completion)等,发展张量回归(tensor regression)新型机器学习方法;也可以与深度学习结合,建立张量队列网络(tensor train network)等。张量表示框架对于高光谱图像处理与分析具有天然优势,大多数稀疏与矩阵低秩分析算法可方便地推广到张量情形,如张量表示融合超分辨、监督分类,都能获得更为优异的性能。

随着深度学习模型的兴起,数据驱动式的高维信号表示学习方法在学术界与工业界如火如荼。虽然早期神经网络学习是受模拟生物学习所启发,但是深度学习的发展超越了神经科学的观点,通过学习“多层次复合函数”的更普遍原理,可以产生新的机器学习框架。深度学习通过较简单的表示来表达复杂表示,解决了表示学习的核心问题。大量深度学习模型应用于高光谱图像低层反问题(去噪、复源、超分辨)、多源融合等领域,也应用于混合像元分解、地物监督分类、目标检测识别等领域,并取得了前所未有的性能提升。然而,数据驱动的深度学习方法存在“过拟合现象”、“小样本学习能力不足”、“黑盒导致的不可解释性”以及“参数难调”等问题。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页