降维的方法主要有

发布网友发布时间：2022-04-21 19:02

共1个回答

热心网友时间：2023-08-31 08:38

在分析高维数据时，降维（Dimensionality rection，DR）方法是我们不可或缺的好帮手。

作为数据去噪简化的一种方法，它对处理大多数现代生物数据很有帮助。在这些数据集中，经常存在着为单个样本同时收集数百甚至数百万个测量值的情况。

由于“维度灾难”（curse of dimensionality）的存在，很多统计方法难以应用到高维数据上。虽然收集到的数据点很多，但是它们会散布在一个庞大的、几乎不可能进行彻底探索的高维空间中。

通过降低数据的维度，你可以把这个复杂棘手的问题变得简单轻松。除去噪音但保存了所关注信息的低维度数据，对理解其隐含的结构和模式很有帮助。原始的高维度数据通常包含了许多无关或冗余变量的观测值。降维可以被看作是一种潜在特征提取的方法。它也经常用于数据压缩、数据探索以及数据可视化。

虽然在标准的数据分析流程中已经开发并实现了许多降维方法，但它们很容易被误用，并且其结果在实践中也常被误解。

本文为从业者提供了一套有用的指南，指导其如何正确进行降维，解释其输出并传达结果。

技巧1：选择一个合适的方法

当你想从现有的降维方法中选择一种进行分析时，可用的降维方法的数量似乎令人生畏。事实上，你不必拘泥于一种方法；但是，你应该意识到哪些方法适合你当前的工作。

降维方法的选择取决于输入数据的性质。比如说，对于连续数据、分类数据、计数数据、距离数据，它们会需要用到不同的降维方法。你也应该用你的直觉和相关的领域知识来考虑收集到的数据。通常情况下，观测可以充分捕获临近（或类似）数据点之间的小规模关系，但并不能捕获远距离观测之间的长期相互作用。对数据的性质和分辨率的考虑是十分重要的，因为降维方法可以还原数据的整体或局部结构。一般来说，线性方法如主成分分析（Principal Component Analysis, PCA）、对应分析（Correspondence Analysis, CA）、多重对应分析（Multiple Correspondence Analysis, MCA）、经典*尺度分析（classical multidimensional scaling, cMDS）也被称为主坐标分析（Principal Coordinate Analysis, PCoA）等方法，常用于保留数据的整体结构；而非线性方法，如核主成分分析（Kernel Principal Component Analysis, Kernel PCA）、非度量*尺度分析（Nonmetric Multidimensional Scaling, NMDS）、等度量映射（Isomap）、扩散映射（Diffusion Maps）、以及一些包括t分布随机嵌入（t-Distributed Stochastic Neighbor Embedding, t-SNE）在内的邻近嵌入技术，更适合于表达数据局部的相互作用关系。NE技术不会保留数据点之间的长期相互作用关系，其可视化报告中的非临近观测组的排列并没有参考价值。因此，NE的图表不应该被用于数据的大规模结构的推测

全部栏目

降维的方法主要有