T-SNE Is Not Optimized to Reveal Clusters in Data

Yang, Zhirong, Chen, Yuwei, Corander, Jukka

Oct-6-2021–arXiv.org Machine Learning

The rapid growth in the amount of data processed by analysts demands more efficient information digestion and communication methods. Data visualization by dimensionality reduction facilitates a viewer to digest information in massive data sets quickly. Therefore, it is increasingly applied as a critical component in scientific research, digital libraries, data mining, financial data analysis, market studies, manufacturing production control, drug discovery, etc. Stochastic Neighbor Embedding (SNE) [4] is a widely used nonlinear dimensionality reduction (NLDR) method, which approximately preserves the pairwise probabilities of being neighbors (neighboring probabilities for short) in the input space. In particular, the Student t-Distributed Stochastic Neighbor Embedding (t-SNE) [9] has become one of the most popular nonlinear dimensionality reduction methods for data visualization. The t-SNE method employs a heavy-tailed distribution for the neighboring probabilities in the embedding and minimizes their Kullback-Leibler divergence against the precomputed input probabilities.

artificial intelligence, health & medicine, machine learning, (16 more...)

arXiv.org Machine Learning

Oct-6-2021

arXiv.org PDF

Add feedback

Country:
- Europe (0.14)

Genre:
- Research Report > New Finding (0.46)

Industry:
- Health & Medicine > Pharmaceuticals & Biotechnology (0.49)

Technology:
- Information Technology
  - Artificial Intelligence > Machine Learning
    - Statistical Learning (1.00)
  - Data Science (1.00)