ImprovedAnalysisofClippingAlgorithmsfor Non-convexOptimization

Feb-9-2026, 21:30:41 GMT–Neural Information Processing Systems

Gradient clipping is commonly used in training deep neural networks partly due to its practicability in relieving the exploding gradient problem. Recently, Zhang et al. [2020a] show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD via introducing a new assumption called (L0,L1)smoothness, which characterizes the violent fluctuation of gradients typically encountered in deep neural networks.

algorithm, artificial intelligence, machine learning, (18 more...)

Neural Information Processing Systems

Feb-9-2026, 21:30:41 GMT

Conferences PDF

Add feedback

Country:
- North America > Canada > British Columbia > Metro Vancouver Regional District > Vancouver (0.04)

Technology:
- Information Technology > Artificial Intelligence > Machine Learning
  - Neural Networks > Deep Learning (0.72)
  - Statistical Learning > Gradient Descent (0.56)

Duplicate Docs Excel Report

Title
b282d1735283e8eea45bce393cefe265-Paper.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found