A Communication-Efficient Distributed Gradient Clipping Algorithm for Training Deep Neural Networks

Aug-17-2025, 11:14:27 GMT–Neural Information Processing Systems

In distributed training of deep neural networks, people usually run Stochastic Gradient Descent (SGD) or its variants on each machine and communicate with other machines periodically.

artificial intelligence, deep learning, machine learning, (16 more...)

Neural Information Processing Systems

Aug-17-2025, 11:14:27 GMT

Conferences PDF

Country:
- North America > United States
  - Texas > Brazos County
    - College Station (0.04)
  - California > Los Angeles County
    - Long Beach (0.04)
- Europe > United Kingdom
  - England > West Midlands > Birmingham (0.04)

Genre:
- Research Report (0.93)

Technology:
- Information Technology > Artificial Intelligence > Machine Learning > Neural Networks > Deep Learning (1.00)

Duplicate Docs Excel Report

Title
ACommunication-Efficient Distributed Gradient Clipping Algorithmfor Training Deep Neural Networks

Similar Docs Excel Report more

Title	Similarity	Source
None found