TowardsCalibratedRobustFine-Tuningof Vision-LanguageModels