Building Knowledge-Guided Lexica to Model Cultural Variation

Havaldar, Shreya, Giorgi, Salvatore, Rai, Sunny, Talhelm, Thomas, Guntuku, Sharath Chandra, Ungar, Lyle

Jun-17-2024–arXiv.org Artificial Intelligence

Cultural variation exists between nations (e.g., the United States vs. China), but also within regions (e.g., California vs. Texas, Los Angeles vs. San Francisco). Measuring this regional cultural variation can illuminate how and why people think and behave differently. Historically, it has been difficult to computationally model cultural variation due to a lack of training data and scalability constraints. In this work, we introduce a new research problem for the NLP community: How do we measure variation in cultural constructs across regions using language? We then provide a scalable solution: building knowledge-guided lexica to model cultural variation, encouraging future work at the intersection of NLP and cultural understanding. We also highlight modern LLMs' failure to measure cultural variation or generate culturally varied language.

collectivism, tweet, variation, (16 more...)

arXiv.org Artificial Intelligence

Jun-17-2024

arXiv.org PDF

Add feedback

Country:
- Asia > China (0.24)
- North America
  - United States
    - New York (0.04)
    - Louisiana (0.04)
    - Mississippi (0.04)
    - Massachusetts (0.04)
    - Pennsylvania (0.04)
    - Texas > Travis County
      - Austin (0.04)
    - Illinois > Cook County
      - Chicago (0.04)
    - California
      - San Francisco County > San Francisco (0.24)
      - Los Angeles County > Los Angeles (0.24)
  - Canada > Ontario
    - Toronto (0.04)
- Europe
  - Austria > Vienna (0.14)
  - Spain > Galicia
    - Madrid (0.04)
  - Slovenia > Drava
    - Municipality of Benedikt > Benedikt (0.04)
  - Croatia > Dubrovnik-Neretva County
    - Dubrovnik (0.04)
  - Belgium > Brussels-Capital Region
    - Brussels (0.04)

Genre:
- Research Report > New Finding (0.46)

Industry:
- Health & Medicine > Therapeutic Area (0.47)
- Information Technology > Services (0.46)

Technology:
- Information Technology
  - Communications > Social Media (1.00)
  - Artificial Intelligence
    - Natural Language > Large Language Model (1.00)
    - Representation & Reasoning (0.93)
    - Machine Learning > Neural Networks
      - Deep Learning (0.70)

Duplicate Docs Excel Report

Title
None found

Similar Docs Excel Report more

Title	Similarity	Source
None found