Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings

Aug-28-2024–arXiv.org Artificial Intelligence

Text classification, a classic task in natural language processing (NLP), involves assigning predefined categories to textual data and is crucial for applications ranging from sentiment analysis to spam detection. This thesis advances text classification by harnessing the intrinsic knowledge of Pretrained Language Models (PLMs) to address three challenging scenarios: distractor selection for multiple-choice cloze questions, improving robustness for prompt-based zero-shot text classification, and demonstration selection for retrieval-based in-context learning. Firstly, we focus on selecting distractors for multiple-choice cloze questions, ensuring that they are misleading yet incorrect. We assess the relationship between human experts' annotations (accept/reject) and various features, including context-free features (e.g., word frequency) and context-sensitive features (e.g., conditional probabilities of fillin-the-blank words). We utilize pretrained embeddings and follow annotation instructions for context-free feature design, and we find that using contextualized word representations from PLMs as features drastically improves performance over traditional feature-based models, even rivaling human performance (Chapter 3).

artificial intelligence, natural language processing, text classification task, (16 more...)

arXiv.org Artificial Intelligence

Aug-28-2024

arXiv.org PDF

Add feedback

Country:
- South America > Colombia
  - Meta Department > Villavicencio (0.04)
- Oceania
  - Palau (0.04)
  - Australia
    - Victoria > Melbourne (0.04)
    - Queensland > Brisbane (0.04)
    - New South Wales > Sydney (0.04)
- North America
  - Dominican Republic (0.04)
  - United States
    - Maryland > Baltimore (0.04)
    - Nevada (0.04)
    - Minnesota > Hennepin County
      - Minneapolis (0.14)
    - Arizona > Maricopa County
      - Scottsdale (0.04)
    - Hawaii > Honolulu County
      - Honolulu (0.04)
    - Louisiana > Orleans Parish
      - New Orleans (0.04)
    - Utah > Salt Lake County
      - Salt Lake City (0.04)
    - Oregon > Multnomah County
      - Portland (0.04)
    - Massachusetts > Middlesex County
      - Cambridge (0.04)
    - Illinois > Cook County
      - Chicago (0.04)
    - California > Los Angeles County
      - Long Beach (0.13)
    - Florida > Miami-Dade County
      - Miami (0.04)
    - Washington > King County
      - Seattle (0.13)
    - Colorado > Boulder County
      - Boulder (0.04)
    - New York > New York County
      - New York City (0.04)
  - Canada
    - Ontario > Toronto (0.04)
    - Quebec
      - Montreal (0.04)
      - Capitale-Nationale Region
        Québec (0.04)
        Quebec City (0.04)
    - Alberta > Census Division No. 15
      - Improvement District No. 9 > Banff (0.04)
- Europe
  - Austria (0.04)
  - United Kingdom > England (0.04)
  - Czechia > Prague (0.04)
  - Spain
    - Valencian Community > Valencia Province
      - Valencia (0.04)
    - Catalonia > Barcelona Province
      - Barcelona (0.04)
  - Denmark > Capital Region
    - Copenhagen (0.04)
  - Romania > Sud - Muntenia Development Region
    - Giurgiu County > Giurgiu (0.04)
  - Italy > Calabria
    - Catanzaro Province > Catanzaro (0.04)
  - Croatia > Dubrovnik-Neretva County
    - Dubrovnik (0.04)
  - Ireland > Leinster
    - County Dublin > Dublin (0.04)
  - Belgium > Brussels-Capital Region
    - Brussels (0.04)
- Asia
  - North Korea (0.13)
  - China > Hong Kong (0.04)
  - Singapore (0.04)
  - Indonesia > Bali (0.04)
  - Vietnam > Long An Province
    - Tân An (0.04)
  - Taiwan > Taiwan Province
    - Taipei (0.04)
  - Middle East
    - Jordan (0.04)
    - UAE > Abu Dhabi Emirate
      - Abu Dhabi (0.04)
    - Qatar > Ad-Dawhah
      - Doha (0.04)
  - Japan > Honshū
    - Tōhoku (0.04)
    - Kantō > Kanagawa Prefecture
      - Yokohama (0.04)
- Africa > Rwanda
  - Kigali > Kigali (0.04)

Genre:
- Overview (1.00)
- Research Report
  - New Finding (1.00)
  - Experimental Study (0.92)

Industry:
- Automobiles & Trucks (1.00)
- Leisure & Entertainment > Sports (0.45)
- Health & Medicine > Consumer Health (0.45)
- Education > Educational Setting (0.45)
- Media
  - Film (0.45)
  - News (0.45)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language
    - Text Processing (1.00)
    - Text Classification (1.00)
    - Large Language Model (1.00)
    - Chatbot (1.00)
  - Machine Learning
    - Statistical Learning (1.00)
    - Neural Networks > Deep Learning (1.00)
    - Learning Graphical Models > Directed Networks
      - Bayesian Learning (0.34)

Duplicate Docs Excel Report

Title
None found

Similar Docs Excel Report more

Title	Similarity	Source
None found