HITgram: A Platform for Experimenting with n-gram Language Models

Dasgupta, Shibaranjani, Maity, Chandan, Mukherjee, Somdip, Singh, Rohan, Dutta, Diptendu, Jana, Debasish

Dec-14-2024–arXiv.org Artificial Intelligence

Large language models (LLMs) are powerful but resource intensive, limiting accessibility. HITgram addresses this gap by offering a lightweight platform for n-gram model experimentation, ideal for resource-constrained environments. It supports unigrams to 4-grams and incorporates features like context sensitive weighting, Laplace smoothing, and dynamic corpus management to e-hance prediction accuracy, even for unseen word sequences. Experiments demonstrate HITgram's efficiency, achieving 50,000 tokens/second and generating 2-grams from a 320MB corpus in 62 seconds. HITgram scales efficiently, constructing 4-grams from a 1GB file in under 298 seconds on an 8 GB RAM system. Planned enhancements include multilingual support, advanced smoothing, parallel processing, and model saving, further broadening its utility.

large language model, machine learning, natural language, (20 more...)

arXiv.org Artificial Intelligence

Dec-14-2024

arXiv.org PDF

Add feedback

Country:
- North America > United States
  - California > Santa Clara County > Palo Alto (0.04)
- Europe > Czechia
  - South Moravian Region > Brno (0.04)
- Asia > India
  - West Bengal > Kolkata (0.04)

Genre:
- Research Report (0.82)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language
    - Large Language Model (1.00)
    - Chatbot (0.69)
    - Text Processing (0.69)
  - Machine Learning > Neural Networks
    - Deep Learning (0.69)

Duplicate Docs Excel Report

Title
None found

Similar Docs Excel Report more

Title	Similarity	Source
None found