Small Language Models

This repository contains code for the paper Mini Minds: Exploring Bebeshka and Zlata Baby Models accepted to BabyLM Shared task (CoNLL 2023).

In this work, we investigate the optimal size of language models minimizing perplexity on BabyLM shared task (Warstadt et al. (2023)) data and present a small 4-layer RoBERTa and 6-layer GPT-2 pre-trained on a 10M version of the corpus comparable to children's vocabulary.

We evaluate LMs on the ETHICS dataset and show that small LMs perform on par with LLMs on such tasks as Virtuous judgements.

Available Baby LMs:

Zlata-TinyStories (6-layer GPT-2 pre-trained on TinyStories corpus)
Bebeshka (4-layer RoBERTa pre-trained on a 10M BabyLM corpus)
Zlata (6-layer GPT-2 pre-trained on a 10M BabyLM corpus)

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.gitignore		.gitignore
IPU_gpt2_pretraining.ipynb		IPU_gpt2_pretraining.ipynb
IPU_roberta_pretraining.ipynb		IPU_roberta_pretraining.ipynb
README.md		README.md
download_data.sh		download_data.sh
gpt2_tokenizer_training.ipynb		gpt2_tokenizer_training.ipynb
optuna_mlm_architecture_search.ipynb		optuna_mlm_architecture_search.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

IPU_gpt2_pretraining.ipynb

IPU_gpt2_pretraining.ipynb

IPU_roberta_pretraining.ipynb

IPU_roberta_pretraining.ipynb

README.md

README.md

download_data.sh

download_data.sh

gpt2_tokenizer_training.ipynb

gpt2_tokenizer_training.ipynb

optuna_mlm_architecture_search.ipynb

optuna_mlm_architecture_search.ipynb

Repository files navigation

Small Language Models

About

Languages

upunaprosk/small-language-models

Folders and files

Latest commit

History

Repository files navigation

Small Language Models

About

Topics

Resources

Stars

Watchers

Forks

Languages