GitHub

Introduction:

This research project explores LLM behavior on code-switched corpora in English and Spanish. Foundational work in this field includes the LinCE benchmark on code-switching tasks. Much of the existing data in this field is pulled from short social media interactions on Twitter (now X). Furthermore, LinCE does not explore generative tasks. Due to the rise in generative models, examining generative LLM behavior on similar data is important. Finally, human speech data is available. Short tweets or posts may not accurately represent human interactions. Using the Bangor Miami Corpus, I can validate and/or fine-tune Sagor Sarker's code-switched models (github: sagorbrur). In this way, I can expand on existing research towards both generative tasks and human data.

Files: job*.slurm files represent requests for compute on my clusters. You can use these files as guidelines for RAM, CPU, GPU needs for the code I am running.

prompting.py files are different kinds of prompts to the Mistral-8x7b Intruct model. They can be with Spanish, English, or a Mix.

The databricks files represent massive instruction datasets for LLMs. In addition to the human speech data, this is additional data that this project may use.

(https://huggingface.co/datasets/databricks/databricks-dolly-15k).

prompts.tsv pulls prompts from a similar study on South East Asian languages. Any references to languages that are out of scope (not English/Spanish) are modified to refer to the English/Spanish language pair. Any cultural and geographic references are similarly modified.

References: Sagor Sarker: https://github.com/sagorbrur/codeswitch https://huggingface.co/sagorsarker/codeswitch-spaeng-lid-lince/tree/main

Aguilar, Kar, Solorio: https://arxiv.org/abs/2005.04322

Bangor Miami Corpus: http://bangortalk.org.uk/speakers.php?c=miami

Prompting Data: https://github.com/Southeast-Asia-NLP/LLM-Code-Mixing

Name		Name	Last commit message	Last commit date
Latest commit History 436 Commits
README.md		README.md
databricks-dolly-15k.jsonl		databricks-dolly-15k.jsonl
databricks-dolly-codeswitched.json		databricks-dolly-codeswitched.json
eval.py		eval.py
finetuneLID.py		finetuneLID.py
instructDataPrompting.py		instructDataPrompting.py
instructDataPrompting1.py		instructDataPrompting1.py
instructDataPrompting2.py		instructDataPrompting2.py
instructDataPrompting3.py		instructDataPrompting3.py
instructDataPrompting4.py		instructDataPrompting4.py
instructDataPromptingEven.py		instructDataPromptingEven.py
job.slurm		job.slurm
jobAuto.slurm		jobAuto.slurm
jobEnglish.slurm		jobEnglish.slurm
jobIDP.slurm		jobIDP.slurm
jobIDP1.slurm		jobIDP1.slurm
jobIDP2.slurm		jobIDP2.slurm
jobIDP3.slurm		jobIDP3.slurm
jobIDP4.slurm		jobIDP4.slurm
jobInstructData.slurm		jobInstructData.slurm
jobInstructDataPrompting.slurm		jobInstructDataPrompting.slurm
jobInstructEven.slurm		jobInstructEven.slurm
jobLIDTest.slurm		jobLIDTest.slurm
jobLidVerify.slurm		jobLidVerify.slurm
jobMiamiLID.slurm		jobMiamiLID.slurm
jobMiamiProb.slurm		jobMiamiProb.slurm
jobMistralLIDPOS.slurm		jobMistralLIDPOS.slurm
jobMix.slurm		jobMix.slurm
jobPosVerify.slurm		jobPosVerify.slurm
jobScratch.slurm		jobScratch.slurm
jobTest.slurm		jobTest.slurm
jobZero.slurm		jobZero.slurm
job_lid_prob.slurm		job_lid_prob.slurm
lid.py		lid.py
lidCall.py		lidCall.py
lidInterpreter.py		lidInterpreter.py
miamiCorpusLID.py		miamiCorpusLID.py
miamiCorpusPOS.py		miamiCorpusPOS.py
miamiProbabilities.py		miamiProbabilities.py
mistalPrompting.py		mistalPrompting.py
mistralAutoPrompt.py		mistralAutoPrompt.py
mistralPOSLID.py		mistralPOSLID.py
mistralPromptingEsp.py		mistralPromptingEsp.py
mistralPromptingMix.py		mistralPromptingMix.py
mistralPromptingZeroShot.py		mistralPromptingZeroShot.py
mistral_prob_given_temperature.py		mistral_prob_given_temperature.py
posCall.py		posCall.py
scratch.py		scratch.py
test.py		test.py

ctarnold/jpLLM

Folders and files

Latest commit

History

Repository files navigation

About

Topics

Resources

Stars

Watchers

Forks

Languages