GitHub - lost-particles/echoLLM

Language Models as Reward Functions for Reinforcement Learning :

Abstract :

In this Project, we propose a framework in which large language models (LLMs) generate reward signals by evaluating agent transi- tions against human-readable task descriptions. We instantiate this approach in two benchmark environments—Frozen Lake and Black- jack—within a Q-learning paradigm, comparing LLM-derived rewards in no-memory, long-term, short-term, and summary-memory modes against traditional numeric rewards trained over 500 episodes for Blackjack and 400 episodes for Frozen Lake. Our results highlight the potential of language-driven rewards to provide a more flexible and intuitive mechanism for training RL agents toward generalizable behaviors, advancing the path toward AGI.

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
models		models
obsolete		obsolete
results		results
results_og		results_og
slurm outputs		slurm outputs
.DS_Store		.DS_Store
.gitignore		.gitignore
Agent_Visualizer.ipynb		Agent_Visualizer.ipynb
Copy_of_Frozen_Lake_RL_Demo.ipynb		Copy_of_Frozen_Lake_RL_Demo.ipynb
Persistent_LLM_Rewards.ipynb		Persistent_LLM_Rewards.ipynb
Persistent_LLM_Rewards.py		Persistent_LLM_Rewards.py
README.md		README.md
blackjack-2.ipynb		blackjack-2.ipynb
blackjack.ipynb		blackjack.ipynb
blackjack.py		blackjack.py
copy_of_frozen_lake_rl_demo.py		copy_of_frozen_lake_rl_demo.py
memory_blackjack.py		memory_blackjack.py
requirements.txt		requirements.txt
run_blackjack.sh		run_blackjack.sh
run_persistent_LLM.sh		run_persistent_LLM.sh
stableLLM-Blackjack.out		stableLLM-Blackjack.out
stableLLM-Frozen		stableLLM-Frozen
tinyLlma-Frozen		tinyLlma-Frozen

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages