google deepmind 논문 https://arxiv.org/abs/2405.16363 리뷰해보자.
다음의 LLM을 사용한 두가지 전략이 있음.
이 논문에서는 exploration-oriented 방법에 집중하였고, user clustering을 LLM(general knowledge)을 통해 유저 관심사를 잘 catch해서 reinforcement learning에 긍정적인 효과를 낼 수있도록 한것으로 보임.