random_image

[Arxiv'24] Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Efficient

tony | Dec. 24, 2024, 2:21 p.m. | paper-review | arxiv llm

최근 발표된 ModernBERT 로 불리우는 방법을 제안한 논문

BERT 는 근래 LLM 의 발전으로 transformer 의 decoder 모델인 GPT 계열 모델보다 연구가 뒤쳐진듯 해 보인다.

그러나, 이번에 좀 실용적인 arxiv 논문이 나온 관계로 리뷰해보고자 함.

BERT의 큰 단점은 아래 두가지 사항이다.

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning  논문에서 이러한 단점을 다음의 제안된 방식을 바탕으로 MordenBERT라는 모델을 가지고 나왔다.

위의 방법들을 토대로 최대 8192 토큰의 시퀀스 길이를 처리할 수 있으며 Flash Attention 사용 시 GPU 메모리 계층구조를 활용해 계산 속도가 크게 증가한다고 함.

특히, Tri Dao 에 의해 NIPS 2022 에 처음 나온 Flash Attention은 최근 LLM 모델들에도 적용되고 있어서 알아놓으면 좋을 듯 함.

 

논문에서 언급된 answerdotai/ModernBERT-base 또는 answerdotai/ModernBERT-large를 Hugging Face에서 검색하여 사용 가능.

https://huggingface.co/answerdotai/ModernBERT-base 

 

 

Last updated on Dec. 24, 2024, 2:28 p.m.

LEAVE A COMMENT

tony | 3 months, 3 weeks ago

Flash Attention에 대해 다음 영상에서 잘 설명하고 있어서 보면 좋을 것 같음. FlashAttn 3까지도 후속연구가 진행된 방법.

결론적으로 GPU 계층에서 IO 를 줄이는 방법으로 Attention 계산 효율성을 돕는 방법.