BERT 는 근래 LLM 의 발전으로 transformer 의 decoder 모델인 GPT 계열 모델보다 연구가 뒤쳐진듯 해 보인다.
그러나, 이번에 좀 실용적인 arxiv 논문이 나온 관계로 리뷰해보고자 함.
BERT의 큰 단점은 아래 두가지 사항이다.
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning 논문에서 이러한 단점을 다음의 제안된 방식을 바탕으로 MordenBERT라는 모델을 가지고 나왔다.
Rotary Positional Embeddings (RoPE) for long-context support.
Local-Global Alternating Attention for efficiency on long inputs.
Unpadding and Flash Attention for efficient inference.
위의 방법들을 토대로 최대 8192 토큰의 시퀀스 길이를 처리할 수 있으며 Flash Attention 사용 시 GPU 메모리 계층구조를 활용해 계산 속도가 크게 증가한다고 함.
특히, Tri Dao 에 의해 NIPS 2022 에 처음 나온 Flash Attention은 최근 LLM 모델들에도 적용되고 있어서 알아놓으면 좋을 듯 함.
논문에서 언급된 answerdotai/ModernBERT-base 또는 answerdotai/ModernBERT-large를 Hugging Face에서 검색하여 사용 가능.
answerdotai/ModernBERT-base
answerdotai/ModernBERT-large
https://huggingface.co/answerdotai/ModernBERT-base
Flash Attention에 대해 다음 영상에서 잘 설명하고 있어서 보면 좋을 것 같음. FlashAttn 3까지도 후속연구가 진행된 방법.
결론적으로 GPU 계층에서 IO 를 줄이는 방법으로 Attention 계산 효율성을 돕는 방법.