최근 OpenAI의 GPT-4o와 같은 시각-언어 모델(Vision-Language Models, VLMs)이 텍스트와 이미지를 함께 처리하는 능력에서 놀라운 발전을 보이고 있다. 이러한…