• Home
  • News
  • 미스트랄 AI, 코드 특화 임베딩 모델 ‘코드스트랄 임베드’ 출시… 경쟁사 모델 능가

미스트랄 AI, 코드 특화 임베딩 모델 ‘코드스트랄 임베드’ 출시… 경쟁사 모델 능가

미스트랄 AI, 코드 특화 임베딩 모델 '코드스트랄 임베드' 출시... 경쟁사 모델 능가
이미지 출처: 미스트랄 AI

미스트랄 AI(Mistral AI)가 28일(현지 시간) 코드에 특화된 첫 번째 임베딩 모델인 ‘코드스트럴 임베드(Codestral Embed)’를 출시했다. 이 모델은 실제 코드 데이터에 대한 검색 사용 사례에서 특히 뛰어난 성능을 보인다고 회사 측은 밝혔다. 미스트랄 AI에 따르면, 코드스트럴 임베드는 현재 시장에서 선두를 달리는 코드 임베딩 모델들인 보야지 코드 3(Voyage Code 3), 코히어 임베드 v4.0(Cohere Embed v4.0), 오픈AI(OpenAI)의 대형 임베딩 모델보다 크게 앞선 성능을 보인다.


이 모델은 다양한 차원과 정밀도로 임베딩을 출력할 수 있으며, 검색 품질과 저장 비용 사이의 균형을 조절할 수 있다. 코드스트럴 임베드는 256차원과 int8 정밀도로도 경쟁사의 어떤 모델보다 우수한 성능을 발휘한다. 임베딩의 차원은 관련성에 따라 정렬되어 있어, 사용자는 품질과 비용 간의 균형을 위해 첫 n개 차원을 유지하는 방식으로 활용할 수 있다.

미스트랄 AI는 모델의 성능을 여러 카테고리에서 평가했다. SWE-Bench는 실제 깃허브(GitHub) 이슈와 해당 수정사항을 기반으로 하며, 코딩 에이전트를 위한 검색 강화 생성에 특히 관련성이 높다. Text2Code(GitHub)는 코드 완성이나 편집을 위한 컨텍스트 제공과 관련된 벤치마크를 포함하고 있다. 회사 측은 이 두 카테고리가 코드 어시스턴트에 특히 중요하다고 강조했다.

코드스트럴 임베드는 고성능 코드 검색과 의미적 이해를 위해 최적화되었으며, 대규모 코드 말뭉치 작업 시 개발 워크플로우 전반에 걸쳐 다양한 실용적 응용이 가능하다. 주요 사용 사례로는 검색 강화 생성, 의미적 코드 검색, 유사성 검색 및 중복 감지, 의미적 클러스터링 및 코드 분석 등이 있다.

이 모델은 현재 미스트랄 AI의 API에서 ‘codestral-embed-2505’라는 이름으로 제공되며, 가격은 백만 토큰당 0.15달러다. 또한 배치 API에서는 50% 할인된 가격으로 이용할 수 있다. 온프레미스 배포를 원하는 경우 회사의 응용 AI 팀에 문의할 수 있다. 검색 사용 사례의 경우, 8192 토큰의 전체 컨텍스트 크기를 사용할 수 있지만 데이터셋을 청킹하는 것이 더 효율적이다. 미스트랄 AI는 1000자 겹침이 있는 3000자 청크를 사용할 것을 권장했다. 더 큰 청크는 검색 시스템의 성능에 부정적인 영향을 미칠 수 있다.

미스트랄 AI는 모델 평가에 사용된 벤치마크의 세부 정보를 공개했으며, 각 카테고리별 평균 점수와 매크로 평균(각 카테고리 점수의 평균)을 보고했다. 벤치마크에는 SWE-Bench lite, CodeSearchNet Code -> Code, CodeSearchNet doc2code, CommitPack, Spider, WikiSQL, Synthetic Text2SQL, DM code contests, APPS, CodeChef, MBPP+, DS 1000 등이 포함됐다. 코드스트럴 임베드는 개발자들이 대규모 코드베이스에서 효율적으로 작업할 수 있도록 하며, 코드 어시스턴트와 AI 기반 소프트웨어 엔지니어링 분야에서 중요한 발전을 가져올 것으로 기대된다.

해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지 출처: 미스트랄 AI




미스트랄 AI, 코드 특화 임베딩 모델 ‘코드스트랄 임베드’ 출시… 경쟁사 모델 능가 – AI 매터스 l AI Matters