MetricX 및 COMET은 번역 태스크에 맞게 학습된 점별 모델 기반 측정항목입니다. NMT, TranslationLLM 또는 Gemini 모델의 출력 여부와 관계없이 콘텐츠의 번역 모델 결과의 품질과 정확성을 평가할 수 있습니다.
Gemini를 평가 모델로 사용하여 MetricX, COMET 또는 BLEU와 함께 모델의 유창성, 일관성, 상세성, 텍스트 품질을 평가할 수도 있습니다.
MetricX는 Google에서 개발한 오류 기반 측정항목으로, 번역의 품질을 나타내는 0~25 사이의 부동 소수점 점수를 예측합니다. MetricX는 참조 기반 및 참조 무료(QE) 메서드로 모두 사용할 수 있습니다. 이 측정항목을 사용할 때는 점수가 낮을수록 오류가 적다는 의미이므로 점수가 낮을수록 좋습니다.
COMET은 0~1 사이의 점수를 제공하는 참조 기반 회귀 접근 방식을 사용합니다. 여기서 1은 완벽한 번역을 의미합니다.
BLEU(Bilingual Evaluation Understudy)는 계산 기반 측정항목입니다. BLEU 점수는 후보 텍스트가 참조 텍스트와 얼마나 비슷한지를 나타냅니다. BLEU 점수 값이 1에 가까울수록 번역이 참조 텍스트에 더 가깝다는 뜻입니다.
BLEU 점수는 서로 다른 코퍼스 및 언어 간에 비교하는 데는 권장되지 않습니다. 예를 들어 영어-독일어 BLEU 점수가 50인 경우 일본어-영어 BLEU 점수가 50인 경우와는 비교할 수 없습니다. 많은 번역 전문가가 인간 평가와의 상관성이 더 높고 오류 시나리오를 더 세부적으로 식별하는 모델 기반 측정항목 접근 방식으로 전환했습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-24(UTC)"],[],[],null,["# Evaluate translation models\n\n| **Preview**\n|\n|\n| This product or feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA products and features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n\nThe [Gen AI evaluation service](/vertex-ai/generative-ai/docs/models/evaluation-overview) offers the following translation task evaluation metrics:\n\n- [MetricX](https://github.com/google-research/metricx)\n\n- [COMET](https://huggingface.co/Unbabel/wmt22-comet-da)\n\n- BLEU\n\nMetricX and COMET are pointwise model-based metrics that have been trained for translation tasks. You can evaluate the quality and accuracy of translation model results for your content, whether they are outputs of NMT, TranslationLLM, or Gemini models.\n\nYou can also use Gemini as a judge model to evaluate your model for fluency, coherence, verbosity and text quality in combination with MetricX, COMET or BLEU.\n\n- MetricX is an error-based metric developed by Google that predicts a floating point score between 0 and 25 representing the quality of a translation. MetricX is available both as a referenced-based and reference-free (QE) method. When you use this metric, a lower score is a better score, because it means there are fewer errors.\n\n- COMET employs a reference-based regression approach that provides scores ranging from 0 to 1, where 1 signifies a perfect translation.\n\n- BLEU (Bilingual Evaluation Understudy) is a [computation-based metric](/vertex-ai/generative-ai/docs/models/determine-eval#computation-based-metrics). The BLEU score indicates how similar the candidate text is to the reference text. A BLEU score value that is closer to one indicates that a translation is closer to the reference text.\n\nNote that BLEU scores are not recommended for comparing across different corpora and languages. For example, an English to German BLEU score of 50 is not comparable to a Japanese to English BLEU score of 50. Many translation experts have shifted to model-based metric approaches, which have higher correlation with human ratings and are more granular in identifying error scenarios.\n\nTo learn how to run evaluations for translation models, see [Evaluate a translation model](/vertex-ai/generative-ai/docs/models/run-evaluation#translation)."]]