Slightly better verbose printing

penguine-ip · penguine-ip · commit aafc0173894a · 2024-06-13T17:04:03.000+08:00
diff --git a/deepeval/evaluate.py b/deepeval/evaluate.py
@@ -308,7 +308,6 @@ async def a_execute_test_cases(
 
             for metric in metrics:
                 metric_metadata = create_metric_metadata(metric)
-                print(metric_metadata)
                 if isinstance(test_case, ConversationalTestCase):
                     # index hardcoded as the last message for now
                     api_test_case.update(
diff --git a/deepeval/metrics/answer_relevancy/answer_relevancy.py b/deepeval/metrics/answer_relevancy/answer_relevancy.py
@@ -8,6 +8,7 @@
     trimAndLoadJson,
     check_llm_test_case_params,
     initialize_model,
+    print_intermediate_steps,
 )
 from deepeval.test_case import (
     LLMTestCase,
@@ -99,8 +100,12 @@ def measure(
                 self.reason = self._generate_reason(test_case.input)
                 self.success = self.score >= self.threshold
                 if self.verbose_mode:
-                    print(
-                        f"statements: {self.statements}\nverdicts: {self.verdicts}\n"
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Statements:\n{self.statements}\n",
+                            f"Verdicts:\n{self.verdicts}",
+                        ],
                     )
                 return self.score
 
@@ -127,8 +132,12 @@ async def a_measure(
             self.reason = await self._a_generate_reason(test_case.input)
             self.success = self.score >= self.threshold
             if self.verbose_mode:
-                print(
-                    f"statements: {self.statements}\nverdicts: {self.verdicts}\nscore: {self.score}, success: {self.success}, reason: {self.reason}\n"
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Statements:\n{self.statements}\n",
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
                 )
             return self.score
 
diff --git a/deepeval/metrics/bias/bias.py b/deepeval/metrics/bias/bias.py
@@ -12,6 +12,7 @@
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -100,8 +101,12 @@ def measure(
                 self.reason = self._generate_reason()
                 self.success = self.score <= self.threshold
                 if self.verbose_mode:
-                    print(
-                        f"opinions: {self.opinions}\nverdicts: {self.verdicts}\n"
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Opinions:\n{self.opinions}\n",
+                            f"Verdicts:\n{self.verdicts}",
+                        ],
                     )
                 return self.score
 
@@ -128,7 +133,13 @@ async def a_measure(
             self.reason = await self._a_generate_reason()
             self.success = self.score <= self.threshold
             if self.verbose_mode:
-                print(f"opinions: {self.opinions}\nverdicts: {self.verdicts}\n")
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Opinions:\n{self.opinions}\n",
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
+                )
             return self.score
 
     async def _measure_async(
diff --git a/deepeval/metrics/contextual_precision/contextual_precision.py b/deepeval/metrics/contextual_precision/contextual_precision.py
@@ -4,6 +4,7 @@
 
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -91,7 +92,12 @@ def measure(
                 self.reason = self._generate_reason(test_case.input)
                 self.success = self.score >= self.threshold
                 if self.verbose_mode:
-                    print(f"verdicts: {self.verdicts}\n")
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Verdicts:\n{self.verdicts}",
+                        ],
+                    )
                 return self.score
 
     async def a_measure(
@@ -120,7 +126,12 @@ async def a_measure(
             self.reason = await self._a_generate_reason(test_case.input)
             self.success = self.score >= self.threshold
             if self.verbose_mode:
-                print(f"verdicts: {self.verdicts}\n")
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
+                )
             return self.score
 
     async def _measure_async(
diff --git a/deepeval/metrics/contextual_recall/contextual_recall.py b/deepeval/metrics/contextual_recall/contextual_recall.py
@@ -4,6 +4,7 @@
 
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -86,7 +87,12 @@ def measure(
                 self.reason = self._generate_reason(test_case.input)
                 self.success = self.score >= self.threshold
                 if self.verbose_mode:
-                    print(f"verdicts: {self.verdicts}\n")
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Verdicts:\n{self.verdicts}",
+                        ],
+                    )
                 return self.score
 
     async def a_measure(
@@ -113,7 +119,12 @@ async def a_measure(
             self.reason = await self._a_generate_reason(test_case.input)
             self.success = self.score >= self.threshold
             if self.verbose_mode:
-                print(f"verdicts: {self.verdicts}\n")
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
+                )
             return self.score
 
     async def _measure_async(
diff --git a/deepeval/metrics/contextual_relevancy/contextual_relevancy.py b/deepeval/metrics/contextual_relevancy/contextual_relevancy.py
@@ -5,6 +5,7 @@
 
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -88,7 +89,12 @@ def measure(
                 self.reason = self._generate_reason(test_case.input)
                 self.success = self.score >= self.threshold
                 if self.verbose_mode:
-                    print(f"verdicts: {self.verdicts}\n")
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Verdicts:\n{self.verdicts}",
+                        ],
+                    )
                 return self.score
 
     async def a_measure(
@@ -115,7 +121,12 @@ async def a_measure(
             self.reason = await self._a_generate_reason(test_case.input)
             self.success = self.score >= self.threshold
             if self.verbose_mode:
-                print(f"verdicts: {self.verdicts}\n")
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
+                )
             return self.score
 
     async def _measure_async(
diff --git a/deepeval/metrics/faithfulness/faithfulness.py b/deepeval/metrics/faithfulness/faithfulness.py
@@ -11,6 +11,7 @@
 from deepeval.metrics import BaseMetric
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -118,8 +119,13 @@ def measure(
                 self.reason = self._generate_reason()
                 self.success = self.score >= self.threshold
                 if self.verbose_mode:
-                    print(
-                        f"truths: {self.truths}\nclaims: {self.claims}\nverdicts: {self.verdicts}\n"
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Truths:\n{self.truths}",
+                            f"Claims:\n{self.claims}",
+                            f"Verdicts:\n{self.verdicts}",
+                        ],
                     )
                 return self.score
 
@@ -147,8 +153,13 @@ async def a_measure(
             self.reason = await self._a_generate_reason()
             self.success = self.score >= self.threshold
             if self.verbose_mode:
-                print(
-                    f"truths: {self.truths}\nclaims: {self.claims}\nverdicts: {self.verdicts}\n"
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Truths:\n{self.truths}",
+                        f"Claims:\n{self.claims}",
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
                 )
             return self.score
 
diff --git a/deepeval/metrics/g_eval/g_eval.py b/deepeval/metrics/g_eval/g_eval.py
@@ -14,6 +14,7 @@
 from deepeval.metrics.g_eval.template import GEvalTemplate
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -138,7 +139,12 @@ def measure(
                 )
                 self.success = self.score >= self.threshold
                 if self.verbose_mode:
-                    print(f"evaluation_steps: {self.evaluation_steps}\n")
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Evaluation Steps:\n{self.evaluation_steps}",
+                        ],
+                    )
                 return self.score
 
     async def a_measure(
@@ -169,7 +175,12 @@ async def a_measure(
             )
             self.success = self.score >= self.threshold
             if self.verbose_mode:
-                print(f"evaluation_steps: {self.evaluation_steps}\n")
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Evaluation Steps:\n{self.evaluation_steps}",
+                    ],
+                )
             return self.score
 
     async def _measure_async(
diff --git a/deepeval/metrics/hallucination/hallucination.py b/deepeval/metrics/hallucination/hallucination.py
@@ -10,6 +10,7 @@
 from deepeval.metrics import BaseMetric
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -86,7 +87,12 @@ def measure(
                 self.reason = self._generate_reason()
                 self.success = self.score <= self.threshold
                 if self.verbose_mode:
-                    print(f"verdicts: {self.verdicts}\n")
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Verdicts:\n{self.verdicts}",
+                        ],
+                    )
                 return self.score
 
     async def a_measure(
@@ -111,7 +117,12 @@ async def a_measure(
             self.reason = await self._a_generate_reason()
             self.success = self.score <= self.threshold
             if self.verbose_mode:
-                print(f"verdicts: {self.verdicts}\n")
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
+                )
             return self.score
 
     async def _measure_async(
diff --git a/deepeval/metrics/knowledge_retention/knowledge_retention.py b/deepeval/metrics/knowledge_retention/knowledge_retention.py
@@ -5,6 +5,7 @@
 from deepeval.test_case import ConversationalTestCase
 from deepeval.metrics import BaseConversationalMetric
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     initialize_model,
@@ -75,8 +76,12 @@ def measure(self, test_case: ConversationalTestCase):
             self.success = knowledge_retention_score >= self.threshold
             self.score = knowledge_retention_score
             if self.verbose_mode:
-                print(
-                    f"knowledges: {self.knowledges}\nverdicts: {self.verdicts}\n"
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Knowledges:\n{self.knowledges}",
+                        f"Verdicts:\n{self.verdicts}",
+                    ],
                 )
             return self.score
 
diff --git a/deepeval/metrics/summarization/summarization.py b/deepeval/metrics/summarization/summarization.py
@@ -13,6 +13,7 @@
 from deepeval.models import DeepEvalBaseLLM
 from deepeval.utils import get_or_create_event_loop, generate_uuid
 from deepeval.metrics.utils import (
+    print_intermediate_steps,
     validate_conversational_test_case,
     trimAndLoadJson,
     check_llm_test_case_params,
@@ -192,8 +193,15 @@ def measure(
                 self.reason = self._generate_reason()
                 self.success = self.score >= self.threshold
                 if self.verbose_mode:
-                    print(
-                        f"truths: {self.truths}\nclaims: {self.claims}\ncoverage_verdicts: {self.coverage_verdicts}\nalignment_verdicts: {self.alignment_verdicts}\n"
+                    print_intermediate_steps(
+                        self.__name__,
+                        steps=[
+                            f"Truths:\n{self.truths}",
+                            f"Claims:\n{self.claims}",
+                            f"Assessment Questions:\n{self.assessment_questions}",
+                            f"Coverage Verdicts:\n{self.coverage_verdicts}",
+                            f"Alignment Verdicts:\n{self.alignment_verdicts}",
+                        ],
                     )
                 return self.score
 
@@ -234,8 +242,15 @@ async def a_measure(
             self.reason = await self._a_generate_reason()
             self.success = self.score >= self.threshold
             if self.verbose_mode:
-                print(
-                    f"truths: {self.truths}\nclaims: {self.claims}\ncoverage_verdicts: {self.coverage_verdicts}\nalignment_verdicts: {self.alignment_verdicts}\n"
+                print_intermediate_steps(
+                    self.__name__,
+                    steps=[
+                        f"Truths:\n{self.truths}",
+                        f"Claims:\n{self.claims}",
+                        f"Assessment Questions:\n{self.assessment_questions}",
+                        f"Coverage Verdicts:\n{self.coverage_verdicts}",
+                        f"Alignment Verdicts:\n{self.alignment_verdicts}",
+                    ],
                 )
             return self.score
 
diff --git a/deepeval/metrics/toxicity/toxicity.py b/deepeval/metrics/toxicity/toxicity.py
diff --git a/deepeval/metrics/utils.py b/deepeval/metrics/utils.py
diff --git a/tests/test_everything.py b/tests/test_everything.py