confident-ai
diff --git a/‎deepeval/metrics/answer_relevancy/answer_relevancy.py
Lines changed: 22 additions & 18 deletions b/‎deepeval/metrics/answer_relevancy/answer_relevancy.py
Lines changed: 22 additions & 18 deletions
diff --git a/‎deepeval/metrics/bias/bias.py
Lines changed: 20 additions & 18 deletions b/‎deepeval/metrics/bias/bias.py
Lines changed: 20 additions & 18 deletions
diff --git a/‎deepeval/metrics/contextual_precision/contextual_precision.py
Lines changed: 20 additions & 16 deletions b/‎deepeval/metrics/contextual_precision/contextual_precision.py
Lines changed: 20 additions & 16 deletions
diff --git a/‎deepeval/metrics/contextual_recall/contextual_recall.py
Lines changed: 16 additions & 12 deletions b/‎deepeval/metrics/contextual_recall/contextual_recall.py
Lines changed: 16 additions & 12 deletions
diff --git a/‎deepeval/metrics/contextual_relevancy/contextual_relevancy.py
Lines changed: 16 additions & 12 deletions b/‎deepeval/metrics/contextual_relevancy/contextual_relevancy.py
Lines changed: 16 additions & 12 deletions
diff --git a/‎deepeval/metrics/faithfulness/faithfulness.py
Lines changed: 27 additions & 19 deletions b/‎deepeval/metrics/faithfulness/faithfulness.py
Lines changed: 27 additions & 19 deletions
@@ -92,10 +92,12 @@ def measure(
                     self._measure_async(test_case, verbose)
                 )
             else:
-                self.statements = self._generate_statements(
+                self.statements: List[str] = self._generate_statements(
                     test_case.actual_output
                 )
-                self.verdicts = self._generate_verdicts(test_case.input)
+                self.verdicts: List[AnswerRelvancyVerdict] = (
+                    self._generate_verdicts(test_case.input)
+                )
                 self.score = self._calculate_score()
                 self.reason = self._generate_reason(test_case.input)
                 self.success = self.score >= self.threshold
@@ -105,20 +107,6 @@ def measure(
                     )
                 return self.score
 
-    async def _measure_async(
-        self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
-        verbose: bool,
-    ):
-        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
-        return (
-            self.statements,
-            self.verdicts,
-            self.score,
-            self.reason,
-            self.success,
-        )
-
     async def a_measure(
         self,
         test_case: Union[LLMTestCase, ConversationalTestCase],
@@ -133,10 +121,12 @@ async def a_measure(
         with metric_progress_indicator(
             self, async_mode=True, _show_indicator=_show_indicator
         ):
-            self.statements = await self._a_generate_statements(
+            self.statements: List[str] = await self._a_generate_statements(
                 test_case.actual_output
             )
-            self.verdicts = await self._a_generate_verdicts(test_case.input)
+            self.verdicts: List[AnswerRelvancyVerdict] = (
+                await self._a_generate_verdicts(test_case.input)
+            )
             self.score = self._calculate_score()
             self.reason = await self._a_generate_reason(test_case.input)
             self.success = self.score >= self.threshold
@@ -146,6 +136,20 @@ async def a_measure(
                 )
             return self.score
 
+    async def _measure_async(
+        self,
+        test_case: Union[LLMTestCase, ConversationalTestCase],
+        verbose: bool,
+    ):
+        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
+        return (
+            self.statements,
+            self.verdicts,
+            self.score,
+            self.reason,
+            self.success,
+        )
+
     async def _a_generate_reason(self, input: str) -> str:
         if self.include_reason is False:
             return None
 
@@ -94,8 +94,10 @@ def measure(
                     self._measure_async(test_case, verbose)
                 )
             else:
-                self.opinions = self._generate_opinions(test_case.actual_output)
-                self.verdicts = self._generate_verdicts()
+                self.opinions: List[str] = self._generate_opinions(
+                    test_case.actual_output
+                )
+                self.verdicts: List[BiasVerdict] = self._generate_verdicts()
                 self.score = self._calculate_score()
                 self.reason = self._generate_reason()
                 self.success = self.score <= self.threshold
@@ -105,20 +107,6 @@ def measure(
                     )
                 return self.score
 
-    async def _measure_async(
-        self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
-        verbose: bool,
-    ):
-        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
-        return (
-            self.opinions,
-            self.verdicts,
-            self.score,
-            self.reason,
-            self.success,
-        )
-
     async def a_measure(
         self,
         test_case: Union[LLMTestCase, ConversationalTestCase],
@@ -135,17 +123,31 @@ async def a_measure(
             async_mode=True,
             _show_indicator=_show_indicator,
         ):
-            self.opinions = await self._a_generate_opinions(
+            self.opinions: List[str] = await self._a_generate_opinions(
                 test_case.actual_output
             )
-            self.verdicts = await self._a_generate_verdicts()
+            self.verdicts: List[BiasVerdict] = await self._a_generate_verdicts()
             self.score = self._calculate_score()
             self.reason = await self._a_generate_reason()
             self.success = self.score <= self.threshold
             if verbose:
                 print(f"opinions: {self.opinions}\nverdicts: {self.verdicts}\n")
             return self.score
 
+    async def _measure_async(
+        self,
+        test_case: Union[LLMTestCase, ConversationalTestCase],
+        verbose: bool,
+    ):
+        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
+        return (
+            self.opinions,
+            self.verdicts,
+            self.score,
+            self.reason,
+            self.success,
+        )
+
     async def _a_generate_reason(self) -> str:
         if self.include_reason is False:
             return None
 
@@ -82,10 +82,12 @@ def measure(
                     )
                 )
             else:
-                self.verdicts = self._generate_verdicts(
-                    test_case.input,
-                    test_case.expected_output,
-                    test_case.retrieval_context,
+                self.verdicts: List[ContextualPrecisionVerdict] = (
+                    self._generate_verdicts(
+                        test_case.input,
+                        test_case.expected_output,
+                        test_case.retrieval_context,
+                    )
                 )
                 self.score = self._calculate_score()
                 self.reason = self._generate_reason(test_case.input)
@@ -94,14 +96,6 @@ def measure(
                     print(f"verdicts: {self.verdicts}\n")
                 return self.score
 
-    async def _measure_async(
-        self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
-        verbose: bool,
-    ):
-        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
-        return (self.verdicts, self.score, self.reason, self.success)
-
     async def a_measure(
         self,
         test_case: Union[LLMTestCase, ConversationalTestCase],
@@ -118,10 +112,12 @@ async def a_measure(
             async_mode=True,
             _show_indicator=_show_indicator,
         ):
-            self.verdicts = await self._a_generate_verdicts(
-                test_case.input,
-                test_case.expected_output,
-                test_case.retrieval_context,
+            self.verdicts: List[ContextualPrecisionVerdict] = (
+                await self._a_generate_verdicts(
+                    test_case.input,
+                    test_case.expected_output,
+                    test_case.retrieval_context,
+                )
             )
             self.score = self._calculate_score()
             self.reason = await self._a_generate_reason(test_case.input)
@@ -130,6 +126,14 @@ async def a_measure(
                 print(f"verdicts: {self.verdicts}\n")
             return self.score
 
+    async def _measure_async(
+        self,
+        test_case: Union[LLMTestCase, ConversationalTestCase],
+        verbose: bool,
+    ):
+        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
+        return (self.verdicts, self.score, self.reason, self.success)
+
     async def _a_generate_reason(self, input: str):
         if self.include_reason is False:
             return None
 
@@ -79,8 +79,10 @@ def measure(
                     )
                 )
             else:
-                self.verdicts = self._generate_verdicts(
-                    test_case.expected_output, test_case.retrieval_context
+                self.verdicts: List[ContextualRecallVerdict] = (
+                    self._generate_verdicts(
+                        test_case.expected_output, test_case.retrieval_context
+                    )
                 )
                 self.score = self._calculate_score()
                 self.reason = self._generate_reason(test_case.input)
@@ -89,14 +91,6 @@ def measure(
                     print(f"verdicts: {self.verdicts}\n")
                 return self.score
 
-    async def _measure_async(
-        self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
-        verbose: bool,
-    ):
-        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
-        return (self.verdicts, self.score, self.reason, self.success)
-
     async def a_measure(
         self,
         test_case: Union[LLMTestCase, ConversationalTestCase],
@@ -113,8 +107,10 @@ async def a_measure(
             async_mode=True,
             _show_indicator=_show_indicator,
         ):
-            self.verdicts = await self._a_generate_verdicts(
-                test_case.expected_output, test_case.retrieval_context
+            self.verdicts: List[ContextualRecallVerdict] = (
+                await self._a_generate_verdicts(
+                    test_case.expected_output, test_case.retrieval_context
+                )
             )
             self.score = self._calculate_score()
             self.reason = await self._a_generate_reason(test_case.input)
@@ -123,6 +119,14 @@ async def a_measure(
                 print(f"verdicts: {self.verdicts}\n")
             return self.score
 
+    async def _measure_async(
+        self,
+        test_case: Union[LLMTestCase, ConversationalTestCase],
+        verbose: bool,
+    ):
+        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
+        return (self.verdicts, self.score, self.reason, self.success)
+
     async def _a_generate_reason(self, expected_output: str):
         if self.include_reason is False:
             return None
 
@@ -81,8 +81,10 @@ def measure(
                     )
                 )
             else:
-                self.verdicts = self._generate_verdicts(
-                    test_case.input, test_case.retrieval_context
+                self.verdicts: List[ContextualRelevancyVerdict] = (
+                    self._generate_verdicts(
+                        test_case.input, test_case.retrieval_context
+                    )
                 )
                 self.score = self._calculate_score()
                 self.reason = self._generate_reason(test_case.input)
@@ -91,14 +93,6 @@ def measure(
                     print(f"verdicts: {self.verdicts}\n")
                 return self.score
 
-    async def _measure_async(
-        self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
-        verbose: bool,
-    ):
-        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
-        return (self.verdicts, self.score, self.reason, self.success)
-
     async def a_measure(
         self,
         test_case: Union[LLMTestCase, ConversationalTestCase],
@@ -115,8 +109,10 @@ async def a_measure(
             async_mode=True,
             _show_indicator=_show_indicator,
         ):
-            self.verdicts = await self._a_generate_verdicts(
-                test_case.input, test_case.retrieval_context
+            self.verdicts: List[ContextualRelevancyVerdict] = (
+                await self._a_generate_verdicts(
+                    test_case.input, test_case.retrieval_context
+                )
             )
             self.score = self._calculate_score()
             self.reason = await self._a_generate_reason(test_case.input)
@@ -125,6 +121,14 @@ async def a_measure(
                 print(f"verdicts: {self.verdicts}\n")
             return self.score
 
+    async def _measure_async(
+        self,
+        test_case: Union[LLMTestCase, ConversationalTestCase],
+        verbose: bool,
+    ):
+        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
+        return (self.verdicts, self.score, self.reason, self.success)
+
     async def _a_generate_reason(self, input: str):
         if self.include_reason is False:
             return None
 
@@ -107,9 +107,15 @@ def measure(
                     self._measure_async(test_case, verbose)
                 )
             else:
-                self.truths = self._generate_truths(test_case.retrieval_context)
-                self.claims = self._generate_claims(test_case.actual_output)
-                self.verdicts = self._generate_verdicts()
+                self.truths: List[str] = self._generate_truths(
+                    test_case.retrieval_context
+                )
+                self.claims: List[str] = self._generate_claims(
+                    test_case.actual_output
+                )
+                self.verdicts: List[FaithfulnessVerdict] = (
+                    self._generate_verdicts()
+                )
                 self.score = self._calculate_score()
                 self.reason = self._generate_reason()
                 self.success = self.score >= self.threshold
@@ -119,21 +125,6 @@ def measure(
                     )
                 return self.score
 
-    async def _measure_async(
-        self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
-        verbose: bool,
-    ):
-        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
-        return (
-            self.truths,
-            self.claims,
-            self.verdicts,
-            self.score,
-            self.reason,
-            self.success,
-        )
-
     async def a_measure(
         self,
         test_case: Union[LLMTestCase, ConversationalTestCase],
@@ -152,7 +143,9 @@ async def a_measure(
                 self._a_generate_truths(test_case.retrieval_context),
                 self._a_generate_claims(test_case.actual_output),
             )
-            self.verdicts = await self._a_generate_verdicts()
+            self.verdicts: List[FaithfulnessVerdict] = (
+                await self._a_generate_verdicts()
+            )
             self.score = self._calculate_score()
             self.reason = await self._a_generate_reason()
             self.success = self.score >= self.threshold
@@ -162,6 +155,21 @@ async def a_measure(
                 )
             return self.score
 
+    async def _measure_async(
+        self,
+        test_case: Union[LLMTestCase, ConversationalTestCase],
+        verbose: bool,
+    ):
+        await self.a_measure(test_case, _show_indicator=False, verbose=verbose)
+        return (
+            self.truths,
+            self.claims,
+            self.verdicts,
+            self.score,
+            self.reason,
+            self.success,
+        )
+
     async def _a_generate_reason(self) -> str:
         if self.include_reason is False:
             return None