Fix tests for Scala 2.13

DevinTDHa · DevinTDHa · commit cbbed3da719e · 2025-06-03T18:52:09.000+02:00
- Explicit mutable sequences to numerous tests
- ViT: Lazy model for test
- Fix PerceptronApproach MapView
diff --git a/src/main/scala/com/johnsnowlabs/nlp/HasBatchedAnnotate.scala b/src/main/scala/com/johnsnowlabs/nlp/HasBatchedAnnotate.scala
@@ -61,7 +61,9 @@ trait HasBatchedAnnotate[M <: Model[M]] {
   private def processBatchRows(batchedRows: Seq[Row]): Seq[Row] = {
     val inputAnnotations = batchedRows.map(row => {
       getInputCols.flatMap(inputCol => {
-        row.getAs[mutable.Seq[Row]](inputCol).map(Annotation(_)) // TODO fix which mutable and immutable
+        row
+          .getAs[mutable.Seq[Row]](inputCol)
+          .map(Annotation(_)) // TODO fix which mutable and immutable
       })
     })
     val outputAnnotations = batchAnnotate(inputAnnotations.toSeq)
diff --git a/src/main/scala/com/johnsnowlabs/nlp/HasBatchedAnnotateAudio.scala b/src/main/scala/com/johnsnowlabs/nlp/HasBatchedAnnotateAudio.scala
@@ -20,6 +20,8 @@ import org.apache.spark.ml.Model
 import org.apache.spark.ml.param.IntParam
 import org.apache.spark.sql.Row
 
+import scala.collection.mutable
+
 trait HasBatchedAnnotateAudio[M <: Model[M]] {
 
   this: RawAnnotator[M] =>
@@ -54,7 +56,7 @@ trait HasBatchedAnnotateAudio[M <: Model[M]] {
         val inputAnnotations = batchedRows.map(row => {
           getInputCols.flatMap(inputCol => {
             row
-              .getAs[Seq[Row]](inputCol)
+              .getAs[mutable.Seq[Row]](inputCol)
               .map(r =>
                 AnnotationAudio(
                   r.getString(0),
diff --git a/src/main/scala/com/johnsnowlabs/nlp/HasBatchedAnnotateImage.scala b/src/main/scala/com/johnsnowlabs/nlp/HasBatchedAnnotateImage.scala
@@ -20,6 +20,8 @@ import org.apache.spark.ml.Model
 import org.apache.spark.ml.param.IntParam
 import org.apache.spark.sql.Row
 
+import scala.collection.mutable
+
 trait HasBatchedAnnotateImage[M <: Model[M]] {
 
   this: RawAnnotator[M] =>
@@ -55,7 +57,7 @@ trait HasBatchedAnnotateImage[M <: Model[M]] {
         val inputAnnotations = batchedRows.map(row => {
           getInputCols.flatMap(inputCol => {
             row
-              .getAs[Seq[Row]](inputCol)
+              .getAs[mutable.Seq[Row]](inputCol)
               .map(r =>
                 AnnotationImage(
                   r.getString(0),
diff --git a/src/main/scala/com/johnsnowlabs/nlp/LightPipeline.scala b/src/main/scala/com/johnsnowlabs/nlp/LightPipeline.scala
@@ -425,16 +425,18 @@ class LightPipeline(val pipelineModel: PipelineModel, parseEmbeddings: Boolean =
 
   def annotate(target: String, optionalTarget: String = ""): Map[String, Seq[String]] = {
     val annotations = fullAnnotate(target, optionalTarget)
-    annotations.view.mapValues(_.map {
-      case annotation: Annotation =>
-        annotation.annotatorType match {
-          case AnnotatorType.WORD_EMBEDDINGS | AnnotatorType.SENTENCE_EMBEDDINGS
-              if parseEmbeddings =>
-            annotation.embeddings.mkString(" ")
-          case _ => annotation.result
-        }
-      case _ => ""
-    }).toMap
+    annotations.view
+      .mapValues(_.map {
+        case annotation: Annotation =>
+          annotation.annotatorType match {
+            case AnnotatorType.WORD_EMBEDDINGS | AnnotatorType.SENTENCE_EMBEDDINGS
+                if parseEmbeddings =>
+              annotation.embeddings.mkString(" ")
+            case _ => annotation.result
+          }
+        case _ => ""
+      })
+      .toMap
   }
 
   def annotate(
diff --git a/src/main/scala/com/johnsnowlabs/nlp/annotators/common/Tagged.scala b/src/main/scala/com/johnsnowlabs/nlp/annotators/common/Tagged.scala
@@ -23,7 +23,7 @@ import com.johnsnowlabs.nlp.annotators.common.Annotated.{NerTaggedSentence, PosT
 import org.apache.spark.sql.{Dataset, Row}
 
 import java.util
-import scala.collection.Map
+import scala.collection.{Map, mutable}
 import scala.util.Random
 
 trait Tagged[T >: TaggedSentence <: TaggedSentence] extends Annotated[T] {
@@ -114,7 +114,7 @@ trait Tagged[T >: TaggedSentence <: TaggedSentence] extends Annotated[T] {
   }
 
   def getAnnotations(row: Row, colNum: Int): Seq[Annotation] = {
-    row.getAs[Seq[Row]](colNum).map(obj => Annotation(obj))
+    row.getAs[mutable.Seq[Row]](colNum).map(obj => Annotation(obj)).toSeq
   }
 
   protected def getLabelsFromSentences(
diff --git a/src/main/scala/com/johnsnowlabs/nlp/annotators/er/EntityRulerApproach.scala b/src/main/scala/com/johnsnowlabs/nlp/annotators/er/EntityRulerApproach.scala
@@ -475,31 +475,31 @@ class EntityRulerApproach(override val uid: String)
       cleanPatternsDataFrame(regexPatternsDataFrame, idFieldExist)
 
     cleanedRegexPatternsDataFrame.rdd.toLocalIterator.foreach { row =>
-      val patterns = row.getAs[Seq[String]]("flatten_patterns")
+      val patterns = row.getAs[mutable.Seq[String]]("flatten_patterns")
       val entity =
         if (idFieldExist) row.getAs[String]("label_id") else row.getAs[String]("label")
       storageReadWriter.getOrElse(None) match {
         case patternsWriter: PatternsReadWriter =>
           storePatterns(patterns.toIterator, entity, patternsWriter)
         case regexPatternsWriter: RegexPatternsReadWriter =>
-          storeRegexPattern(patterns, entity, regexPatternsWriter)
-        case None => computePatterns(patterns, isRegex = true, entity)
+          storeRegexPattern(patterns.toSeq, entity, regexPatternsWriter)
+        case None => computePatterns(patterns.toSeq, isRegex = true, entity)
       }
     }
 
     val keywordsDataFrame = patternsDataFrame.filter(col("regex") === false)
     val cleanedKeywordsDataFrame = cleanPatternsDataFrame(keywordsDataFrame, idFieldExist)
 
     cleanedKeywordsDataFrame.rdd.toLocalIterator.foreach { row =>
-      val patterns = row.getAs[Seq[String]]("flatten_patterns")
+      val patterns = row.getAs[mutable.Seq[String]]("flatten_patterns")
       if (idFieldExist) {
         val labelId = row.getAs[String]("label_id")
         val label = labelId.split(",")(0)
         val id = labelId.split(",")(1)
-        keywordsPatterns.append(EntityPattern(label, patterns, Some(id), Some(true)))
+        keywordsPatterns.append(EntityPattern(label, patterns.toSeq, Some(id), Some(true)))
       } else {
         val label = row.getAs[String]("label")
-        keywordsPatterns.append(EntityPattern(label, patterns, None, Some(true)))
+        keywordsPatterns.append(EntityPattern(label, patterns.toSeq, None, Some(true)))
       }
 
     }
diff --git a/src/main/scala/com/johnsnowlabs/nlp/annotators/pos/perceptron/PerceptronApproachDistributed.scala b/src/main/scala/com/johnsnowlabs/nlp/annotators/pos/perceptron/PerceptronApproachDistributed.scala
@@ -159,7 +159,7 @@ class PerceptronApproachDistributed(override val uid: String)
     val tagFrequenciesByWord = taggedSentences
       .flatMap(_.taggedWords)
       .groupByKey(tw => tw.word.toLowerCase)
-      .mapGroups { (lw, tw) => (lw, tw.toSeq.groupBy(_.tag).view.mapValues(_.length)) }
+      .mapGroups { (lw, tw) => (lw, tw.toSeq.groupBy(_.tag).view.mapValues(_.length).toMap) }
       .filter { lwtw =>
         val (_, mode) = lwtw._2.maxBy(t => t._2)
         val n = lwtw._2.values.sum
diff --git a/src/main/scala/com/johnsnowlabs/nlp/annotators/sentence_detector_dl/SentenceDetectorDLModel.scala b/src/main/scala/com/johnsnowlabs/nlp/annotators/sentence_detector_dl/SentenceDetectorDLModel.scala
@@ -576,7 +576,8 @@ class SentenceDetectorDLModel(override val uid: String)
     })
 
     outputAnnotations
-      .filter(anno => anno.result.length >= getMinLength && anno.result.length <= getMaxLength).toSeq
+      .filter(anno => anno.result.length >= getMinLength && anno.result.length <= getMaxLength)
+      .toSeq
   }
 
   override protected def afterAnnotate(dataset: DataFrame): DataFrame = {
diff --git a/src/main/scala/com/johnsnowlabs/nlp/embeddings/WordEmbeddingsModel.scala b/src/main/scala/com/johnsnowlabs/nlp/embeddings/WordEmbeddingsModel.scala
@@ -32,6 +32,8 @@ import org.apache.spark.ml.util.Identifiable
 import org.apache.spark.sql.functions.{col, udf}
 import org.apache.spark.sql.{DataFrame, Dataset, Row}
 
+import scala.collection.mutable
+
 /** Word Embeddings lookup annotator that maps tokens to vectors
   *
   * This is the instantiated model of [[WordEmbeddings]].
@@ -334,7 +336,7 @@ trait EmbeddingsCoverage {
     val words = dataset
       .select(embeddingsCol)
       .flatMap(row => {
-        val annotations = row.getAs[Seq[Row]](embeddingsCol)
+        val annotations = row.getAs[mutable.Seq[Row]](embeddingsCol)
         annotations.map(annotation =>
           Tuple2(
             annotation.getAs[Map[String, String]]("metadata")("token"),
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/ChunkerBehaviors.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/ChunkerBehaviors.scala
@@ -22,11 +22,10 @@ import com.johnsnowlabs.nlp.training.POS
 import com.johnsnowlabs.nlp.util.io.ResourceHelper
 import com.johnsnowlabs.nlp.{AnnotatorBuilder, DocumentAssembler, Finisher, SparkAccessor}
 import com.johnsnowlabs.tags.FastTest
-
 import org.apache.spark.ml.{Pipeline, PipelineModel}
 import org.apache.spark.sql.{Dataset, Row}
-
 import org.scalatest.flatspec.AnyFlatSpec
+import scala.collection.mutable
 
 trait ChunkerBehaviors {
   this: AnyFlatSpec =>
@@ -189,7 +188,7 @@ trait ChunkerBehaviors {
         .transform(testData)
         .select("finished_chunks")
         .collect()
-        .map(row => row.get(0).asInstanceOf[Seq[String]].toList)
+        .map(row => row.get(0).asInstanceOf[mutable.Seq[String]].toList)
       finished_chunks.map(row => assert(row.isEmpty))
     }
   }
@@ -246,7 +245,7 @@ trait ChunkerBehaviors {
         .transform(dataset)
         .select("finished_chunks")
         .collect()
-        .map(row => row.get(0).asInstanceOf[Seq[String]].toList)
+        .map(row => row.get(0).asInstanceOf[mutable.Seq[String]].toList)
       finished_chunks.map(row => assert(row.nonEmpty))
 
     }
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/cv/ViTImageClassificationTestSpec.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/cv/ViTImageClassificationTestSpec.scala
@@ -232,7 +232,7 @@ class ViTImageClassificationTestSpec extends AnyFlatSpec with ViTForImageClassif
       "tractor.JPEG" -> "tractor",
       "ox.JPEG" -> "ox")
 
-  private val model: ViTForImageClassification = ViTForImageClassification.pretrained()
+  private lazy val model: ViTForImageClassification = ViTForImageClassification.pretrained()
 
   it should behave like
     behaviorsViTForImageClassification[ViTForImageClassification](
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/seq2seq/BartTestSpec.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/seq2seq/BartTestSpec.scala
@@ -25,6 +25,8 @@ import com.johnsnowlabs.util.Benchmark
 import org.apache.spark.ml.{Pipeline, PipelineModel}
 import org.scalatest.flatspec.AnyFlatSpec
 
+import scala.collection.mutable
+
 class BartTestSpec extends AnyFlatSpec {
 
   "bart-large-cnn" should "should handle temperature=0 correctly and not crash when predicting more than 1 element with doSample=True" taggedAs SlowTest in {
@@ -205,7 +207,7 @@ class BartTestSpec extends AnyFlatSpec {
 
     results.select("summaries.result").show(truncate = false)
 //    val dataframe = results.select("summaries.result").collect()
-//    val result = dataframe.toSeq.head.getAs[Seq[String]](0).head
+//    val result = dataframe.toSeq.head.getAs[mutable.Seq[String]](0).head
 //    println(result)
     //    assert(
     //      result == "a knob of dripping or 2 tablespoons of vegetable oil in a large large pan . cut the kidneys in half and snip out the white core . heat the pan for 1-2 minutes, turning once, until browned .")
@@ -247,7 +249,7 @@ class BartTestSpec extends AnyFlatSpec {
 
     results.select("summaries.result").show(truncate = false)
     val dataframe = results.select("summaries.result").collect()
-    val result = dataframe.toSeq.head.getAs[Seq[String]](0).head
+    val result = dataframe.toSeq.head.getAs[mutable.Seq[String]](0).head
     println(result)
 //    assert(
 //      result == "a knob of dripping or 2 tablespoons of vegetable oil in a large large pan . cut the kidneys in half and snip out the white core . heat the pan for 1-2 minutes, turning once, until browned .")
@@ -294,7 +296,7 @@ class BartTestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe1)
     val dataframe2 = model
@@ -303,7 +305,7 @@ class BartTestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe2)
 
@@ -353,7 +355,7 @@ class BartTestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe1)
 
@@ -365,7 +367,7 @@ class BartTestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe1)
 
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/seq2seq/GPT2TestSpec.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/seq2seq/GPT2TestSpec.scala
@@ -23,6 +23,8 @@ import com.johnsnowlabs.util.Benchmark
 import org.apache.spark.ml.Pipeline
 import org.scalatest.flatspec.AnyFlatSpec
 
+import scala.collection.mutable
+
 class GPT2TestSpec extends AnyFlatSpec {
   "gpt2" should "should handle temperature=0 correctly and not crash when predicting more than 1 element with doSample=True" taggedAs SlowTest in {
     // Even tough the Paper states temperature in interval [0,1), using temperature=0 will result in division by 0 error.
@@ -145,7 +147,7 @@ class GPT2TestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe1)
     val dataframe2 = model
@@ -154,7 +156,7 @@ class GPT2TestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe2)
 
@@ -188,7 +190,7 @@ class GPT2TestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe1)
     val dataframe2 = model
@@ -197,7 +199,7 @@ class GPT2TestSpec extends AnyFlatSpec {
       .collect()
       .toSeq
       .head
-      .getAs[Seq[String]](0)
+      .getAs[mutable.Seq[String]](0)
       .head
     println(dataframe2)
 
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/seq2seq/T5TestSpec.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/seq2seq/T5TestSpec.scala

Original file line number	Diff line number	Diff line change
`@@ -23,7 +23,7 @@ import com.johnsnowlabs.nlp.annotators.common.Annotated.{NerTaggedSentence, PosT`
`23`	`23`	`import org.apache.spark.sql.{Dataset, Row}`
`24`	`24`
`25`	`25`	`import java.util`
`26`		`-import scala.collection.Map`
	`26`	`+import scala.collection.{Map, mutable}`
`27`	`27`	`import scala.util.Random`
`28`	`28`
`29`	`29`	`trait Tagged[T >: TaggedSentence <: TaggedSentence] extends Annotated[T] {`
`@@ -114,7 +114,7 @@ trait Tagged[T >: TaggedSentence <: TaggedSentence] extends Annotated[T] {`
`114`	`114`	`}`
`115`	`115`
`116`	`116`	`def getAnnotations(row: Row, colNum: Int): Seq[Annotation] = {`
`117`		`- row.getAs[Seq[Row]](colNum).map(obj => Annotation(obj))`
	`117`	`+ row.getAs[mutable.Seq[Row]](colNum).map(obj => Annotation(obj)).toSeq`
`118`	`118`	`}`
`119`	`119`
`120`	`120`	`protected def getLabelsFromSentences(`
Original file line number	Diff line number	Diff line change
`@@ -576,7 +576,8 @@ class SentenceDetectorDLModel(override val uid: String)`
`576`	`576`	`})`
`577`	`577`
`578`	`578`	`outputAnnotations`
`579`		`- .filter(anno => anno.result.length >= getMinLength && anno.result.length <= getMaxLength).toSeq`
	`579`	`+ .filter(anno => anno.result.length >= getMinLength && anno.result.length <= getMaxLength)`
	`580`	`+ .toSeq`
`580`	`581`	`}`
`581`	`582`
`582`	`583`	`override protected def afterAnnotate(dataset: DataFrame): DataFrame = {`