deps(java): bump com.ibm.icu:icu4j from 77.1 to 78.1 (#15417)

dependabot[bot] · rmuir · web-flow · commit fe5a12300c6d · 2025-11-11T22:07:43.000-05:00
* deps(java): bump com.ibm.icu:icu4j from 77.1 to 78.1 Bumps [com.ibm.icu:icu4j](https://github.com/unicode-org/icu) from 77.1 to 78.1. - [Release notes](https://github.com/unicode-org/icu/releases) - [Commits](https://github.com/unicode-org/icu/commits/release-78.1) --- updated-dependencies: - dependency-name: com.ibm.icu:icu4j dependency-version: '78.1' dependency-type: direct:production update-type: version-update:semver-major ... Signed-off-by: dependabot[bot] <support@github.com> * build: upgrade to icu 78.1 fix build refs to adapt to new tag structure, source tarball filenames, and win32 release binary names. regenerate sources, adapting to property changes * build: gradlew writeLocks * build: gradlew writeChecksums --------- Signed-off-by: dependabot[bot] <support@github.com> Co-authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com> Co-authored-by: Robert Muir <rmuir@apache.org>
diff --git a/gradle/libs.versions.toml b/gradle/libs.versions.toml
@@ -21,7 +21,7 @@ groovy = "5.0.2"
 # test assertions
 hamcrest = "3.0"
 # analysis/icu/, gradle regeneration unicode support
-icu4j = "77.1"
+icu4j = "78.1"
 # queryparsers/ grammars
 javacc = "7.0.13"
 # analysis/ tokenizer grammars
diff --git a/lucene/analysis/common/src/generated/checksums/regenerateUnicodeProps.json b/lucene/analysis/common/src/generated/checksums/regenerateUnicodeProps.json
@@ -1,4 +1,4 @@
 {
-    "lucene/analysis/common/src/java/org/apache/lucene/analysis/util/UnicodeProps.java": "8e3d5182fcd87cc981977746571a5cde39b6abdc",
-    "property:icuConfig": "77.1"
+    "lucene/analysis/common/src/java/org/apache/lucene/analysis/util/UnicodeProps.java": "bc95fce925f26a56930b282c5fbfeed4318b4792",
+    "property:icuConfig": "78.1"
 }
diff --git a/lucene/analysis/common/src/java/org/apache/lucene/analysis/util/UnicodeProps.java b/lucene/analysis/common/src/java/org/apache/lucene/analysis/util/UnicodeProps.java
@@ -24,13 +24,13 @@
 
 /**
  * This file contains unicode properties used by various {@link CharTokenizer}s. The data was
- * generated using ICU4J v77.1.0.0, unicode version: 16.0.0.0.
+ * generated using ICU4J v78.1.0.0, unicode version: 17.0.0.0.
  */
 public final class UnicodeProps {
   private UnicodeProps() {}
 
   /** Unicode version that was used to generate this file: {@value} */
-  public static final String UNICODE_VERSION = "16.0.0.0";
+  public static final String UNICODE_VERSION = "17.0.0.0";
 
   /** Bitset with Unicode WHITESPACE code points. */
   public static final Bits WHITESPACE =
diff --git a/lucene/analysis/icu/build.gradle b/lucene/analysis/icu/build.gradle
@@ -107,7 +107,7 @@ tasks.register("regenerateUtr30DataFiles", {
       ignoreExitValue = false
       workingDir utr30DataDir
       args = [
-        "release-${icu4jVersion.replace(".", "-")}"
+        "release-${icu4jVersion}"
       ]
     }
 
@@ -171,7 +171,7 @@ tasks.register("compileIcuWindows", {
       icuBuildDir.mkdirs()
 
       // Download binaries matching icu4j version in version.props
-      def src = URI.create("https://github.com/unicode-org/icu/releases/download/release-${v.replace(".", "-")}/icu4c-${v.replace(".", "_")}-Win64-MSVC2019.zip")
+      def src = URI.create("https://github.com/unicode-org/icu/releases/download/release-${v}/icu4c-${v}-Win64-MSVC2022.zip")
 
       logger.lifecycle("Trying to download binary ICU version: ${v} from:\n  ${src}")
       Files.write(icuBinZip.toPath(), src.toURL().openStream().bytes)
@@ -193,12 +193,12 @@ tasks.register("compileIcuLinux", {
     }
 
     def v = icu4jVersion
-    def icuSrcTgz = file("${icuBuildDir}/icu4c-${v.replace(".", "_")}-src.tgz")
+    def icuSrcTgz = file("${icuBuildDir}/icu4c-${v}-sources.tgz")
 
     // Download sources for version matching icu4j version in version.props
     if (!icuSrcTgz.exists()) {
       icuBuildDir.mkdirs()
-      def src = URI.create("https://github.com/unicode-org/icu/releases/download/release-${v.replace(".", "-")}/icu4c-${v.replace(".", "_")}-src.tgz")
+      def src = URI.create("https://github.com/unicode-org/icu/releases/download/release-${v}/icu4c-${v}-sources.tgz")
       logger.lifecycle("Trying to download and compile ICU version: ${v} from:\n  ${src}")
       Files.write(icuSrcTgz.toPath(), src.toURL().openStream().bytes)
       logger.lifecycle("Downloaded ${icuSrcTgz.size()} bytes.")
diff --git a/lucene/analysis/icu/src/data/utr30/DiacriticFolding.txt b/lucene/analysis/icu/src/data/utr30/DiacriticFolding.txt
@@ -48,11 +48,11 @@
 0384..0385>
 0483..0487>
 0559>
-0591..05A1>
-05A3..05BD>
+0591..05BD>
 05BF>
 05C1..05C2>
-05C4>
+05C4..05C5>
+05C7>
 064B..0652>
 0657..0658>
 06DF..06E0>
@@ -118,6 +118,8 @@
 1A7F>
 1AB0..1ABE>
 1AC1..1ACB>
+1ACF..1ADD>
+1AE0..1AEB>
 1B34>
 1B44>
 1B6B..1B73>
@@ -131,6 +133,7 @@
 1CF4>
 1CF7..1CF9>
 1D2C..1D6A>
+1D9B..1DBE>
 1DC4..1DCF>
 1DF5..1DFF>
 1FBD>
@@ -151,6 +154,7 @@ A69C..A69D>
 A6F0..A6F1>
 A700..A721>
 A788..A78A>
+A7F1>
 A7F8..A7F9>
 A806>
 A82C>
@@ -184,6 +188,7 @@ FFE3>
 10D22..10D27>
 10D4E>
 10D69..10D6D>
+10EFA>
 10EFD..10EFF>
 10F46..10F50>
 10F82..10F85>
@@ -221,6 +226,7 @@ FFE3>
 11D42>
 11D44..11D45>
 11D97>
+11DD9>
 11F41..11F42>
 11F5A>
 13447..13455>
@@ -622,9 +628,6 @@ A7FF>004D
 # Additional signs and diacritic, from examination of [:Mark:]&[:Lm:]
 # Rule: verbatim
 0358..035C>
-05A2>
-05C5>
-05C7>
 0610..061A>
 0640>
 06D6..06DE>
diff --git a/lucene/analysis/icu/src/data/utr30/NativeDigitFolding.txt b/lucene/analysis/icu/src/data/utr30/NativeDigitFolding.txt
@@ -660,6 +660,16 @@ ABF9>0039   # MEETEI MAYEK DIGIT NINE
 11DA7>0037   # GUNJALA GONDI DIGIT SEVEN
 11DA8>0038   # GUNJALA GONDI DIGIT EIGHT
 11DA9>0039   # GUNJALA GONDI DIGIT NINE
+11DE0>0030   # TOLONG SIKI DIGIT ZERO
+11DE1>0031   # TOLONG SIKI DIGIT ONE
+11DE2>0032   # TOLONG SIKI DIGIT TWO
+11DE3>0033   # TOLONG SIKI DIGIT THREE
+11DE4>0034   # TOLONG SIKI DIGIT FOUR
+11DE5>0035   # TOLONG SIKI DIGIT FIVE
+11DE6>0036   # TOLONG SIKI DIGIT SIX
+11DE7>0037   # TOLONG SIKI DIGIT SEVEN
+11DE8>0038   # TOLONG SIKI DIGIT EIGHT
+11DE9>0039   # TOLONG SIKI DIGIT NINE
 11F50>0030   # KAWI DIGIT ZERO
 11F51>0031   # KAWI DIGIT ONE
 11F52>0032   # KAWI DIGIT TWO
diff --git a/lucene/analysis/icu/src/data/utr30/nfc.txt b/lucene/analysis/icu/src/data/utr30/nfc.txt
@@ -9,7 +9,7 @@
 #
 # Complete data for Unicode NFC normalization.
 
-* Unicode 16.0.0
+* Unicode 17.0.0
 
 # Canonical_Combining_Class (ccc) values
 0300..0314:230
@@ -222,7 +222,12 @@
 1AC3..1AC4:220
 1AC5..1AC9:230
 1ACA:220
-1ACB..1ACE:230
+1ACB..1ADC:230
+1ADD:220
+1AE0..1AE5:230
+1AE6:220
+1AE7..1AEA:230
+1AEB:234
 1B34:7
 1B44:9
 1B6B:230
@@ -321,6 +326,7 @@ FE2E..FE2F:230
 10D24..10D27:230
 10D69..10D6D:230
 10EAB..10EAC:230
+10EFA..10EFB:220
 10EFD..10EFF:220
 10F46..10F47:220
 10F48..10F4A:230
@@ -402,6 +408,10 @@ FE2E..FE2F:230
 1E4EF:230
 1E5EE:230
 1E5EF:220
+1E6E3:230
+1E6E6:230
+1E6EE..1E6EF:230
+1E6F5:230
 1E8D0..1E8D6:220
 1E944..1E949:230
 1E94A:7
diff --git a/lucene/analysis/icu/src/data/utr30/nfkc.txt b/lucene/analysis/icu/src/data/utr30/nfkc.txt
@@ -13,7 +13,7 @@
 # to NFKC one-way mappings.
 # Use this file as the second gennorm2 input file after nfc.txt.
 
-* Unicode 16.0.0
+* Unicode 17.0.0
 
 00A0>0020
 00A8>0020 0308
@@ -1367,6 +1367,7 @@
 A69C>044A
 A69D>044C
 A770>A76F
+A7F1>0053
 A7F2>0043
 A7F3>0046
 A7F4>0051
diff --git a/lucene/analysis/icu/src/data/utr30/nfkc_cf.txt b/lucene/analysis/icu/src/data/utr30/nfkc_cf.txt
@@ -12,7 +12,7 @@
 # and reformatted into syntax for the gennorm2 Normalizer2 data generator tool.
 # Use this file as the third gennorm2 input file after nfc.txt and nfkc.txt.
 
-* Unicode 16.0.0
+* Unicode 17.0.0
 
 0041>0061
 0042>0062
@@ -2465,11 +2465,15 @@ A7C7>A7C8
 A7C9>A7CA
 A7CB>0264
 A7CC>A7CD
+A7CE>A7CF
 A7D0>A7D1
+A7D2>A7D3
+A7D4>A7D5
 A7D6>A7D7
 A7D8>A7D9
 A7DA>A7DB
 A7DC>019B
+A7F1>0073
 A7F2>0063
 A7F3>0066
 A7F4>0071
@@ -4201,6 +4205,31 @@ FFF0..FFF8>
 16E5D>16E7D
 16E5E>16E7E
 16E5F>16E7F
+16EA0>16EBB
+16EA1>16EBC
+16EA2>16EBD
+16EA3>16EBE
+16EA4>16EBF
+16EA5>16EC0
+16EA6>16EC1
+16EA7>16EC2
+16EA8>16EC3
+16EA9>16EC4
+16EAA>16EC5
+16EAB>16EC6
+16EAC>16EC7
+16EAD>16EC8
+16EAE>16EC9
+16EAF>16ECA
+16EB0>16ECB
+16EB1>16ECC
+16EB2>16ECD
+16EB3>16ECE
+16EB4>16ECF
+16EB5>16ED0
+16EB6>16ED1
+16EB7>16ED2
+16EB8>16ED3
 1BCA0..1BCA3>
 1CCD6>0061
 1CCD7>0062
diff --git a/lucene/analysis/icu/src/generated/checksums/regenerateRbbi.json b/lucene/analysis/icu/src/generated/checksums/regenerateRbbi.json
@@ -1,7 +1,7 @@
 {
     "lucene/analysis/icu/src/data/uax29/Default.rbbi": "161deef4109a0dcf68a3f52339e973e07ad9579d",
     "lucene/analysis/icu/src/data/uax29/MyanmarSyllable.rbbi": "fe2ae2b8d556fd64e96f1cd45434035e107ada10",
-    "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/Default.brk": "afa6f8ffbf50054911ba7beaecf878e9a7464876",
-    "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/MyanmarSyllable.brk": "6ad4e9443110cb83412a0bff1ba43031c1604cde",
-    "property:icuConfig": "77.1"
+    "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/Default.brk": "80484c29b39798ae7f927415735c9e5e7b564086",
+    "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/MyanmarSyllable.brk": "bc65ccfdffc5597a60b8c1608262be218a4c646f",
+    "property:icuConfig": "78.1"
 }
diff --git a/lucene/analysis/icu/src/generated/checksums/regenerateUtr30DataFiles.json b/lucene/analysis/icu/src/generated/checksums/regenerateUtr30DataFiles.json
@@ -1,12 +1,12 @@
 {
     "lucene/analysis/icu/src/data/utr30/BasicFoldings.txt": "bb64c13b9a0a6eda9526eba490b000cc785e1671",
-    "lucene/analysis/icu/src/data/utr30/DiacriticFolding.txt": "355947dd4691b8cb2070f6a637c0c211dba3e2b9",
+    "lucene/analysis/icu/src/data/utr30/DiacriticFolding.txt": "373e40493455c8b22f83e5b19c4d480817451b00",
     "lucene/analysis/icu/src/data/utr30/DingbatFolding.txt": "bed27b1f97b52538ffeb3a4eccd85c5848991a3e",
     "lucene/analysis/icu/src/data/utr30/HanRadicalFolding.txt": "567197dc87a5ff803cc44cd5ce874f0e4717e3d4",
-    "lucene/analysis/icu/src/data/utr30/NativeDigitFolding.txt": "849fd177fdbcdea84ab8d7fc8bb77416ad21cc1e",
-    "lucene/analysis/icu/src/data/utr30/nfc.txt": "f7b86e96de57a3a2b05853cadff8ad5aca5e7801",
-    "lucene/analysis/icu/src/data/utr30/nfkc.txt": "7b639877a1701cffca5555e7487f5b96c4531aef",
-    "lucene/analysis/icu/src/data/utr30/nfkc_cf.txt": "a0d34f3b40b6e21b8980a5bb03c2ea6a0d7bd2d3",
-    "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/utr30.nrm": "e803f4c6de67fd78cb2d79aa677745764dda8342",
-    "property:icuConfig": "77.1"
+    "lucene/analysis/icu/src/data/utr30/NativeDigitFolding.txt": "ffda744598d5341c08288931bae4661a83e6e43e",
+    "lucene/analysis/icu/src/data/utr30/nfc.txt": "57c1d9b3641c50486d429ab1779f3f6adeb60a87",
+    "lucene/analysis/icu/src/data/utr30/nfkc.txt": "62ec59ac1c59c8b2de246ac565cc97e99c4765db",
+    "lucene/analysis/icu/src/data/utr30/nfkc_cf.txt": "1b820f8f0975a9434837b57c2a44a83847e1ba1b",
+    "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/utr30.nrm": "91e180cb4918f02b94718c1fa5f8584cec1a0082",
+    "property:icuConfig": "78.1"
 }
diff --git a/lucene/analysis/icu/src/java/org/apache/lucene/analysis/icu/ICUCollationDocValuesField.java b/lucene/analysis/icu/src/java/org/apache/lucene/analysis/icu/ICUCollationDocValuesField.java
@@ -51,7 +51,7 @@ public ICUCollationDocValuesField(String name, Collator collator) {
     super(name, SortedDocValuesField.TYPE);
     this.name = name;
     try {
-      this.collator = (Collator) collator.clone();
+      this.collator = collator.clone();
     } catch (CloneNotSupportedException e) {
       throw new RuntimeException(e);
     }
diff --git a/lucene/analysis/icu/src/java/org/apache/lucene/analysis/icu/segmentation/DefaultICUTokenizerConfig.java b/lucene/analysis/icu/src/java/org/apache/lucene/analysis/icu/segmentation/DefaultICUTokenizerConfig.java
@@ -114,12 +114,12 @@ public RuleBasedBreakIterator getBreakIterator(int script) {
         return (RuleBasedBreakIterator) cjkBreakIterator.clone();
       case UScript.MYANMAR:
         if (myanmarAsWords) {
-          return (RuleBasedBreakIterator) defaultBreakIterator.clone();
+          return defaultBreakIterator.clone();
         } else {
-          return (RuleBasedBreakIterator) myanmarSyllableIterator.clone();
+          return myanmarSyllableIterator.clone();
         }
       default:
-        return (RuleBasedBreakIterator) defaultBreakIterator.clone();
+        return defaultBreakIterator.clone();
     }
   }
 
diff --git a/lucene/analysis/icu/src/java/org/apache/lucene/analysis/icu/tokenattributes/ICUCollatedTermAttributeImpl.java b/lucene/analysis/icu/src/java/org/apache/lucene/analysis/icu/tokenattributes/ICUCollatedTermAttributeImpl.java
@@ -37,7 +37,7 @@ public class ICUCollatedTermAttributeImpl extends CharTermAttributeImpl {
   public ICUCollatedTermAttributeImpl(Collator collator) {
     // clone the collator: see http://userguide.icu-project.org/collation/architecture
     try {
-      this.collator = (Collator) collator.clone();
+      this.collator = collator.clone();
     } catch (CloneNotSupportedException e) {
       throw new RuntimeException(e);
     }
diff --git a/lucene/analysis/icu/src/java/overview.html b/lucene/analysis/icu/src/java/overview.html
@@ -343,7 +343,7 @@ <h3>Transliterate Serbian Cyrillic to Serbian Latin</h3>
 <h1><a id="backcompat">Backwards Compatibility</a></h1>
 <p>
 This module exists to provide up-to-date Unicode functionality that supports
-the most recent version of Unicode (currently 15.1). However, some users who wish
+the most recent version of Unicode (currently 17). However, some users who wish
 for stronger backwards compatibility can restrict
 {@link org.apache.lucene.analysis.icu.ICUNormalizer2Filter} to operate on only
 a specific Unicode Version by using a {@link com.ibm.icu.text.FilteredNormalizer2}.
diff --git a/lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/Default.brk b/lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/Default.brk
diff --git a/lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/MyanmarSyllable.brk b/lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/MyanmarSyllable.brk
diff --git a/lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/utr30.nrm b/lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/utr30.nrm
diff --git a/lucene/licenses/icu4j-77.1.jar.sha1 b/lucene/licenses/icu4j-77.1.jar.sha1
diff --git a/lucene/licenses/icu4j-78.1.jar.sha1 b/lucene/licenses/icu4j-78.1.jar.sha1
@@ -0,0 +1 @@
+07ac48a1b21b444015ea31c390f19d5cb1c2599e
diff --git a/versions.lock b/versions.lock
@@ -3,7 +3,7 @@
   "configurationGroups" : {
     "main_dependencies" : {
       "com.carrotsearch.randomizedtesting:randomizedtesting-runner:2.8.3" : "fa9ef26b,refs=4",
-      "com.ibm.icu:icu4j:77.1" : "47ea4550,refs=6",
+      "com.ibm.icu:icu4j:78.1" : "47ea4550,refs=6",
       "commons-codec:commons-codec:1.19.0" : "e6288df0,refs=6",
       "commons-io:commons-io:2.20.0" : "5ce8cdc6,refs=2",
       "io.sgr:s2-geometry-library-java:1.0.0" : "cbc357ab,refs=4",
@@ -44,7 +44,7 @@
       "com.google.guava:listenablefuture:9999.0-empty-to-avoid-conflict-with-guava" : "90685606,refs=39",
       "com.google.j2objc:j2objc-annotations:3.0.0" : "90685606,refs=39",
       "com.google.protobuf:protobuf-java:3.25.5" : "90685606,refs=39",
-      "com.ibm.icu:icu4j:77.1" : "ffa00415,refs=8",
+      "com.ibm.icu:icu4j:78.1" : "ffa00415,refs=8",
       "commons-codec:commons-codec:1.19.0" : "9dde4cb5,refs=8",
       "commons-io:commons-io:2.20.0" : "6f16ff86,refs=2",
       "io.github.eisop:dataflow-errorprone:3.41.0-eisop1" : "90685606,refs=39",

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`	`1`	`{`
`2`		`- "lucene/analysis/common/src/java/org/apache/lucene/analysis/util/UnicodeProps.java": "8e3d5182fcd87cc981977746571a5cde39b6abdc",`
`3`		`- "property:icuConfig": "77.1"`
	`2`	`+ "lucene/analysis/common/src/java/org/apache/lucene/analysis/util/UnicodeProps.java": "bc95fce925f26a56930b282c5fbfeed4318b4792",`
	`3`	`+ "property:icuConfig": "78.1"`
`4`	`4`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`{`
`2`	`2`	`"lucene/analysis/icu/src/data/uax29/Default.rbbi": "161deef4109a0dcf68a3f52339e973e07ad9579d",`
`3`	`3`	`"lucene/analysis/icu/src/data/uax29/MyanmarSyllable.rbbi": "fe2ae2b8d556fd64e96f1cd45434035e107ada10",`
`4`		`- "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/Default.brk": "afa6f8ffbf50054911ba7beaecf878e9a7464876",`
`5`		`- "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/MyanmarSyllable.brk": "6ad4e9443110cb83412a0bff1ba43031c1604cde",`
`6`		`- "property:icuConfig": "77.1"`
	`4`	`+ "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/Default.brk": "80484c29b39798ae7f927415735c9e5e7b564086",`
	`5`	`+ "lucene/analysis/icu/src/resources/org/apache/lucene/analysis/icu/segmentation/MyanmarSyllable.brk": "bc65ccfdffc5597a60b8c1608262be218a4c646f",`
	`6`	`+ "property:icuConfig": "78.1"`
`7`	`7`	`}`