Refactor tests and update-tables a small bit

jquast · jquast · commit c5ec9a59fdd0 · 2025-10-21T10:54:57.000-04:00
diff --git a/bin/update-tables.py b/bin/update-tables.py
@@ -68,6 +68,8 @@
     *range(0xD7B0, 0xD800),  # Hangul Jungseong O-Yeo  .. Undefined Character of Hangul Jamo Extended-B
 )
 
+HEX_STR_VS15 = 'FE0E'
+HEX_STR_VS16 = 'FE0F'
 
 def _bisearch(ucs, table):
     """A copy of wcwwidth._bisearch, to prevent having issues when depending on code that imports
@@ -433,7 +435,6 @@ def fetch_table_vs16_data() -> UnicodeTableRenderCtx:
     """
     table: dict[UnicodeVersion, TableDef] = {}
     unicode_latest = fetch_unicode_versions()[-1]
-    hex_str_vs = 'FE0F'
 
     wide_tables = fetch_table_wide_data().table
     unicode_version = UnicodeVersion.parse('9.0.0')
@@ -442,13 +443,13 @@ def fetch_table_vs16_data() -> UnicodeTableRenderCtx:
     # 15.1.0) and parse a single file for all individual releases
     table[unicode_version] = parse_vs_data(fname=UnicodeDataFile.EmojiVariationSequences(unicode_latest),
                                            ubound_unicode_version=unicode_version,
-                                           hex_str_vs=hex_str_vs)
+                                           hex_str_vs=HEX_STR_VS16)
 
     # parse and join the final emoji release 12.0 of the earlier "type"
     table[unicode_version].values.update(
         parse_vs_data(fname=UnicodeDataFile.LegacyEmojiVariationSequences(),
                       ubound_unicode_version=unicode_version,
-                      hex_str_vs=hex_str_vs).values)
+                      hex_str_vs=HEX_STR_VS16).values)
 
     # perform culling on any values that are already understood as 'wide'
     # without the variation-16 selector
@@ -488,7 +489,6 @@ def fetch_table_vs15_data() -> UnicodeTableRenderCtx:
     """
     table: dict[UnicodeVersion, TableDef] = {}
     unicode_latest = fetch_unicode_versions()[-1]
-    hex_str_vs = 'FE0E'
 
     wide_tables = fetch_table_wide_data().table
     unicode_version = UnicodeVersion.parse('9.0.0')
@@ -497,13 +497,13 @@ def fetch_table_vs15_data() -> UnicodeTableRenderCtx:
     # 15.1.0) and parse a single file for all individual releases
     table[unicode_version] = parse_vs_data(fname=UnicodeDataFile.EmojiVariationSequences(unicode_latest),
                                            ubound_unicode_version=unicode_version,
-                                           hex_str_vs=hex_str_vs)
+                                           hex_str_vs=HEX_STR_VS15)
 
     # parse and join the final emoji release 12.0 of the earlier "type"
     table[unicode_version].values.update(
         parse_vs_data(fname=UnicodeDataFile.LegacyEmojiVariationSequences(),
                       ubound_unicode_version=unicode_version,
-                      hex_str_vs=hex_str_vs).values)
+                      hex_str_vs=HEX_STR_VS15).values)
 
     # perform culling on any values that are already understood as 'narrow'
     # without the variation-15 selector
diff --git a/tests/test_emojis.py b/tests/test_emojis.py
@@ -174,133 +174,111 @@ def test_recommended_emoji_zwj_sequences():
     assert num >= 1468
 
 
-def test_recommended_variation_16_sequences():
+@pytest.mark.parametrize('vs_char,expected_width', [
+    ('\ufe0f', 2),
+    ('\ufe0e', 1),
+])
+def test_recommended_variation_sequences(vs_char, expected_width):
     """
-    Test wcswidth of vs-16 sequences from unicode.org's emoji-variation-sequences.txt
+    Test wcswidth of variation selector sequences from emoji-variation-sequences.txt
     """
-    # given,
     lines, sequences = read_sequences_from_file('emoji-variation-sequences.txt')
 
     errors = []
     num = 0
     for sequence, line in zip(sequences, lines):
         num += 1
-        if '\ufe0f' not in sequence:
-            # filter for only \uFE0F (VS-16)
+        if vs_char not in sequence:
             continue
         measured_width = wcwidth.wcswidth(sequence)
-        if measured_width != 2:
+        if measured_width != expected_width:
             errors.append({
-                'expected_width': 2,
+                'expected_width': expected_width,
                 'line': line,
-                'measured_width': wcwidth.wcswidth(sequence),
+                'measured_width': measured_width,
                 'sequence': sequence,
             })
 
-    # verify
     assert errors == []
     assert num >= 742
 
 
-def test_recommended_variation_15_sequences():
-    """
-    Test wcswidth of vs-15 sequences from unicode.org's emoji-variation-sequences.txt
+@pytest.mark.parametrize('unicode_version,base_char,vs_char,base_width,expect_phrase_width', [
+    ('9.0', '\u2640', '\uFE0F', 1, 3),
+    ('9.0', '\U0001f4da', '\uFE0E', 2, 2),
+    ('8.0', '\u2640', '\uFE0F', 1, 2),
+    ('8.0', '\U0001f4da', '\uFE0E', 1, 2),
+])
+def test_variation_selector_unicode_version(unicode_version, base_char, vs_char, base_width, expect_phrase_width):
     """
-    # given,
-    lines, sequences = read_sequences_from_file('emoji-variation-sequences.txt')
-
-    errors = []
-    num = 0
-    for sequence, line in zip(sequences, lines):
-        num += 1
-        if '\ufe0e' not in sequence:
-            # filter for only \uFE0E (VS-15)
-            continue
-        measured_width = wcwidth.wcswidth(sequence)
-        if measured_width != 1:
-            errors.append({
-                'expected_width': 1,
-                'line': line,
-                'measured_width': wcwidth.wcswidth(sequence),
-                'sequence': sequence,
-            })
-
-    # verify
-    assert errors == []
-    assert num >= 742
-
-
-def test_unicode_9_vs16():
-    """Verify effect of VS-16 on unicode_version 9.0 and later"""
-    phrase = ("\u2640"        # FEMALE SIGN
-              "\uFE0F"        # VARIATION SELECTOR-16
-              "X"             # ASCII Letter 'X'
-              "\uFE0F")       # VARIATION SELECTOR-16
-
-    expect_length_each = (1, 0, 1, 0)
-    expect_length_phrase = 3
-
-    # exercise,
-    length_each = tuple(wcwidth.wcwidth(w_char, unicode_version='9.0') for w_char in phrase)
-    length_phrase = wcwidth.wcswidth(phrase, unicode_version='9.0')
-
-    # verify.
-    assert length_each == expect_length_each
-    assert length_phrase == expect_length_phrase
-
-
-def test_unicode_9_vs15():
-    """Verify effect of VS-15 on unicode_version 9.0 and later"""
-    phrase = ("\U0001f4da"        # BOOKS
-              "\uFE0E"            # VARIATION SELECTOR-15
-              "X"                 # ASCII Letter 'X'
-              "\uFE0E")           # VARIATION SELECTOR-15
+    Test variation selector behavior across Unicode versions.
 
-    expect_length_each = (2, 0, 1, 0)
-    expect_length_phrase = 2
+    VS-16 and VS-15 should affect width in Unicode 9.0+, but not in 8.0 and earlier.
+    """
+    phrase = base_char + vs_char + "X" + vs_char
+    expect_length_each = (base_width, 0, 1, 0)
 
-    # exercise,
-    length_each = tuple(wcwidth.wcwidth(w_char, unicode_version='9.0') for w_char in phrase)
-    length_phrase = wcwidth.wcswidth(phrase, unicode_version='9.0')
+    length_each = tuple(wcwidth.wcwidth(w_char, unicode_version=unicode_version) for w_char in phrase)
+    length_phrase = wcwidth.wcswidth(phrase, unicode_version=unicode_version)
 
-    # verify.
     assert length_each == expect_length_each
-    assert length_phrase == expect_length_phrase
-
-
-def test_unicode_8_vs16():
-    """Verify that VS-16 has no effect on unicode_version 8.0 and earlier"""
-    phrase = ("\u2640"        # FEMALE SIGN
-              "\uFE0F"        # VARIATION SELECTOR-16
-              "X"             # ASCII Letter 'X'
-              "\uFE0F")       # VARIATION SELECTOR-16
+    assert length_phrase == expect_phrase_width
+
+
+@pytest.mark.parametrize('char,expected_base_width,expected_vs15_width,description', [
+    ('\u231A', 2, 1, 'WATCH'),
+    ('\u231B', 2, 1, 'HOURGLASS'),
+    ('\u2648', 2, 1, 'ARIES'),
+    ('\u26A1', 2, 1, 'HIGH VOLTAGE SIGN'),
+    ('\U0001F4DA', 2, 1, 'BOOKS'),
+    ('\U0001F3E0', 2, 1, 'HOUSE BUILDING'),
+    ('\u0023', 1, 1, 'NUMBER SIGN'),
+    ('\u002A', 1, 1, 'ASTERISK'),
+    ('\u00A9', 1, 1, 'COPYRIGHT SIGN'),
+])
+def test_vs15_width_effects(char, expected_base_width, expected_vs15_width, description):
+    """
+    Test VS-15 width effects on various characters.
 
-    expect_length_each = (1, 0, 1, 0)
-    expect_length_phrase = 2
+    Wide chars (2→1): VS-15 converts to narrow text presentation
+    Narrow chars (1→1): VS-15 has no effect, already narrow
+    """
+    width_alone = wcwidth.wcswidth(char, unicode_version='9.0')
+    width_with_vs15 = wcwidth.wcswidth(char + '\uFE0E', unicode_version='9.0')
 
-    # exercise,
-    length_each = tuple(wcwidth.wcwidth(w_char, unicode_version='8.0') for w_char in phrase)
-    length_phrase = wcwidth.wcswidth(phrase, unicode_version='8.0')
+    assert width_alone == expected_base_width
+    assert width_with_vs15 == expected_vs15_width
 
-    # verify.
-    assert length_each == expect_length_each
-    assert length_phrase == expect_length_phrase
 
+def test_vs15_vs16_symmetry():
+    """Verify VS-15 and VS-16 have symmetric opposite effects on dual-presentation chars"""
+    watch = '\u231A'
 
-def test_unicode_8_vs15():
-    """Verify that VS-15 has no effect on unicode_version 8.0 and earlier"""
-    phrase = ("\U0001f4da"        # BOOKS
-              "\uFE0E"            # VARIATION SELECTOR-15
-              "X"                 # ASCII Letter 'X'
-              "\uFE0E")           # VARIATION SELECTOR-15
+    width_base = wcwidth.wcswidth(watch, unicode_version='9.0')
+    width_vs15 = wcwidth.wcswidth(watch + '\uFE0E', unicode_version='9.0')
+    width_vs16 = wcwidth.wcswidth(watch + '\uFE0F', unicode_version='9.0')
 
-    expect_length_each = (1, 0, 1, 0)
-    expect_length_phrase = 2
+    assert width_base == 2
+    assert width_vs15 == 1
+    assert width_vs16 == 2
 
-    # exercise,
-    length_each = tuple(wcwidth.wcwidth(w_char, unicode_version='8.0') for w_char in phrase)
-    length_phrase = wcwidth.wcswidth(phrase, unicode_version='8.0')
 
-    # verify.
-    assert length_each == expect_length_each
-    assert length_phrase == expect_length_phrase
+def test_vs15_multiple_in_sequence():
+    """Verify multiple VS-15 applications in a single string"""
+    phrase = (
+        '\u231A\uFE0E'      # WATCH + VS15 (wide -> narrow)
+        'X'                 # ASCII
+        '\U0001F4DA\uFE0E'  # BOOKS + VS15 (wide -> narrow)
+        'Y'                 # ASCII
+        '\u2648\uFE0E'      # ARIES + VS15 (wide -> narrow)
+    )
+
+    width = wcwidth.wcswidth(phrase, unicode_version='9.0')
+    assert width == 5
+
+
+def test_vs15_without_preceding_char():
+    """Verify VS-15 without a preceding measurable character has width 0"""
+    phrase = '\uFE0E'
+    width = wcwidth.wcwidth(phrase, unicode_version='9.0')
+    assert width == 0