Review: 03-regexp-unicode

dolgachio · dolgachio · commit 14ad4be72b6a · 2024-03-22T11:41:37.000+02:00
diff --git a/9-regular-expressions/03-regexp-unicode/article.md b/9-regular-expressions/03-regexp-unicode/article.md
@@ -1,10 +1,10 @@
 # Юнікод: прапорець "u" та клас \p{...}
 
-У JavaScript для рядків використовується кодування [Юнікод](https://uk.wikipedia.org/wiki/Юнікод). Більшість символів кодуються 2 байтами, що дозволяє представити максимум 65536 символів.
+У JavaScript для рядків використовується кодування [Юнікод](https://uk.wikipedia.org/wiki/Юнікод). Більшість символів кодуються 2-ма байтами, що дозволяє представити максимум 65536 символів.
 
-Цей діапазон недостатньо великий для кодування всіх можливих символів, тому деякі рідкісні символи кодуються 4 байтами, наприклад `𝒳` (математичний X) або `😄` (смайл), деякі ієрогліфи тощо.
+Цей діапазон недостатньо великий для кодування всіх можливих символів, тому деякі рідкісні символи кодуються 4-ма байтами, наприклад `𝒳` (математичний X) або `😄` (смайл), деякі ієрогліфи тощо.
 
-Ось значення Юнікодів для деяких символів:
+Ось Юнікод значення для деяких символів:
 
 | Символ  | Юнікод | Кількість байтів у Юнікоді  |
 |------------|---------|--------|
@@ -25,11 +25,11 @@ alert('😄'.length); // 2
 alert('𝒳'.length); // 2
 ```
 
-...Але ми бачимо, що лише один, правда ж? Річ у тому, що властивість `length` трактує 4 байти, як два символи по 2 байти. Це не правильно, адже їх необхідно розглядати тільки разом (так звана "сурогатна пара", детальніше у розділі <info:string>).
+...Але ми бачимо, що лише один, правда ж? Річ у тому, що властивість `length` трактує 4 байти, як два символи по 2 байти. Це неправильно, адже їх необхідно розглядати тільки разом (так звана "сурогатна пара", детальніше у розділі <info:string>).
 
-За замовчуванням регулярні вирази також розглядають 4-байтові "довгі символи" як пару 2-байтових. Як і у випадку з рядками, це може призвести до дивних результатів. Ми побачимо це трохи пізніше, у розділі <info:regexp-character-sets-and-ranges>.
+Типово регулярні вирази також розглядають 4-байтові "довгі символи" як пару 2-байтових. Як і у випадку з рядками, це може призвести до дивних результатів. Ми побачимо це трохи пізніше, у розділі <info:regexp-character-sets-and-ranges>.
 
-На відміну від рядків, регулярні вирази мають прапорець `pattern:u`, який виправляє такі проблеми. З таким прапорцем регулярний вираз правильно обробляє 4-байтові символи. А також стає доступним пошук з використанням властивостей Юнікоду, який ми розглянемо далі.
+На відміну від рядків, регулярні вирази мають прапорець `pattern:u`, який виправляє такі проблеми. З таким прапорцем регулярний вираз правильно обробляє 4-байтові символи. Ба більше, стає доступним пошук з використанням властивостей Юнікоду, який ми розглянемо далі.
 
 ## Властивості Юнікоду \p{...}
 
@@ -41,7 +41,7 @@ alert('𝒳'.length); // 2
 
 Наприклад, `\p{Letter}` позначає літеру будь-якою мовою. Ми також можемо використовувати коротший запис `\p{L}`, оскільки `L` є псевдонімом `Letter`. Майже для кожної властивості існують варіанти коротшого запису.
 
-У наведеному нижче прикладі буде знайдено три види літер: англійська, грузинська та корейська.
+У наведеному нижче прикладі ми будемо шукати три види літер: англійську, грузинську та корейську.
 
 ```js run
 let str = "A ბ ㄱ";
@@ -91,14 +91,14 @@ alert( str.match(/\p{L}/g) ); // null (немає збігів, \p не прац
   - сурогат `Cs`.
 
 
-Наприклад, якщо нам потрібно знайти маленькі літери, ми можемо написати `pattern:\p{Ll}`, знаки пунктуації `pattern:\p{P}` і так далі.
+Наприклад, якщо нам потрібно знайти маленькі літери, ми можемо написати `pattern:\p{Ll}`, знаки пунктуації `pattern:\p{P}` тощо.
 
 Існують також інші похідні категорії, наприклад:
 - `Alphabetic` (`Alpha`), містить в собі літери `L`, а також числа позначені за допомогою літер `Nl` (наприклад, Ⅻ - символ для римської цифри 12), і деякі інші символи `Other_Alphabetic` (`OAlpha`).
 - `Hex_Digit` містить шістнадцяткові числа: `0-9`, `a-f`.
-- ...І так далі.
+- ...тощо.
 
-Юнікод підтримує велику кількість властивостей, і їхній повний перелік вимагав би дуже багато місця, тому ось посилання:
+Юнікод підтримує велику кількість властивостей, і їхній повний перелік зайняв би дуже багато місця, тому ось посилання:
 
 - Перелік усіх властивостей за символом: <https://unicode.org/cldr/utility/character.jsp>.
 - Перелік усіх символів за властивістю: <https://unicode.org/cldr/utility/list-unicodeset.jsp>.
@@ -107,7 +107,7 @@ alert( str.match(/\p{L}/g) ); // null (немає збігів, \p не прац
 
 ### Приклад: шістнадцяткові числа
 
-Наприклад, пошукаймо шістнадцяткові числа, записані в форматі `xFF`, де замість `F` може бути будь-яка шістнадцяткова цифра (0..9 or A..F).
+Наприклад, знайдемо шістнадцяткові числа, записані в форматі `xFF`, де замість `F` може бути будь-яка шістнадцяткова цифра (0..9 or A..F).
 
 Шістнадцяткову цифру можна позначити як `pattern:\p{Hex_Digit}`:
 
@@ -119,11 +119,11 @@ alert("число: xAF".match(regexp)); // xAF
 
 ### Приклад: китайські ієрогліфи
 
-Пошукаймо китайські ієрогліфи.
+Знайдемо китайські ієрогліфи.
 
 Нам допоможе властивість Юнікоду -- `Script` (система письма), яка може мати значення: `Cyrillic`(Кирилиця), `Greek` (Грецька), `Arabic` (Арабська), `Han` (Китайська) та інші, [тут повний перелік](https://en.wikipedia.org/wiki/Script_(Unicode)).
 
-Для пошуку символів у певній системі письма ми повинні використати `pattern:Script=<value>`, наприклад для літер кирилиці: `pattern:\p{sc=Cyrillic}`, для китайських ієрогліфів: `pattern:\p{sc=Han}`, і так далі.
+Для пошуку символів у певній системі письма ми повинні використовувати `pattern:Script=<value>`, наприклад для літер кирилиці: `pattern:\p{sc=Cyrillic}`, для китайських ієрогліфів: `pattern:\p{sc=Han}` тощо.
 
 ```js run
 let regexp = /\p{sc=Han}/gu; // поверне китайські ієрогліфи
@@ -137,7 +137,7 @@ alert( str.match(regexp) ); // 你,好
 
 Символи, які позначають валюту, такі як `$`, `€`, `¥`, мають властивість `pattern:\p{Currency_Symbol}`, короткий псевдонім: `pattern:\p{Sc}`.
 
-Використаємо його для пошуку цін у форматі «валюта, за якою йде цифра»:
+Використаємо його для пошуку цін у форматі "валюта, за якою йде цифра":
 
 ```js run
 let regexp = /\p{Sc}\d/gu;