docs: actualize vocab size (81→85), spec version (2.0→2.2), style tag (user→H1K0)

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-20 03:23:55 +03:00
parent 0a1dcc0ec2
commit 555205b7d2
3 changed files with 8 additions and 8 deletions
@@ -240,7 +240,7 @@ Python и опционально `music21` (как fallback для нетипи
 **Публичный интерфейс.**

 - Константа `VOCAB: list[str]` — словарь токенов в порядке, описанном в
-  спецификации формата (81 токен).
+  спецификации формата (85 токенов).
 - Константа `TOKEN_TO_ID: dict[str, int]` — обратное отображение.
 - Функция `parse_chord_file(path: Path) -> ChordPeriod` — парсинг
  `.chord`-файла в структурированное представление.
@@ -478,7 +478,7 @@ key, prefix=None, temperature=1.0, top_p=0.9, max_tokens=300, seed=None)
 | Число голов внимания         | 6           |
 | Размерность FFN              | 768         |
 | Длина контекста              | 512 токенов |
-| Размер словаря               | 81          |
+| Размер словаря               | 85          |
 | Dropout                      | 0.1         |

 При необходимости конфигурация может быть пересмотрена в сторону уменьшения
@@ -719,7 +719,7 @@ C major, минорные — в A minor. Тональность в словар
 на несколько токенов (корень, качество, расширение, бас).

 **Решение.** Каждый аккорд представляется ровно четырьмя токенами:
-`ROOT_x`, `QUAL_x`, `EXT_x`, `BASS_x`. Словарь содержит 81 токен против
+`ROOT_x`, `QUAL_x`, `EXT_x`, `BASS_x`. Словарь содержит 85 токенов против
 нескольких сотен в случае атомарной токенизации.

 **Последствия.**
@@ -110,7 +110,7 @@ GPU-ресурсов (Google Colab) допустимо, но не должно
 ### 3.1 Подсистема работы с форматом данных

 **ФТ-1.** Система должна поддерживать чтение `.chord`-файлов в формате,
-описанном в `docs/chord_format_spec.md` версии 2.0, включая:
+описанном в `docs/chord_format_spec.md` версии 2.2, включая:

 - Парсинг шапки с метаданными.
 - Парсинг тела файла, состоящего из последовательности тактов.
@@ -136,7 +136,7 @@ GPU-ресурсов (Google Colab) допустимо, но не должно

 **ФТ-4.** Система должна выполнять токенизацию `.chord`-файлов в
 последовательности целочисленных идентификаторов согласно словарю,
-описанному в §5 спецификации формата. Словарь содержит 81 токен.
+описанному в §5 спецификации формата. Словарь содержит 85 токенов.

 **ФТ-5.** Система должна поддерживать обратную детокенизацию: преобразование
 последовательности целочисленных идентификаторов обратно в `.chord`-файл,