docs: actualize vocab size (81→85), spec version (2.0→2.2), style tag (user→H1K0)

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-05-20 03:23:55 +03:00
parent 0a1dcc0ec2
commit 555205b7d2
3 changed files with 8 additions and 8 deletions
+3 -3
View File
@@ -240,7 +240,7 @@ Python и опционально `music21` (как fallback для нетипи
**Публичный интерфейс.**
- Константа `VOCAB: list[str]` — словарь токенов в порядке, описанном в
спецификации формата (81 токен).
спецификации формата (85 токенов).
- Константа `TOKEN_TO_ID: dict[str, int]` — обратное отображение.
- Функция `parse_chord_file(path: Path) -> ChordPeriod` — парсинг
`.chord`-файла в структурированное представление.
@@ -478,7 +478,7 @@ key, prefix=None, temperature=1.0, top_p=0.9, max_tokens=300, seed=None)
| Число голов внимания | 6 |
| Размерность FFN | 768 |
| Длина контекста | 512 токенов |
| Размер словаря | 81 |
| Размер словаря | 85 |
| Dropout | 0.1 |
При необходимости конфигурация может быть пересмотрена в сторону уменьшения
@@ -719,7 +719,7 @@ C major, минорные — в A minor. Тональность в словар
на несколько токенов (корень, качество, расширение, бас).
**Решение.** Каждый аккорд представляется ровно четырьмя токенами:
`ROOT_x`, `QUAL_x`, `EXT_x`, `BASS_x`. Словарь содержит 81 токен против
`ROOT_x`, `QUAL_x`, `EXT_x`, `BASS_x`. Словарь содержит 85 токенов против
нескольких сотен в случае атомарной токенизации.
**Последствия.**
+2 -2
View File
@@ -110,7 +110,7 @@ GPU-ресурсов (Google Colab) допустимо, но не должно
### 3.1 Подсистема работы с форматом данных
**ФТ-1.** Система должна поддерживать чтение `.chord`-файлов в формате,
описанном в `docs/chord_format_spec.md` версии 2.0, включая:
описанном в `docs/chord_format_spec.md` версии 2.2, включая:
- Парсинг шапки с метаданными.
- Парсинг тела файла, состоящего из последовательности тактов.
@@ -136,7 +136,7 @@ GPU-ресурсов (Google Colab) допустимо, но не должно
**ФТ-4.** Система должна выполнять токенизацию `.chord`-файлов в
последовательности целочисленных идентификаторов согласно словарю,
описанному в §5 спецификации формата. Словарь содержит 81 токен.
описанному в §5 спецификации формата. Словарь содержит 85 токенов.
**ФТ-5.** Система должна поддерживать обратную детокенизацию: преобразование
последовательности целочисленных идентификаторов обратно в `.chord`-файл,