docs: add README, architecture, glossary, requirements; update CLAUDE.md

Add four Russian-language project documents: - README.md: user-facing guide (install, quick start, data prep, training, evaluation, limitations) - docs/architecture.md v1.0: system architecture, data flow diagrams, module interfaces, 7 architectural decision records, extension points - docs/glossary.md v1.0: musical, ML, and project-specific term definitions - docs/requirements.md v1.0: functional/non-functional requirements, acceptance criteria, four use-case scenarios Update CLAUDE.md with project name etymology (hamori / ハモリ) and rename repo root reference from chord-gen to hamori. Refine chord_format_spec.md. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-19 11:00:21 +03:00
parent 9929209bcf
commit 75fa07bf6c
6 changed files with 2312 additions and 5 deletions
@@ -4,11 +4,20 @@ This file gives Claude Code persistent context for the project. Read it before a
 ## Project overview
-**Goal.** Train a small autoregressive transformer to generate harmonic periods (4–16 bar chord progressions) in the author's compositional style. Coursework deliverable for an ML class at RTU MIREA; also intended as a working creative tool.
+**Name.** _hamori_ (Japanese ハモリ, "harmonization" in the sense of vocal
 harmony — adding a second voice to a melodic line). The name reflects the
 project's core idea: the model proposes harmonic ideas to complement a
 composer's existing intent, rather than writing music from scratch.
 **Goal.** Train a small autoregressive transformer to generate harmonic
 periods (4–16 bar chord progressions) in the author's compositional style.
 Coursework deliverable for an ML class at RTU MIREA; also intended as a
 working creative tool.
 **Unit of generation.** A single closed harmonic phrase (a "period"), not a full song.
 **Pipeline.**
 1. Hand-transcribe own compositions from REAPER DAW projects into `.chord` text files.
 2. Parse `.chord` → factorized token sequences.
 3. Pre-train on a public corpus (McGill Billboard or similar).
@@ -34,7 +43,7 @@ Avoid heavy abstractions. This is coursework, not a production system. Prefer si
 ## Repository layout
 ```
-chord-gen/
+hamori/
 ├── CLAUDE.md                          ← this file
 ├── README.md
 ├── requirements.txt
@@ -88,6 +97,7 @@ The authoritative specification is in `docs/chord_format_spec.md`. **Always read
 ## Model
 A small autoregressive transformer:
 - Layers: 2–4
 - d_model: 128–256
 - Heads: 4–8
@@ -111,6 +121,7 @@ Pre-training uses the full public corpus. Fine-tuning uses the own corpus with a
 ## Evaluation
 For the report:
 1. **Perplexity** on the holdout set, comparing pre-trained baseline vs fine-tuned.
 2. **Distribution shift plots** — histograms over chord qualities, extension presence, inversion frequency, root motion intervals — showing how fine-tuning moves the distribution toward the author's corpus.
 3. **Qualitative cherry-picked generations** — 3 examples with the same seed/prefix, generated by baseline vs fine-tuned, rendered to MIDI.
@@ -0,0 +1,349 @@
 # hamori
 Авторегрессионная нейросетевая модель для генерации гармонических периодов
 (замкнутых гармонических фраз 4–16 тактов) в авторском композиторском стиле.
 Название проекта — _hamori_ (яп. ハモリ) — относится к понятию вокальной
 гармонизации, добавлению второго голоса в существующую мелодическую линию.
 Отсылка к этому понятию закрепляет основную идею проекта: модель не пишет
 музыку с нуля, а предлагает гармонические идеи в дополнение к замыслу
 композитора.
 Проект разработан как курсовая работа по дисциплине «Машинное обучение» в
 рамках обучения в РТУ МИРЭА и одновременно как практический инструмент для
 композиторской работы.
 ## Содержание
 - [hamori](#hamori)
  - [Содержание](#содержание)
  - [1. Краткое описание](#1-краткое-описание)
  - [2. Контекст и цели](#2-контекст-и-цели)
  - [3. Установка](#3-установка)
  - [4. Структура репозитория](#4-структура-репозитория)
  - [5. Быстрый старт](#5-быстрый-старт)
  - [6. Подготовка датасета](#6-подготовка-датасета)
    - [6.1 Собственный корпус](#61-собственный-корпус)
    - [6.2 Публичный корпус](#62-публичный-корпус)
    - [6.3 Отложенная выборка](#63-отложенная-выборка)
    - [6.4 Токенизация](#64-токенизация)
  - [7. Обучение моделей](#7-обучение-моделей)
    - [7.1 Предобучение](#71-предобучение)
    - [7.2 Дообучение на собственном корпусе](#72-дообучение-на-собственном-корпусе)
  - [8. Оценка результатов](#8-оценка-результатов)
  - [9. Дополнительная документация](#9-дополнительная-документация)
  - [10. Ограничения текущей версии](#10-ограничения-текущей-версии)
 ---
 ## 1. Краткое описание
 Система принимает на вход параметры желаемого периода (тональность, тактовый
 размер, стилевой тег, функциональная роль) и опционально первые несколько
 аккордов. На выходе формируется гармоническая последовательность, представленная
 как `.chord`-файл лид-шит-нотации и MIDI-файл для воспроизведения и работы
 в цифровой звуковой рабочей станции.
 Модель обучается в две стадии:
 - **Pre-training** на публичном корпусе аккордовых последовательностей
  (McGill Billboard Project) для усвоения общих гармонических закономерностей
  поп-музыки.
 - **Fine-tuning** на корпусе собственных произведений автора для адаптации
  модели к индивидуальному композиторскому почерку.
 Юнит обработки и генерации — **гармонический период**, а не пьеса целиком.
 Это решение обеспечивает достаточный размер обучающей выборки при ограниченном
 числе исходных произведений и снимает проблему обработки модуляций между
 крупными разделами формы.
 ## 2. Контекст и цели
 Проект преследует две сопряжённые цели.
 **Учебная цель.** Закрытие дисциплины «Машинное обучение» с выполнением
 курсового проекта, включающего полный цикл работы с генеративной моделью:
 постановка задачи, проектирование формата данных, подготовка обучающего
 корпуса, обучение, оценка и интерпретация результатов.
 **Прикладная цель.** Получение работающего инструмента-помощника, который
 автор сможет использовать в дальнейшей композиторской деятельности как
 источник гармонических идей в собственном стилистическом ключе.
 Срок реализации: менее одного месяца. Бюджет ручного труда: около 50 часов.
 Подробное описание целей и формальных требований приведено в
 [docs/requirements.md](docs/requirements.md).
 ## 3. Установка
 Требования: Python 3.11 или новее, доступ к командной строке, git.
 ```bash
 git clone <repository-url> hamori
 cd hamori
 python -m venv venv
 source venv/bin/activate     # Linux, macOS
 venv\Scripts\activate        # Windows
 pip install -r requirements.txt
 ```
 Для воспроизведения сгенерированных MIDI-файлов требуется цифровая звуковая
 рабочая станция (рекомендуется REAPER) с подключённым программным
 синтезатором, либо стандартный плеер MIDI операционной системы.
 Обучение модели возможно как на CPU, так и на GPU. Модель компактна
 (порядка одного-трёх миллионов параметров), и pre-training на полном
 корпусе укладывается в несколько часов на CPU современного ноутбука,
 fine-tuning — в десятки минут.
 ## 4. Структура репозитория
 ```
 hamori/
 ├── CLAUDE.md                          постоянный контекст для Claude Code
 ├── README.md                          этот файл
 ├── requirements.txt                   зависимости Python
 ├── docs/
 │   ├── chord_format_spec.md           спецификация формата .chord (версия 2.0)
 │   ├── requirements.md                функциональные и нефункциональные требования
 │   ├── architecture.md                архитектура системы
 │   └── glossary.md                    глоссарий терминов
 ├── data/
 │   ├── raw_user/                      .chord-файлы собственного корпуса
 │   ├── raw_external/                  публичные корпуса (McGill Billboard и др.)
 │   ├── processed/                     токенизированные .pt-файлы для обучения
 │   └── holdout/                       отложенная выборка для итоговой оценки
 ├── src/
 │   ├── chord_parser.py                парсинг аккордовых символов
 │   ├── tokenizer.py                   преобразование .chord ↔ токены
 │   ├── midi_export.py                 экспорт периодов в MIDI
 │   ├── dataset.py                     PyTorch-датасет
 │   ├── model.py                       определение модели
 │   ├── train.py                       логика обучения
 │   ├── generate.py                    инференс и сэмплирование
 │   ├── evaluate.py                    метрики и распределения
 │   └── external_converters/           конвертеры публичных корпусов
 ├── scripts/                           CLI-обёртки над модулями src
 ├── tests/                             модульные тесты и фикстуры
 ├── notebooks/                         Jupyter-ноутбуки для исследования и отчётности
 ├── checkpoints/                       сохранённые состояния моделей
 └── reports/                           графики, примеры и итоговый отчёт
 ```
 ## 5. Быстрый старт
 После завершения обучения (см. разделы 6–7) генерация одного периода
 выполняется следующей командой:
 ```bash
 python scripts/generate.py \
    --checkpoint checkpoints/finetuned.pt \
    --mode major \
    --key F# \
    --style user \
    --function chorus \
    --time 4/4 \
    --output reports/samples/period.chord \
    --midi reports/samples/period.mid \
    --seed 42
 ```
 После выполнения в указанной директории появятся два файла:
 текстовый `.chord` с гармонической последовательностью и MIDI-файл,
 готовый к открытию в DAW.
 Если у пользователя есть начальная гармоническая идея, её можно передать
 параметром `--prefix`:
 ```bash
 python scripts/generate.py \
    --checkpoint checkpoints/finetuned.pt \
    --mode major --key C --style user --function verse --time 4/4 \
    --prefix "Cmaj7 Am7 Dm7" \
    --output reports/samples/continuation.chord
 ```
 Модель достроит остаток периода в логике, выученной на собственном корпусе
 автора.
 ## 6. Подготовка датасета
 Подготовка датасета — самая трудозатратная часть проекта (10–15 часов
 чистого времени). Сокращать её за счёт автоматического извлечения аккордов
 из аудио нецелесообразно: при плотной фактуре и нетривиальных гармонических
 решениях современные алгоритмы chord detection дают слишком высокую долю
 ошибок, тогда как ручная транскрипция при наличии абсолютного слуха выполняется
 быстро и без потерь.
 ### 6.1 Собственный корпус
 Из 20–25 собственных произведений (DAW-проекты в REAPER) необходимо извлечь
 80–150 гармонических периодов и записать каждый в виде отдельного `.chord`-файла
 в директории `data/raw_user/`.
 Процедура транскрипции:
 1. Прослушать пьесу, определить границы замкнутых гармонических фраз. Признаки
   замкнутости — возврат к тонике или ясная полукаденция, отсутствие модуляции
   внутри фрагмента.
 2. Заполнить шапку `.chord`-файла: название, тональность, тактовый размер,
   подразделение доли, стилевой тег `user`, функциональная роль периода.
 3. Транскрибировать гармонию по позициям, аккуратно фиксируя инверсии и расширения.
 4. Запустить парсер для проверки корректности файла:
   ```bash
   python scripts/validate_chord_file.py data/raw_user/2024_001_song_chorus.chord
   ```
 5. Запустить экспорт в MIDI и прослушать результат в DAW параллельно с оригиналом
   для контроля точности транскрипции:
   ```bash
   python -m src.midi_export data/raw_user/2024_001_song_chorus.chord /tmp/check.mid
   ```
 Полная спецификация формата приведена в [docs/chord_format_spec.md](docs/chord_format_spec.md).
 Чек-лист транскрипции — в разделе 10 спецификации.
 ### 6.2 Публичный корпус
 Для предобучения используется McGill Billboard Project — открытый
 размеченный профессиональными аннотаторами корпус из примерно семи сотен
 пьес западной поп-музыки 1950–1990-х годов. Корпус необходимо скачать с
 официального сайта и распаковать в директорию `data/raw_external/mcgill_billboard/`.
 Конвертация в формат `.chord`:
 ```bash
 python -m src.external_converters.mcgill_to_chord \
    --input data/raw_external/mcgill_billboard/ \
    --output data/raw_external/mcgill_converted/
 ```
 Конвертер автоматически разрезает каждую пьесу на периоды по границам секций
 и сохраняет каждый период как отдельный `.chord`-файл со стилевым тегом `other`.
 ### 6.3 Отложенная выборка
 Из собственного корпуса необходимо отложить 10–15 периодов в директорию
 `data/holdout/` ещё до начала обучения. Эти периоды не должны попасть ни в
 тренировочную, ни в валидационную выборки и используются только для итоговой
 оценки качества модели. Откладывать следует репрезентативные для авторского
 стиля примеры, а не самые экспериментальные.
 ### 6.4 Токенизация
 После того как `.chord`-файлы готовы, выполняется пакетная токенизация:
 ```bash
 python scripts/prepare_data.py \
    --input-dir data/raw_user/ \
    --output-dir data/processed/user/ \
    --split-ratios 0.9 0.1
 python scripts/prepare_data.py \
    --input-dir data/raw_external/mcgill_converted/ \
    --output-dir data/processed/mcgill/ \
    --split-ratios 0.9 0.1
 ```
 Скрипт автоматически разделяет файлы на тренировочную и валидационную выборки,
 выводит статистику по длине последовательностей и распределениям метаданных.
 ## 7. Обучение моделей
 Обучение выполняется в две стадии.
 ### 7.1 Предобучение
 Обучение базовой модели на конвертированном корпусе McGill Billboard:
 ```bash
 python scripts/train.py \
    --data-dir data/processed/mcgill/ \
    --output checkpoints/pretrained.pt \
    --epochs 50 \
    --batch-size 32 \
    --lr 3e-4 \
    --warmup-steps 200 \
    --seed 42
 ```
 По окончании обучения в директории `checkpoints/` появятся: сам чекпоинт,
 лог обучения в формате CSV и график кривых train/val loss.
 ### 7.2 Дообучение на собственном корпусе
 ```bash
 python scripts/train.py \
    --init-from checkpoints/pretrained.pt \
    --data-dir data/processed/user/ \
    --output checkpoints/finetuned.pt \
    --epochs 15 \
    --batch-size 16 \
    --lr 1e-5 \
    --warmup-steps 20 \
    --seed 42
 ```
 Существенно более низкая скорость обучения (на два порядка меньше, чем на
 предобучении) и небольшое число эпох предотвращают катастрофическое забывание
 закономерностей, выученных на этапе предобучения.
 ## 8. Оценка результатов
 Скрипт оценки сравнивает базовую (только предобученную) и дообученную модели
 на отложенной выборке:
 ```bash
 python scripts/evaluate.py \
    --baseline checkpoints/pretrained.pt \
    --target checkpoints/finetuned.pt \
    --holdout data/processed/holdout/ \
    --output-dir reports/
 ```
 В директории `reports/` будут сформированы:
 - Таблица в формате JSON с численными метриками (perplexity обеих моделей).
 - Графики распределений типов аккордов, частот инверсий, интервалов движения
  корня, наиболее частых функциональных пар. Каждый график показывает баланс
  baseline-распределения и target-распределения.
 - Сгенерированные образцы для качественного сравнения (3 затравки × 3 семпла
  × 2 модели).
 Подробное описание метрик и методологии оценки — в разделе 6 файла
 [docs/architecture.md](docs/architecture.md).
 ## 9. Дополнительная документация
 | Документ                                               | Назначение                                                                                                                                             |
 | ------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------ |
 | [docs/chord_format_spec.md](docs/chord_format_spec.md) | Полная спецификация формата `.chord`, словарь токенов, правила парсинга. Авторитетный источник по формату.                                             |
 | [docs/requirements.md](docs/requirements.md)           | Функциональные и нефункциональные требования, критерии приёмки.                                                                                        |
 | [docs/architecture.md](docs/architecture.md)           | Архитектура системы, схемы потоков данных, описания модулей, обоснование ключевых проектных решений.                                                   |
 | [docs/glossary.md](docs/glossary.md)                   | Глоссарий музыкальных, машинно-обучательных и проектных терминов.                                                                                      |
 | [CLAUDE.md](CLAUDE.md)                                 | Постоянный контекст для Claude Code (на английском). Описывает правила разработки, чего нельзя делать без согласования и какие модули за что отвечают. |
 ## 10. Ограничения текущей версии
 Текущая версия проекта сознательно ограничена для соблюдения сроков курсовой
 работы. Перечисленные ниже возможности **не реализованы** и являются
 кандидатами для дальнейшего развития.
 - Генерация мелодии. Текущая модель работает только с гармонической
  последовательностью.
 - Расположение голосов внутри аккорда (voicing) выше баса. Бас передаётся,
  остальное оставлено на ручную работу композитора в DAW.
 - Ритмический паттерн внутри удержания аккорда (синкопы, проходящие фигуры,
  альбертиевы басы).
 - Аранжировка, тембр, динамика, артикуляция.
 - Графический пользовательский интерфейс. Взаимодействие осуществляется
  через командную строку.
 - Прямая интеграция с REAPER в режиме реального времени. Обмен с DAW
  происходит через файлы MIDI.
 - Обработка модуляций внутри одного периода. При наличии модуляции в
  исходном произведении периоды разрезаются по точке модуляции.
 - Дообучение на корпусе японской поп-музыки (J-Pop). Запланировано как
  отдельный эксперимент после защиты курсовой.
 Подробное обсуждение каждого пункта и направления развития содержатся в
 [docs/architecture.md](docs/architecture.md), раздел «Точки расширения».
@@ -0,0 +1,915 @@
 # Архитектура системы hamori
 **Версия документа:** 1.0
 **Дата:** 2026-05-19
 Документ описывает архитектуру проекта _hamori_ — генератора гармонических
 периодов: высокоуровневую структуру, потоки данных, состав модулей, ключевые
 проектные решения и их обоснование, а также точки расширения.
 ---
 ## Содержание
 1. [Высокоуровневая архитектура](#1-высокоуровневая-архитектура)
 2. [Потоки данных](#2-потоки-данных)
 3. [Состав модулей](#3-состав-модулей)
 4. [Модель машинного обучения](#4-модель-машинного-обучения)
 5. [Конвейер обучения](#5-конвейер-обучения)
 6. [Конвейер инференса и оценки](#6-конвейер-инференса-и-оценки)
 7. [Ключевые проектные решения](#7-ключевые-проектные-решения)
 8. [Точки расширения](#8-точки-расширения)
 ---
 ## 1. Высокоуровневая архитектура
 Система состоит из шести логических уровней.
 **Уровень человекочитаемых данных.** Текстовые `.chord`-файлы лид-шит-нотации,
 с которыми работает автор-композитор при ручной транскрипции. Каждый файл
 описывает один гармонический период.
 **Уровень парсинга и валидации.** Модули, преобразующие `.chord`-файлы в
 структурированные внутренние представления и проверяющие их корректность.
 **Уровень токенизации.** Модули, преобразующие структурированные представления
 в последовательности целочисленных идентификаторов и обратно. Здесь же
 выполняется нормализующая транспозиция в каноническую тональность.
 **Уровень обучения и инференса.** Реализация нейросетевой модели, циклы
 обучения и сэмплирования, работа с чекпоинтами.
 **Уровень оценки.** Расчёт метрик, построение распределений, формирование
 графических артефактов для отчёта.
 **Уровень внешних адаптеров.** Конвертеры публичных корпусов в формат `.chord`,
 экспорт периодов в MIDI.
 Схема информационных связей между уровнями:
 ```
                    автор-композитор
                          │
                          ▼
                  .chord-файлы (raw_user)
                          │
                          │
                          │           публичный корпус
                          │                 │
                          │                 ▼
                          │         внешний конвертер
                          │                 │
                          │                 ▼
                          │         .chord-файлы (raw_external)
                          │                 │
                          └────────┬────────┘
                                   │
                                   ▼
                          парсер + валидатор
                                   │
                                   ▼
                          транспозиция в C/Am
                                   │
                                   ▼
                              токенизатор
                                   │
                                   ▼
                          .pt-файлы (processed)
                                   │
                ┌──────────────────┼──────────────────┐
                ▼                  ▼                  ▼
            train выборка      val выборка       holdout выборка
                │                  │                  │
                └────────┬─────────┘                  │
                         ▼                            │
              трансформер: pre-train + fine-tune      │
                         │                            │
                         ▼                            │
                    чекпоинты ◄───────────────────────┘
                         │                            │
        ┌────────────────┼────────────────────────────┘
        ▼                ▼
    инференс         оценка
        │                │
        ▼                ▼
 .chord + MIDI    метрики + графики + образцы
        │                │
        ▼                ▼
   автор-композитор    отчёт
 ```
 ---
 ## 2. Потоки данных
 ### 2.1 Поток подготовки собственного корпуса
 ```
 DAW-проект (REAPER)
    │
    │  ручная транскрипция
    ▼
 .chord-файл в data/raw_user/
    │
    │  валидация формата
    │  (опционально: MIDI-санитарная проверка)
    ▼
 .chord-файл прошёл проверку
    │
    │  скрипт prepare_data.py
    │  ├── чтение
    │  ├── транспозиция в C major / A minor
    │  ├── токенизация
    │  └── разбиение train / val
    ▼
 .pt-файлы в data/processed/user/{train,val}/
 ```
 ### 2.2 Поток подготовки публичного корпуса
 ```
 McGill Billboard (Harte-аннотации)
    │
    │  скрипт mcgill_to_chord.py
    │  ├── парсинг Harte-нотации
    │  ├── разрезание на периоды по секциям
    │  ├── определение тональности
    │  └── конвертация в .chord
    ▼
 .chord-файлы в data/raw_external/mcgill_converted/
    │
    │  скрипт prepare_data.py
    ▼
 .pt-файлы в data/processed/mcgill/{train,val}/
 ```
 ### 2.3 Поток обучения
 ```
 data/processed/mcgill/      ◄── предобучение
    │
    ▼
 checkpoints/pretrained.pt
    │
    │  инициализация весов
    ▼
 data/processed/user/        ◄── дообучение
    │
    ▼
 checkpoints/finetuned.pt
 ```
 ### 2.4 Поток инференса
 ```
 пользовательские параметры (CLI)
    │
    │  построение prompt-токенов
    │  ▼
 prompt = <BOS> + метатокены + опциональный prefix
    │
    │  авторегрессионная генерация (top-p sampling)
    ▼
 последовательность токенов до <EOS>
    │
    │  детокенизация
    ▼
 ChordPeriod в канонической тональности C/Am
    │
    │  транспозиция в целевую тональность
    ▼
 ChordPeriod в требуемой тональности
    │
    │  сериализация + MIDI-экспорт
    ▼
 .chord и .mid файлы
 ```
 ### 2.5 Поток оценки
 ```
 data/processed/holdout/
    │
    ▼
 вычисление перплексии для base и target
    │
    ▼
 извлечение признаков (типы аккордов, инверсии, интервалы корня)
    │
    ▼
 построение гистограмм и таблиц
    │
    ▼
 reports/figures/, reports/metrics.json
 ```
 ---
 ## 3. Состав модулей
 ### 3.1 `src/chord_parser.py`
 **Назначение.** Разбор отдельных аккордовых символов в строго типизированное
 представление.
 **Публичный интерфейс.**
 - `parse_chord_symbol(symbol: str) -> ChordTokens` — парсит строку вида `Am7`,
  `Cmaj9`, `F/G`, `Bb7b9/D` в dataclass `ChordTokens(root, quality, extension, bass)`.
 - `ChordParseError` — исключение, поднимаемое при невалидном символе.
 **Ключевые соображения реализации.** Модуль не использует регулярные
 выражения для парсинга качеств: вместо этого выполняется последовательное
 распознавание из таблицы альтернативных написаний по принципу самого длинного
 совпадения. Это упрощает добавление новых качеств в будущем и снижает риск
 тонких ошибок с приоритетами совпадений.
 Бемольные написания корня и баса нормализуются к диезной форме на этапе парсинга.
 **Связи.** Используется модулем `tokenizer.py` для разбора аккордов внутри
 периода. Не имеет зависимостей внутри проекта, кроме стандартной библиотеки
 Python и опционально `music21` (как fallback для нетипичных написаний).
 ### 3.2 `src/tokenizer.py`
 **Назначение.** Преобразование `.chord`-файлов в последовательности
 целочисленных идентификаторов и обратно. Реализация словаря токенов.
 Реализация нормализующей транспозиции.
 **Публичный интерфейс.**
 - Константа `VOCAB: list[str]` — словарь токенов в порядке, описанном в
  спецификации формата (81 токен).
 - Константа `TOKEN_TO_ID: dict[str, int]` — обратное отображение.
 - Функция `parse_chord_file(path: Path) -> ChordPeriod` — парсинг
  `.chord`-файла в структурированное представление.
 - Функция `transpose_to_canonical(period: ChordPeriod) -> ChordPeriod` —
  транспозиция мажорных периодов в C major, минорных в A minor.
 - Функция `tokenize_period(period: ChordPeriod) -> list[int]` — последовательно
  выполняет транспозицию и преобразование в токены.
 - Функция `detokenize_to_period(token_ids: list[int]) -> ChordPeriod` —
  обратная операция, возвращает период в канонической тональности.
 - Функция `transpose_period(period, target_key) -> ChordPeriod` —
  транспозиция в произвольную целевую тональность (используется на этапе
  инференса для возврата результата в требуемую тональность).
 - Исключение `ChordFormatError` — для ошибок формата файла.
 **Ключевые соображения реализации.** Словарь токенов является константой
 модуля; его изменение приводит к несовместимости с ранее обученными моделями,
 поэтому любые изменения должны сопровождаться инкрементом версии спецификации
 формата и переобучением моделей.
 Транспозиция реализуется через расчёт интервала в полутонах между исходным и
 целевым тонами, после чего к каждому корневому тону и бассу применяется
 циклический сдвиг по 12-тоновой системе. Качество и расширения аккорда при
 транспозиции не меняются.
 **Связи.** Используется всеми остальными модулями для входа и выхода из
 токенизированного пространства. Зависит от `chord_parser.py`.
 ### 3.3 `src/midi_export.py`
 **Назначение.** Преобразование `.chord`-файлов в стандартные MIDI-файлы для
 прослушивания в DAW и для использования сгенерированных периодов в
 композиторской работе.
 **Публичный интерфейс.**
 - `chord_file_to_midi(chord_path, midi_path, tempo=90)` — основная функция.
 - `period_to_midi(period: ChordPeriod, midi_path, tempo=90)` — вариант,
  принимающий уже распарсенный период.
 **Ключевые соображения реализации.** MIDI-файл содержит два инструментальных
 трека: трек аккордов и трек баса. Аккорды раскладываются в средней октаве
 (C4–B5) тремя или четырьмя одновременными нотами, бас — в нижней октаве (C2–B2)
 одной нотой. Длительности соответствуют длительностям удержания аккордов в
 исходном `.chord`-файле.
 Voicing внутри аккорда выполняется минимально — простое расположение нот в
 тесном расположении от корня. Это не задача данного модуля и сознательно
 оставлено простым.
 **Связи.** Зависит от `tokenizer.py` (для парсинга `.chord`) и `pretty_midi`.
 ### 3.4 `src/dataset.py`
 **Назначение.** Реализация PyTorch-датасета над предварительно
 токенизированными `.pt`-файлами.
 **Публичный интерфейс.**
 - Класс `ChordDataset(torch.utils.data.Dataset)`.
  - Конструктор принимает путь к директории с `.pt`-файлами и максимальную
    длину последовательности.
  - `__getitem__` возвращает тензор токенов, обрезанный или дополненный
    паддингом до максимальной длины.
 - Функция `make_dataloader(dataset, batch_size, shuffle) -> DataLoader` —
  удобная фабрика.
 **Ключевые соображения реализации.** Все `.pt`-файлы загружаются в память при
 создании датасета. Это допустимо при текущем размере данных (тысячи периодов
 максимум) и существенно ускоряет обучение по сравнению с подгрузкой с диска.
 Паддинг выполняется специальным токеном `<PAD>` с индексом 2 в словаре.
 В функции потерь этот индекс игнорируется через параметр `ignore_index`.
 ### 3.5 `src/model.py`
 **Назначение.** Определение нейросетевой архитектуры.
 **Публичный интерфейс.**
 - Класс `ChordTransformer(nn.Module)` с параметрами конструктора:
  `vocab_size`, `d_model`, `n_layers`, `n_heads`, `d_ff`, `max_seq_len`,
  `dropout`.
 **Архитектурные детали.** Декодер-only трансформер с pre-normalization
 (нормализация перед остаточной связью, а не после). Эмбеддинги токенов и
 позиционные эмбеддинги — обучаемые. Веса входного эмбеддинга и финальной
 проекции на словарь связаны (tied weights), что сокращает число параметров
 и стабилизирует обучение на малых данных.
 Каждый блок трансформера состоит из:
 - LayerNorm
 - Causal multi-head self-attention с маскированием будущих позиций
 - Residual connection
 - LayerNorm
 - Feedforward с активацией GELU
 - Residual connection
 После последнего блока — финальная LayerNorm и линейная проекция на размер
 словаря.
 **Связи.** Используется в модулях обучения и инференса.
 ### 3.6 `src/train.py`
 **Назначение.** Логика обучения, общая для предобучения и дообучения.
 **Публичный интерфейс.**
 - Функция `train_model(config: TrainConfig) -> Path` — основная точка
  входа. Возвращает путь к лучшему чекпоинту.
 - Dataclass `TrainConfig` с полями для всех гиперпараметров.
 **Особенности.** Один общий цикл обучения параметризуется аргументом
 `init_from`. Если этот аргумент задан, веса модели инициализируются из
 указанного чекпоинта, иначе — случайно. Это позволяет использовать один и
 тот же код для предобучения и дообучения, различающихся только параметрами
 запуска (низкий learning rate, меньшее число эпох для дообучения).
 Логирование: после каждой эпохи в stdout выводится строка с номером эпохи,
 тренировочной потерей, валидационной потерей и валидационной перплексией.
 Параллельно строка добавляется в CSV-лог. Лучший по валидационной потере
 чекпоинт сохраняется отдельно.
 Ранняя остановка: если валидационная потеря не улучшается на протяжении N
 эпох (по умолчанию 5), обучение завершается досрочно.
 ### 3.7 `src/generate.py`
 **Назначение.** Сэмплирование из обученной модели.
 **Публичный интерфейс.**
 - Функция `generate_period(model, mode, time, subdivision, style, function,
 key, prefix=None, temperature=1.0, top_p=0.9, max_tokens=300, seed=None)
 -> ChordPeriod`.
 **Ключевые соображения реализации.** Авторегрессионная генерация выполняется
 по одному токену за раз. Для каждого шага:
 1. Прогон последовательности через модель, получение распределения над
   следующим токеном.
 2. Деление логитов на температуру.
 3. Применение nucleus sampling: оставляем минимальный по числу элементов
   набор кандидатов с накопленной вероятностью не менее top_p.
 4. Маскирование грамматически невалидных кандидатов (например, токена
   расширения сразу после токена удержания).
 5. Сэмплирование из оставшегося распределения.
 6. Останов при появлении `<EOS>` или при достижении лимита токенов.
 После завершения генерации последовательность детокенизируется, получившийся
 период транспонируется из канонической тональности в целевую и возвращается
 вызывающему.
 ### 3.8 `src/evaluate.py`
 **Назначение.** Расчёт метрик качества и построение распределений.
 **Публичный интерфейс.**
 - `compute_perplexity(model, dataloader) -> float`.
 - `extract_features(period: ChordPeriod) -> dict` — извлекает гармонические
  признаки периода: список типов качеств, доли инверсий, интервалы движения
  корня, биграммы корней.
 - `compare_distributions(baseline_features, target_features) -> dict` —
  агрегирует признаки и формирует структуры для построения графиков.
 - `plot_comparison(distributions, output_dir)` — рисует и сохраняет графики.
 ### 3.9 `src/external_converters/mcgill_to_chord.py`
 **Назначение.** Конвертация аннотаций McGill Billboard Project в формат
 `.chord`.
 **Публичный интерфейс.**
 - `convert_directory(input_dir, output_dir, log_path=None)` — конвертирует
  все пьесы из исходной директории.
 - `convert_song(song_dir, output_dir) -> list[Path]` — конвертирует одну
  пьесу, возвращает список путей к созданным файлам периодов.
 **Ключевые соображения реализации.** Harte-нотация McGill отличается от
 формата проекта по ряду признаков: использует другие имена качеств, явно
 указывает интервальный состав в скобках, имеет иную систему обозначения
 длительностей. Конвертер реализует таблицу соответствий между Harte и форматом
 проекта и приводит к ближайшему допустимому аккорду в случаях, когда точное
 соответствие отсутствует.
 Разрезание на периоды выполняется по разметке секций в исходных файлах
 (`verse`, `chorus`, `bridge` и т.д.). Периоды длиной менее 4 или более 16
 тактов пропускаются.
 ---
 ## 4. Модель машинного обучения
 ### 4.1 Выбор архитектуры
 Архитектура декодер-only трансформера выбрана по следующим причинам.
 **Соответствие задаче.** Гармоническая последовательность — это
 последовательность дискретных символов с сильными локальными
 зависимостями (соседние аккорды связаны функциональными отношениями) и
 менее сильными глобальными зависимостями (начало и конец периода связаны
 тонально). Self-attention отражает оба типа зависимостей естественным
 образом.
 **Совместимость со схемой предобучения + дообучения.** Архитектуры
 семейства трансформеров — стандартный выбор для задач с малой целевой
 выборкой и большим объёмом предобучающих данных.
 **Простота реализации с нуля.** При выбранном масштабе модели (несколько
 блоков, небольшая размерность) реализация умещается в нескольких сотнях
 строк кода и не требует тяжёлых зависимостей.
 Альтернатива в виде LSTM была рассмотрена и отвергнута на основании того,
 что:
 - При сопоставимом числе параметров трансформер обычно работает не хуже на
  задачах с дискретными последовательностями.
 - Параллелизация обучения трансформера эффективнее.
 - Стандартное предобучение языковых моделей через next-token prediction
  легче переносится на трансформер, чем на рекуррентные сети.
 ### 4.2 Параметры модели
 Размер модели сознательно выбран небольшим — порядка одного-трёх миллионов
 параметров. Это обусловлено объёмом обучающих данных: при тысячах примеров
 крупная модель неизбежно переобучится, а компактная сохранит способность
 к обобщению. Рекомендуемая конфигурация:
 | Параметр                     | Значение    |
 | ---------------------------- | ----------- |
 | Число слоёв                  | 3           |
 | Размерность модели (d_model) | 192         |
 | Число голов внимания         | 6           |
 | Размерность FFN              | 768         |
 | Длина контекста              | 512 токенов |
 | Размер словаря               | 81          |
 | Dropout                      | 0.1         |
 При необходимости конфигурация может быть пересмотрена в сторону уменьшения
 (если модель не сходится) или увеличения (если результаты явно недостаточны
 и есть запас времени на эксперимент).
 ### 4.3 Функция потерь и оптимизация
 Стандартная кросс-энтропия с игнорированием `<PAD>`-токена. Оптимизатор —
 AdamW. Расписание learning rate — косинусное снижение с линейным разогревом
 на 5% от общего числа шагов.
 **Предобучение.** Стартовый learning rate 3·10⁻⁴, 50 эпох (с возможностью
 ранней остановки).
 **Дообучение.** Стартовый learning rate 1·10⁻⁵, 15 эпох с ранней остановкой.
 Двухпорядковая разница в learning rate между предобучением и дообучением —
 ключевой приём для предотвращения катастрофического забывания: на этапе
 дообучения веса модели изменяются медленно, что сохраняет общие
 гармонические закономерности, выученные на крупном корпусе.
 ### 4.4 Генерация
 Используется nucleus sampling (top-p) с температурой 1.0 по умолчанию.
 Параметры регулируются на этапе инференса.
 Beam search отвергнут на основании опыта генеративных задач: он склонен
 порождать монотонные, многократно повторяющиеся последовательности, что
 особенно нежелательно в задаче создания творческих идей.
 ---
 ## 5. Конвейер обучения
 ### 5.1 Подготовка данных
 ```
 сырьё (.chord)
    │
    ▼
 парсинг и валидация
    │
    ▼
 транспозиция в каноническую тональность
    │
    ▼
 токенизация
    │
    ▼
 случайное разбиение на train/val (90/10)
    │
    ▼
 сохранение .pt-файлов
 ```
 Разбиение train/val выполняется на уровне периодов, а не на уровне исходных
 пьес. Для собственного корпуса это компромиссное решение: разбиение по
 пьесам было бы методологически чище, но при 20–25 пьесах привело бы к
 слишком высокой дисперсии валидационной потери. Holdout-выборка, в свою
 очередь, специально формируется на уровне пьес, что обеспечивает честность
 итоговой оценки.
 ### 5.2 Цикл предобучения
 ```
 инициализация модели случайными весами
    │
    ▼
 для каждой эпохи (1..50):
    │
    ├── проход по train: forward, loss, backward, optimizer step
    │   │
    │   ▼
    │   агрегация train_loss за эпоху
    │
    ├── проход по val (без градиентов): forward, loss
    │   │
    │   ▼
    │   агрегация val_loss и val_perplexity
    │
    ├── запись строки в CSV-лог
    │
    ├── если val_loss улучшилась — сохранение чекпоинта
    │
    └── если val_loss не улучшалась 5 эпох подряд — выход
 ```
 ### 5.3 Цикл дообучения
 Идентичен циклу предобучения по структуре, отличается:
 - Инициализация модели из чекпоинта предобучения.
 - Меньший learning rate.
 - Меньшее максимальное число эпох (15).
 - Опционально: меньший patience для ранней остановки.
 ### 5.4 Контроль качества обучения
 В процессе обучения отслеживаются следующие признаки нормального хода:
 - Train loss монотонно снижается.
 - Val loss снижается синхронно с train loss до точки, после которой
  начинается расхождение (типичное переобучение). Лучший чекпоинт
  сохраняется до точки расхождения.
 - Val perplexity на сошедшейся модели находится в диапазоне 2–6 для нашей
  задачи. Существенно меньшие значения указывают на ошибку (например,
  пересечение train и val выборок). Существенно большие — на плохую
  сходимость или несоответствие модели данным.
 Если эти признаки нарушаются, необходимо в первую очередь проверить
 корректность подготовленных данных: токенизацию случайных файлов руками,
 отсутствие пересечений между выборками, баланс распределения метаданных.
 ---
 ## 6. Конвейер инференса и оценки
 ### 6.1 Инференс
 Подробное описание процесса генерации приведено в разделе 3.7. Ключевые
 особенности:
 - Все параметры запроса передаются через CLI-аргументы.
 - Случайное зерно фиксируется, что обеспечивает воспроизводимость отдельных
  семплов.
 - Невалидные грамматические последовательности маскируются на каждом шаге
  сэмплирования.
 - Результат сразу сохраняется в двух форматах: `.chord` (для возможного
  редактирования или подачи модели как затравки в дальнейшем) и MIDI (для
  прослушивания).
 ### 6.2 Количественная оценка
 **Перплексия** на отложенной выборке рассчитывается как экспонента средней
 кросс-энтропии. Сравнение перплексий базовой и целевой моделей на одной
 выборке показывает, насколько сильно дообучение сместило распределение
 вероятностей модели в сторону распределения собственного корпуса автора.
 Снижение перплексии на отложенной выборке после дообучения является
 основным численным индикатором успеха проекта. Ожидаемая величина снижения —
 от 10% до 50% относительно базовой модели.
 ### 6.3 Качественная оценка через распределения
 Качественная сторона эффекта дообучения оценивается через сравнение
 гистограмм по следующим признакам.
 **Типы качеств аккордов.** Распределение по 18 базовым качествам. На малых
 данных авторский стиль часто проявляется в смещении этого распределения:
 например, повышенная частота больших септаккордов и нонаккордов или,
 напротив, преобладание простых трезвучий.
 **Доля инверсий.** Процент аккордов с явно указанным басом, отличным от
 корня. Этот признак особенно характерен для индивидуального стиля и для
 конкретных жанров (J-Pop, например, активно использует слэш-аккорды).
 **Интервалы движения корня.** Распределение интервалов между корнями
 соседних аккордов в полутонах. Например, доминирование интервала –5
 полутонов (квинтовый ход вниз) характерно для барочной и классической
 гармонии; преобладание интервалов –2, +2 — для более поп-ориентированных
 стилей.
 **Биграммы корней.** Частоты пар «текущий корень → следующий корень». Эти
 биграммы захватывают функциональные предпочтения автора: например,
 характерные переходы IV → V или V → vi.
 Графики строятся как наложение двух гистограмм (baseline-распределение и
 target-распределение) на одной координатной плоскости. Визуальный сдвиг
 target относительно baseline — прямое подтверждение того, что дообучение
 сработало.
 ### 6.4 Качественная оценка через прослушивание
 Для отчёта формируются три специально подобранные («cherry-picked») пары
 сгенерированных образцов: для каждой из выбранных гармонических затравок —
 по одному примеру от базовой и от дообученной модели с одним и тем же
 случайным зерном. Эти примеры конвертируются в MIDI и прилагаются к отчёту
 (в виде ссылок и описаний).
 Слепой listening-тест с привлечением сторонних слушателей не проводится из
 соображений ограничения по времени.
 ---
 ## 7. Ключевые проектные решения
 В этом разделе фиксируются проектные решения, принятые на этапе
 проектирования, и обоснования к ним. Решения изложены в виде записей в
 стиле Architectural Decision Records.
 ### 7.1 ПР-01. Юнит обработки — гармонический период, а не пьеса целиком
 **Контекст.** Изначально рассматривался вариант обучения модели на целых
 пьесах. При объёме собственного корпуса 20–25 пьес и средней длине каждой
 40–100 тактов это давало бы датасет из 20–25 длинных последовательностей —
 крайне малый объём для генеративной модели.
 **Решение.** Единицей обработки и генерации является гармонический период —
 замкнутая фраза 4–16 тактов. Из одной пьесы извлекается 4–8 периодов.
 **Последствия.**
 - Эффективный объём датасета увеличивается в 4–8 раз.
 - Проблема обработки модуляций между секциями исчезает: внутри периода
  модуляций нет.
 - Длина обучающей последовательности становится меньшей и более однородной
  (50–250 токенов вместо 500–1500), что упрощает обучение.
 - Юнит хорошо соответствует реальному композиторскому воркфлоу: помощник
  выдаёт идеи периодами, а не целыми пьесами.
 ### 7.2 ПР-02. Нормализующая транспозиция в C major / A minor
 **Контекст.** Если каждый период хранится в исходной тональности,
 функционально эквивалентные последовательности в разных тональностях
 становятся для модели разными последовательностями. Это резко увеличивает
 эффективное разнообразие данных в 12 раз и затрудняет обобщение.
 **Решение.** Перед токенизацией все периоды транспонируются: мажорные — в
 C major, минорные — в A minor. Тональность в словарь модели не входит.
 На инференсе результат транспонируется обратно в требуемую тональность
 постпроцессингом.
 **Последствия.**
 - Эффективное увеличение датасета в 12 раз.
 - Сокращение словаря на 24 токена.
 - Цвет конкретной тональности (характерное звучание Fis-dur против C-dur)
  теряется. Это исполнительское свойство, не функционально-гармоническое,
  и для задачи генерации прогрессий не релевантно.
 - Внутренние модуляции и тонизации записываются обычными функциональными
  аккордами и обрабатываются единообразно.
 ### 7.3 ПР-03. Факторизованная токенизация аккордов
 **Контекст.** Каждый аккорд можно представить либо одним атомарным токеном
 (`Cmaj7`, `Am7`, `F/G` как отдельные элементы словаря), либо разложенным
 на несколько токенов (корень, качество, расширение, бас).
 **Решение.** Каждый аккорд представляется ровно четырьмя токенами:
 `ROOT_x`, `QUAL_x`, `EXT_x`, `BASS_x`. Словарь содержит 81 токен против
 нескольких сотен в случае атомарной токенизации.
 **Последствия.**
 - Существенно меньший словарь, легче обучаемый на малых данных.
 - Модель видит общность между, например, всеми минорными септаккордами,
  а не учит их как 12 несвязанных слов.
 - Каждый аккорд занимает в последовательности четыре позиции вместо одной,
  что увеличивает длину последовательности и нагрузку на attention. При
  выбранной длине контекста 512 это не создаёт проблем.
 - Появляется необходимость грамматического маскирования при генерации:
  не любой токен может следовать за любым.
 ### 7.4 ПР-04. Двухстадийное обучение
 **Контекст.** Прямое обучение модели на собственном корпусе автора
 невозможно из-за крайне малого объёма данных.
 **Решение.** Двухстадийная схема: предобучение на крупном публичном
 корпусе (McGill Billboard Project) и последующее дообучение на собственном
 корпусе с пониженным learning rate.
 **Последствия.**
 - Базовые гармонические закономерности (функциональная гармония,
  стандартные каденции) выучиваются на этапе предобучения.
 - Индивидуальный стиль автора подмешивается на этапе дообучения без
  необходимости заново выучивать общие законы.
 - Появляется естественная схема сравнения «до и после» дообучения для
  отчёта.
 - Существует риск катастрофического забывания на этапе дообучения, что
  митигируется низким learning rate и небольшим числом эпох.
 ### 7.5 ПР-05. Минималистичная реализация без тяжёлых фреймворков
 **Контекст.** Существует ряд готовых фреймворков для обучения трансформеров
 (PyTorch Lightning, HuggingFace Trainer, fastai), которые скрывают
 boilerplate кода тренировочного цикла.
 **Решение.** Использовать чистый PyTorch с явным циклом обучения.
 **Последствия.**
 - Код полностью прозрачен и поддаётся пошаговой отладке, что важно для
  учебного проекта.
 - Снижается риск проблем с совместимостью версий и сложным поведением
  фреймворков «из коробки».
 - Объём кода тренировочного цикла остаётся небольшим (порядка двух сотен
  строк).
 - Теряется доступ к некоторым удобствам фреймворков (готовые callbacks,
  логирование в TensorBoard и т.п.). Для масштабов проекта это
  несущественно.
 ### 7.6 ПР-06. Ручная транскрипция собственного корпуса
 **Контекст.** Альтернатива — автоматическое извлечение аккордов из аудио
 с помощью библиотек вроде Chordino, librosa, или нейросетевых детекторов.
 **Решение.** Транскрипция выполняется автором вручную, на основе
 DAW-проектов с использованием абсолютного слуха.
 **Последствия.**
 - Качество транскрипции существенно выше автоматического: тонкие гармонические
  решения, нестандартные расширения, точные инверсии — всё это передаётся
  без потерь.
 - Существенные временные затраты (10–15 часов). Это самая трудозатратная
  часть проекта.
 - Невозможность масштабирования на большой корпус. Для текущей задачи
  (80–150 периодов) это приемлемо.
 ### 7.7 ПР-07. Английский язык в коде, русский — в документации и отчёте
 **Контекст.** Учебное заведение требует оформления отчёта на русском
 языке. С другой стороны, стандарты разработки и совместимость с
 инструментами вроде Claude Code предполагают английский язык в коде.
 **Решение.** Чёткое разделение по слоям:
 - Код, идентификаторы, комментарии, сообщения логов, коммиты — английский.
 - Документация (README, спецификация, требования, архитектура,
  глоссарий) — русский.
 - Итоговый отчёт — русский с оформлением по ГОСТу.
 **Последствия.** Однозначность для всех участников разработки.
 Двуязычность не создаёт неудобств, поскольку слои разделены.
 ---
 ## 8. Точки расширения
 Перечисленные ниже направления развития проекта оставлены явно за рамками
 текущей версии. Их реализация может рассматриваться в будущем.
 ### 8.1 Дообучение на корпусе японской поп-музыки
 **Описание.** После защиты курсовой работы планируется собрать второй
 авторский корпус — гармонические периоды из японских поп-песен (Royal Road
 прогрессии, mu-аккорды, характерные секундовые надстройки, on-аккорды) — и
 выполнить дополнительное дообучение модели на этом материале с тегом
 `STYLE_jpop`.
 **Что уже подготовлено для этого расширения.** В словаре токенов
 зарезервирован токен `STYLE_jpop`. Формат `.chord` поддерживает любые
 характерные для J-Pop приёмы (расширенные аккорды, инверсии, слэш-аккорды).
 В шапке файла предусмотрено поле `style`.
 **Что нужно дополнительно сделать.** Собрать и транскрибировать корпус
 J-Pop периодов. Выполнить дообучение существующей модели на смешанном
 корпусе (свой + J-Pop) или последовательное дообучение (свой → J-Pop).
 Сравнить генерации с разными значениями стилевого conditioning.
 ### 8.2 Генерация мелодии
 **Описание.** Расширение модели на генерацию монофонической мелодической
 линии, привязанной к гармонической последовательности.
 **Что нужно сделать.** Расширить формат `.chord` дополнительным полем для
 мелодической линии (или ввести отдельный формат). Расширить словарь
 токенов мелодическими токенами (вероятно, через раздельное представление
 ступени, длительности, артикуляции). Архитектура модели может остаться
 прежней.
 **Сложность.** Существенная: задача мелодизации сложнее, чем гармонизации,
 требует больше данных, имеет другие критерии оценки.
 ### 8.3 Voicing внутри аккорда
 **Описание.** Автоматическое расположение нот внутри аккорда выше баса
 с учётом голосоведения (минимизация суммарного движения голосов, запрет
 параллельных квинт и октав, разрешение тяготеющих ступеней).
 **Что нужно сделать.** Эта задача может быть решена rule-based методом без
 машинного обучения. Простой алгоритм минимизации суммарного межаккордового
 смещения голосов с дополнительными правилами укладывается в несколько
 сотен строк кода.
 **Сложность.** Низкая, выполнима за день-два после защиты курсовой.
 ### 8.4 Графический пользовательский интерфейс
 **Описание.** Веб- или десктоп-приложение, позволяющее задавать параметры
 генерации интерактивно, прослушивать результат прямо в браузере, сохранять
 понравившиеся варианты.
 **Что нужно сделать.** Любой современный веб-фреймворк (FastAPI на backend,
 любой минимальный frontend) поверх существующего CLI. Воспроизведение
 MIDI в браузере через `Tone.js` или подобные библиотеки.
 **Сложность.** Невысокая по нынешним стандартам, но требует существенного
 времени.
 ### 8.5 Интеграция с REAPER
 **Описание.** Плагин или внешний инструмент, который при работе в REAPER
 позволяет запрашивать генерацию следующего фрагмента прямо из проекта,
 учитывая текущий гармонический контекст.
 **Сложность.** REAPER предоставляет ReaScript для расширений на Lua и
 Python. Реализация возможна, но требует погружения в API REAPER.
 ### 8.6 Обработка модуляций внутри периода
 **Описание.** Текущая версия требует разрезания периодов по точке
 модуляции. Альтернатива — введение inline-токена `MODULATE_<note>_<mode>`,
 переключающего тонический центр в середине последовательности.
 **Что нужно сделать.** Расширить словарь токенов на 24 модуляционных
 токена. Дополнить парсер и токенизатор поддержкой inline-меток модуляции.
 Накопить достаточное число обучающих примеров с модуляциями (что
 проблематично при малом исходном корпусе).
 **Сложность.** Средняя, основное ограничение — данные.
 ### 8.7 Поддержка большего числа альтераций в аккорде
 **Описание.** Текущая версия поддерживает один слот расширения на аккорд.
 Альтерированные доминанты с несколькими альтерациями одновременно
 (`C7♯9♭13`) сворачиваются до одной альтерации.
 **Что нужно сделать.** Перейти от единственного `EXT_x` токена к множеству
 одновременных токенов расширений. Это требует пересмотра грамматики
 последовательности и формата представления одного аккорда (теперь его
 описание становится не четырёхтокеновым, а переменной длины).
 **Сложность.** Средняя, в основном проектная — требуется аккуратное
 обновление формата с инкрементом версии.
 ---
 ## 9. История изменений
 - **1.0** (2026-05-19) — первоначальная редакция документа.
@@ -1,6 +1,4 @@
-# Спецификация формата данных
+# Спецификация формата данных hamori
 ## Проект: генератор аккордовых последовательностей
 **Версия:** 2.0
 **Дата:** 2026-05-16
@@ -0,0 +1,567 @@
 # Глоссарий hamori
 **Версия документа:** 1.0
 **Дата:** 2026-05-19
 Документ содержит определения терминов, используемых в проекте _hamori_,
 разделённые на три тематические группы: музыкальные термины, термины
 машинного обучения и проектные термины. Внутри каждой группы записи
 упорядочены по алфавиту.
 ---
 ## 1. Музыкальные термины
 ### Аккорд
 Гармоническая единица — одновременное звучание трёх и более нот. В контексте
 проекта аккорд представляется в текстовой нотации (например, `Cmaj7`, `Am`,
 `F/G`) и характеризуется четырьмя признаками: корневой тон, качество,
 расширение, бас.
 ### Аккордовая последовательность (прогрессия)
 Последовательность аккордов, сопровождающая мелодию или существующая
 самостоятельно. Является основным объектом генерации в данном проекте.
 ### Альтерация
 Хроматическое изменение ступени аккорда — повышение или понижение её на
 полутон. В рамках формата проекта альтерации записываются как расширения
 вида `b9`, `#9`, `#11`, `b13`.
 ### Анакруза (затакт)
 Несколько нот или один аккорд, предшествующих первой сильной доле такта.
 В формате проекта затакт записывается через специальное значение `NC`
 (no chord) на пустых позициях первого такта.
 ### Бас
 Самая нижняя нота аккорда. Может совпадать с корневым тоном (основной
 позиции) или отличаться от него (в инверсиях и слэш-аккордах). В формате
 проекта бас выделен в отдельный слот токенизации.
 ### Гармоническая функция
 Роль аккорда в тональной системе: тоника (T), субдоминанта (S), доминанта
 (D) и их побочные ступени. Хотя в формате проекта аккорды записываются
 абсолютными именами, а не функциональными цифрами, нормализующая
 транспозиция в C major / A minor делает функциональные роли явно читаемыми:
 после транспозиции `C` всегда тоника мажорной пьесы, `A` — тоника
 минорной.
 ### Гармонический период
 Замкнутая гармоническая фраза длиной обычно 4, 8 или 16 тактов, имеющая
 ясное начало и завершение (возврат к тонике или полукаденция). Является
 **единицей обработки и генерации** в проекте.
 ### Голосоведение
 Способ соединения нот в соседних аккордах: плавное движение голосов,
 запрет параллельных квинт и октав, разрешение тяготеющих ступеней.
 В текущей версии проекта голосоведение **не моделируется** —
 сгенерированные аккорды передаются как абстрактные гармонические единицы,
 а конкретное расположение голосов оставлено на ручную работу композитора
 в DAW.
 ### Доминанта
 Аккорд пятой ступени лада. Содержит вводный тон и создаёт сильное
 тяготение к тонике. Обычная запись в виде доминантового септаккорда — `G7`
 в C major, `E7` в A minor (с альтерированной третьей ступенью минора).
 ### Инверсия (обращение)
 Аккорд, в котором в качестве баса выступает не корневой тон, а одна из
 других нот аккорда (терция, квинта, септима). В формате проекта инверсии
 записываются через слэш-нотацию: `C/E` (C мажор с басом E, первое
 обращение), `C/G` (с басом G, второе обращение).
 ### Каденция
 Гармонический оборот, завершающий музыкальную фразу. Полная каденция —
 переход доминанты в тонику (V → I). Полукаденция — остановка на
 доминанте, создающая ожидание продолжения. Полукаденция — характерный
 признак середины периода в классических формах.
 ### Качество (тип) аккорда
 Интервальная структура аккорда независимо от его корневого тона. Базовые
 качества, поддерживаемые форматом проекта: мажорное и минорное трезвучия,
 уменьшённое и увеличенное трезвучия, sus2 и sus4, мажорный, минорный,
 доминантовый, полууменьшённый и уменьшённый септаккорды, минорно-мажорный
 септаккорд, доминанта на sus4, увеличенный септаккорд, мажорный и минорный
 аккорды с секстой, аккорды с добавленной ноной. Всего 18 качеств.
 ### Корневой тон
 Основная нота, на которой строится аккорд. Не обязательно совпадает с
 басом (см. _Инверсия_). В формате проекта корневой тон выделен в отдельный
 слот токенизации.
 ### Лад
 Структурно-функциональная организация звуков вокруг центра (тоники).
 В проекте моделируются два лада: натуральный мажор и натуральный минор
 (включая гармонический и мелодический миноры как разновидности — отдельно
 не различаются). Лад фиксируется отдельным метатокеном `MODE_major` или
 `MODE_minor`.
 ### Лид-шит-нотация
 Способ записи музыки, при котором над тактами выписывается мелодия, а
 гармония указывается аккордовыми символами без точной нотации каждой ноты
 аккорда. Формат `.chord` в проекте — упрощённый аналог лид-шита,
 содержащий только гармоническую часть.
 ### Минор гармонический
 Разновидность минорного лада с повышенной седьмой ступенью, создающая
 выраженную доминанту. Внутренние альтерации (V становится мажорным,
 появляется уменьшённый VII7) трактуются в формате проекта как обычные
 аккорды.
 ### Модуляция
 Смена тональности в произведении. В рамках текущей версии формата
 поддерживается только модуляция **между периодами** (каждый период
 хранится в своей тональности). Модуляция **внутри периода** обрабатывается
 через разрезание периода на два — до и после момента модуляции.
 ### Нонаккорд
 Аккорд, расширенный девятой ступенью от корня. В формате проекта —
 `Cmaj9` (мажорный септаккорд + натуральная нона), `C9` (доминантовый
 септаккорд + нона), `Cm9` (минорный септаккорд + нона), `Cmaj7#11` (с
 повышенной квартой), и другие. Записывается как качество + расширение в
 слоте `EXT`.
 ### Подразделение доли (subdivision)
 Параметр формата, определяющий, на сколько временных позиций делится один
 такт. При `subdivision: 4` в размере 4/4 каждый такт делится на четыре
 четверти (четыре позиции). При `subdivision: 8` — на восемь восьмых
 (восемь позиций). Выбирается в зависимости от того, как часто меняются
 аккорды в конкретной пьесе.
 ### Полиаккорд
 Одновременное звучание двух функционально различных аккордов в разных
 регистрах (например, мажорное трезвучие D-F♯-A над мажорным трезвучием
 C-E-G). В текущей версии формата полиаккорды **не поддерживаются**.
 Близкие по звучанию структуры записываются через слэш-нотацию (`C/D`,
 `F/G`) или ближайший один аккорд с расширениями.
 ### Расширение аккорда
 Дополнительный интервал, надстраивающийся над септаккордом: нона (9),
 ундецима (11), терцдецима (13), с возможными альтерациями (`b9`, `#9`,
 `#11`, `b13`). В формате проекта расширение записывается одним токеном
 в отдельном слоте `EXT`. Поддерживается ровно один слот расширения на
 аккорд.
 ### Royal Road progression
 Характерная гармоническая прогрессия японской популярной музыки:
 IV — V — iii — vi (например, в C major: `F → G → Em → Am`). Прогрессия
 ассоциируется с мелодичной, ностальгической эмоциональной окраской и
 встречается в значительной части анисонга и J-Pop в широком смысле.
 ### Sus-аккорды
 Аккорды с задержанной квартой (sus4) или секундой (sus2), заменяющей
 терцию. Лишены терцового тона, не определены как мажорные или минорные.
 В формате проекта — `Csus4`, `Csus2`, а также `C7sus4` (доминантовый
 септаккорд на sus4, часто встречается перед разрешением в обычный
 доминантовый аккорд).
 ### Слэш-аккорд (slash chord, on-аккорд)
 Аккорд с явно указанным басом, отличным от любой ноты собственного состава.
 Записывается как `<аккорд>/<бас>`. Характерный приём японской поп-музыки:
 `F/G`, `C/D`, `Em7/A` — обеспечивают плавное движение баса и характерное
 напряжение.
 ### Тактовый размер
 Соотношение числа долей в такте и их длительности. В формате проекта
 поддерживаются `4/4`, `3/4`, `6/8`, `2/4`, `12/8`. Большинство периодов
 ожидается в размере `4/4`.
 ### Тональность
 Конкретное положение лада на звукоряде, определяемое тоникой и видом
 лада (`F# major`, `B♭ minor`, `C major`). В формате `.chord` указывается
 в шапке файла полем `key`. Перед обучением модели все периоды
 нормализуются в C major / A minor; в словарь модели тональность не
 входит.
 ### Тонизация (отклонение)
 Кратковременный заход в другую тональность через её собственную доминанту
 без полноценной модуляции. Например, в C major последовательность
 `Dm — A7 — Dm` содержит тонизацию D minor. В формате проекта тонизации
 записываются обычными аккордовыми символами и не требуют специальной
 разметки.
 ### Тоника
 Главный устойчивый тон лада, опора. В формате после нормализующей
 транспозиции тоника — `C` для мажорных периодов и `A` для минорных.
 ### Функциональная роль периода
 Роль данного периода в форме исходной пьесы: куплет, припев, пре-припев,
 бридж, вступление, проигрыш, концовка. В формате `.chord` указывается в
 шапке поле `function`. Передаётся в модель как метатокен `FUNC_x` и может
 использоваться как conditioning на инференсе.
 ---
 ## 2. Термины машинного обучения
 ### Авторегрессионная модель
 Модель, генерирующая последовательность по одному элементу за раз, причём
 каждый следующий элемент условен на всех предыдущих. Декодер-only
 трансформер, используемый в проекте, — пример авторегрессионной модели.
 ### Beam search
 Алгоритм поиска наиболее вероятной последовательности при генерации:
 вместо сэмплирования удерживается несколько лучших кандидатов на каждом
 шаге, выбирается итоговая последовательность с максимальной совместной
 вероятностью. В проекте **не используется**, поскольку для генеративных
 творческих задач даёт монотонные результаты.
 ### Catastrophic forgetting (катастрофическое забывание)
 Феномен, при котором при дообучении модели на новом наборе данных она
 теряет знания, выученные на исходном корпусе. В проекте митигируется
 существенным снижением скорости обучения на этапе дообучения и
 ограничением числа эпох.
 ### Causal mask (причинная маска)
 Маска внимания в декодер-only трансформере, не позволяющая каждой позиции
 «видеть» будущие позиции в последовательности. Обеспечивает корректное
 обучение задачи предсказания следующего токена.
 ### Cross-entropy loss
 Функция потерь, измеряющая расхождение между предсказанным моделью
 распределением вероятностей следующего токена и истинным значением. Стандартная
 функция потерь для задач классификации и генерации последовательностей.
 ### Декодер-only трансформер
 Архитектура нейросети, состоящая из стека одинаковых блоков, каждый из
 которых содержит self-attention с причинной маской и feedforward-слой.
 В отличие от encoder-decoder архитектуры, у декодер-only нет отдельного
 блока для кодирования входа — всё обрабатывается одной башней. GPT-семейство
 языковых моделей — наиболее известный пример. Используется в данном проекте.
 ### Дообучение (fine-tuning)
 Адаптация модели, ранее обученной на большом корпусе, к конкретной задаче
 или домену через дополнительное обучение на меньшем целевом наборе данных.
 В проекте после предобучения на McGill Billboard модель дообучается на
 собственном корпусе автора.
 ### Embedding (эмбеддинг)
 Числовое векторное представление дискретного элемента (токена). В трансформере
 эмбеддинги токенов и позиций суммируются и подаются в первый блок. Размерность
 эмбеддинга равна размерности модели (`d_model`).
 ### Epoch (эпоха)
 Один полный проход обучающего цикла по всем элементам тренировочной выборки.
 В проекте предобучение длится до 50 эпох с ранней остановкой,
 дообучение — до 15.
 ### Holdout (отложенная выборка)
 Часть данных, отделённая до начала обучения и не используемая ни в
 тренировочной, ни в валидационной выборках. Применяется только для итоговой
 оценки качества модели. В проекте формируется на уровне исходных пьес
 (не на уровне периодов), что обеспечивает методологическую честность
 сравнения.
 ### LayerNorm (нормализация слоя)
 Нормализующее преобразование, стабилизирующее распределение активаций
 внутри сети. В архитектуре проекта применяется в pre-norm варианте
 (перед residual connection, не после).
 ### Learning rate
 Скорость обучения, коэффициент шага оптимизатора. В проекте используется
 значение `3e-4` на этапе предобучения и `1e-5` на этапе дообучения —
 двухпорядковая разница принципиальна для предотвращения катастрофического
 забывания.
 ### Logits
 Выход модели перед применением softmax — нормализованные числовые
 оценки, отражающие предпочтения модели по каждому возможному следующему
 токену. Используются в функции потерь и в процессе сэмплирования.
 ### Multi-head attention
 Механизм self-attention, в котором операция внимания выполняется
 параллельно несколькими «головами», каждая со своими обучаемыми
 проекциями. Результаты голов конкатенируются. В проекте используется
 6 голов.
 ### Nucleus sampling (top-p sampling)
 Стратегия сэмплирования, при которой на каждом шаге сохраняется
 минимальный по числу элементов набор кандидатов с накопленной
 вероятностью не менее заданного порога `p`, после чего из этого набора
 происходит сэмплирование. Применяется в проекте с `p = 0.9` по умолчанию.
 ### Padding
 Дополнение коротких последовательностей до фиксированной длины специальным
 токеном. В проекте — токен `<PAD>` (индекс 2 в словаре), игнорируемый в
 функции потерь через параметр `ignore_index`.
 ### Perplexity (перплексия)
 Метрика качества языковой модели, рассчитываемая как экспонента средней
 кросс-энтропии. Содержательно — «эффективное число равновероятных
 альтернатив», между которыми модель колеблется на каждом шаге. Чем
 меньше, тем лучше. В проекте используется как основная численная метрика
 сравнения базовой и дообученной моделей.
 ### Positional embedding (позиционный эмбеддинг)
 Векторное представление позиции токена в последовательности, добавляемое
 к токеновому эмбеддингу. Позволяет модели учитывать порядок элементов
 (сам по себе self-attention перестановочно-инвариантен). В проекте
 используются обучаемые позиционные эмбеддинги.
 ### Pre-norm vs post-norm
 Два варианта размещения LayerNorm в блоке трансформера: до residual
 connection (pre-norm) или после (post-norm). Pre-norm обычно более
 стабилен при обучении. В проекте используется pre-norm.
 ### Предобучение (pre-training)
 Этап обучения модели на большом и общем по содержанию корпусе данных,
 после которого следует адаптация модели к более узкой задаче или домену.
 В проекте предобучение выполняется на McGill Billboard Project.
 ### Ранняя остановка (early stopping)
 Приём, прекращающий обучение, когда метрика на валидационной выборке
 перестаёт улучшаться на протяжении заданного числа эпох. Предотвращает
 переобучение. В проекте используется с параметром терпения 5 эпох.
 ### Round-trip эквивалентность
 Свойство пары взаимно обратных преобразований: при последовательном
 применении прямого и обратного преобразования исходное представление
 восстанавливается с точностью до канонической нормализации. В проекте
 требуется для пары «парсинг + токенизация / детокенизация + сериализация»
 и проверяется автоматизированными тестами.
 ### Self-attention
 Механизм внимания, в котором последовательность взаимодействует сама с
 собой: для каждой позиции рассчитываются взвешенные средние значений с
 других позиций, веса определяются скалярными произведениями обучаемых
 проекций. Центральный элемент архитектуры трансформера.
 ### Softmax с температурой
 Модификация softmax, в которой логиты предварительно делятся на
 параметр температуры. При температуре больше 1 распределение становится
 более равномерным (генерация разнообразнее), при меньше 1 — более
 концентрированным (генерация консервативнее). По умолчанию в проекте — 1.0.
 ### Tied weights (связанные веса)
 Приём, при котором веса входного эмбеддинга и финальной проекции на
 словарь совпадают (одна и та же матрица). Снижает число параметров и
 часто улучшает обобщающую способность. Применяется в проекте.
 ### Токен
 Элементарная единица обработки модели — целочисленный идентификатор
 из конечного словаря. В данном проекте словарь содержит 81 токен,
 обозначающих служебные значения, метаданные периода и компоненты
 аккордов.
 ### Токенизация
 Преобразование исходного представления данных в последовательность
 токенов. В проекте — преобразование `.chord`-файла в последовательность
 целочисленных идентификаторов.
 ### Тренировочная и валидационная выборки (train / val)
 Разбиение обучающих данных: тренировочная выборка используется для
 обновления весов модели, валидационная — для контроля переобучения и
 выбора лучшего чекпоинта. В проекте используется разбиение 90/10. Кроме
 того, отдельно выделяется отложенная выборка (см. _Holdout_).
 ### Warmup (разогрев)
 Начальная фаза обучения, в течение которой learning rate линейно растёт
 от нуля до целевого значения. Стабилизирует обучение трансформеров на
 первых шагах. В проекте — 5% от общего числа шагов.
 ### Чекпоинт
 Сохранённое на диск состояние модели (веса, конфигурация, опционально
 состояние оптимизатора), пригодное для возобновления обучения или для
 инференса. В проекте сохраняются чекпоинты `pretrained.pt` и
 `finetuned.pt`.
 ---
 ## 3. Проектные термины
 ### `.chord`-файл
 Текстовый файл в формате, описанном в `docs/chord_format_spec.md`. Содержит
 шапку с метаданными периода и тело — последовательность тактов с
 аккордовыми символами. Один файл = один гармонический период.
 ### hamori
 Название проекта. Транслитерация японского слова ハモリ, означающего
 вокальную гармонизацию — практику добавления второго или третьего голоса
 к основной мелодической линии в певческом ансамбле. Само слово образовано
 от глагола ハモる (_hamoru_) — «гармонизировать», в свою очередь
 заимствованного из английского _harmony_. Название отражает основную
 функциональную идею проекта: модель не пишет музыку с нуля, а предлагает
 гармонические идеи в дополнение к замыслу композитора.
 ### BAR (токен)
 Служебный токен, отмечающий конец такта в токенизированной
 последовательности. Помогает модели усваивать ритмическую сетку периода.
 ### `<BOS>`, `<EOS>`, `<PAD>`, `<UNK>`
 Служебные токены словаря: начало последовательности, конец последовательности,
 паддинг и неизвестный токен соответственно.
 ### `ChordTokens`
 Dataclass, представляющий разобранный аккорд: четыре строковых поля —
 `root`, `quality`, `extension`, `bass`. Является промежуточным
 представлением между текстовым аккордовым символом и токенами модели.
 ### `ChordPeriod`
 Dataclass, представляющий полностью разобранный гармонический период:
 метаданные шапки и список тактов, каждый из которых — список позиций.
 Является промежуточным представлением между `.chord`-файлом и токенами.
 ### `ChordFormatError` / `ChordParseError`
 Типы исключений, поднимаемые при некорректном формате файла или
 некорректном аккордовом символе соответственно. Содержат информативные
 сообщения с указанием места ошибки.
 ### EXT (расширение)
 Один из четырёх слотов токенизации аккорда. Кодирует расширение аккорда:
 `EXT_none` (расширения нет), `EXT_9`, `EXT_b9`, `EXT_#9`, `EXT_11`,
 `EXT_#11`, `EXT_13`, `EXT_b13`. Восемь возможных значений.
 ### FUNC (функциональная роль)
 Метатокен периода, указывающий на функциональную роль в исходной пьесе.
 Возможные значения: `FUNC_verse`, `FUNC_chorus`, `FUNC_prechorus`,
 `FUNC_bridge`, `FUNC_intro`, `FUNC_outro`, `FUNC_interlude`, `FUNC_other`,
 `FUNC_unspecified`.
 ### HOLD (токен)
 Служебный токен, означающий, что текущая позиция продолжает звучание
 предыдущего аккорда. Использование `HOLD` существенно сокращает длину
 последовательности по сравнению с повторением всех четырёх токенов
 аккорда.
 ### MODE (лад)
 Метатокен периода, указывающий на лад. Только два значения: `MODE_major`
 для мажора и `MODE_minor` для минора. После нормализующей транспозиции
 этот токен — единственный носитель информации о ладе в обучающих данных.
 ### NC (No Chord)
 Специальное значение позиции, обозначающее паузу в гармонии — отсутствие
 аккорда. Применяется, например, в анакрузах. Имеет соответствующий
 служебный токен `NC` в словаре.
 ### Нормализующая транспозиция
 Преобразование, переводящее любой период в каноническую тональность:
 мажорные периоды — в C major, минорные — в A minor. Применяется перед
 токенизацией. На инференсе обратное преобразование возвращает результат
 в требуемую пользователем тональность.
 ### Период (см. также _Гармонический период_ в музыкальной части)
 Единица обработки и генерации в проекте. Замкнутая гармоническая фраза
 4–16 тактов, представленная одним `.chord`-файлом.
 ### QUAL (качество)
 Один из четырёх слотов токенизации аккорда. Кодирует качество аккорда:
 `QUAL_maj`, `QUAL_m`, `QUAL_dim`, `QUAL_aug`, `QUAL_sus2`, `QUAL_sus4`,
 `QUAL_maj7`, `QUAL_m7`, `QUAL_7`, `QUAL_m7b5`, `QUAL_dim7`, `QUAL_mM7`,
 `QUAL_7sus4`, `QUAL_aug7`, `QUAL_6`, `QUAL_m6`, `QUAL_add9`,
 `QUAL_m_add9`. Восемнадцать возможных значений.
 ### ROOT (корень)
 Один из четырёх слотов токенизации аккорда. Кодирует корневой тон:
 `ROOT_C`, `ROOT_C#`, ..., `ROOT_B`. Двенадцать возможных значений.
 ### BASS (бас)
 Один из четырёх слотов токенизации аккорда. Кодирует басовый тон:
 `BASS_root` (бас совпадает с корнем) или конкретная нота
 (`BASS_C`, `BASS_C#`, ..., `BASS_B`). Тринадцать возможных значений.
 ### Стилевой тег (STYLE)
 Метатокен периода, указывающий на стилистическую принадлежность.
 Возможные значения: `STYLE_user` (собственный корпус автора), `STYLE_jpop`
 (японская поп-музыка), `STYLE_classical` (классическая музыка),
 `STYLE_jazz` (джазовая музыка), `STYLE_other` (прочее, включая публичные
 корпуса вроде McGill Billboard). Может использоваться как conditioning
 на инференсе.
 ### SUB (подразделение доли)
 Метатокен периода, указывающий, как делится такт на временные позиции.
 Возможные значения: `SUB_4` (по четвертям) и `SUB_8` (по восьмым).
 ### TIME (тактовый размер)
 Метатокен периода, указывающий тактовый размер. Возможные значения:
 `TIME_4/4`, `TIME_3/4`, `TIME_6/8`, `TIME_2/4`, `TIME_12/8`.
 ### Шапка файла
 Часть `.chord`-файла, содержащая метаданные периода. Строки шапки
 начинаются с символа `#` и имеют вид `# key: value`. Шапка обязательно
 содержит поля `title`, `key`, `time`, `subdivision`, `style` и
 опционально — `function`.
 ---
 ## 4. История изменений
 - **1.0** (2026-05-19) — первоначальная редакция документа.
@@ -0,0 +1,467 @@
 # Требования к проекту hamori
 **Версия документа:** 1.0
 **Дата:** 2026-05-19
 Документ описывает функциональные и нефункциональные требования к проекту
 _hamori_ — генератору гармонических периодов в авторском композиторском
 стиле. Описываются ограничения, критерии приёмки и явно выведенные за рамки
 возможности.
 ---
 ## 1. Контекст и цели проекта
 ### 1.1 Постановка задачи
 Разработать генеративную нейросетевую модель, способную создавать
 гармонические последовательности заданной длины и стилистики, обученную в
 том числе на корпусе собственных произведений автора, с целью использования
 получившейся модели как творческого инструмента в композиторской работе.
 ### 1.2 Заинтересованные стороны
 | Сторона                               | Интерес                                                                                                               |
 | ------------------------------------- | --------------------------------------------------------------------------------------------------------------------- |
 | Автор-разработчик (студент)           | Закрытие курсовой дисциплины, получение работающего инструмента для собственной композиторской практики               |
 | Преподаватель курса                   | Демонстрация владения полным циклом ML-проекта: постановка задачи, подготовка данных, обучение, оценка, интерпретация |
 | Потенциальные читатели исходного кода | Понимание принятых архитектурных решений и возможность повторного использования компонентов                           |
 ### 1.3 Учебные цели
 Демонстрация компетенций в следующих областях машинного обучения:
 - Проектирование задачи генерации последовательностей в условиях ограниченного
  объёма обучающих данных.
 - Выбор и реализация архитектуры авторегрессионной модели для дискретных
  последовательностей.
 - Подготовка и токенизация специализированного датасета.
 - Применение схемы предобучение / дообучение.
 - Количественная и качественная оценка генеративной модели.
 - Анализ распределений и интерпретация результатов.
 ### 1.4 Прикладные цели
 Получение программного инструмента, обладающего следующими функциональными
 характеристиками:
 - Принимает на вход параметры желаемой гармонической последовательности.
 - Принимает опциональную гармоническую затравку из нескольких аккордов.
 - Генерирует последовательность аккордов, согласованную с заданными параметрами
  и стилистически приближенную к авторскому корпусу.
 - Сохраняет результат в формате, пригодном для непосредственного использования
  в цифровой звуковой рабочей станции.
 ---
 ## 2. Ограничения
 ### 2.1 Временные ограничения
 Жёсткий срок реализации: менее одного календарного месяца с момента начала
 работ. Бюджет ручного труда автора: около 50 часов.
 Распределение времени:
 - Подготовка инфраструктуры данных: ~12 часов.
 - Ручная транскрипция собственного корпуса: ~10–15 часов.
 - Реализация модели и обучение: ~12 часов.
 - Оценка и подготовка примеров: ~6 часов.
 - Написание отчёта и оформление: ~10 часов.
 ### 2.2 Ресурсные ограничения
 Аппаратные ресурсы: персональный ноутбук автора. Использование облачных
 GPU-ресурсов (Google Colab) допустимо, но не должно быть критически
 необходимым — модель проектируется так, чтобы обучение было выполнимо на CPU.
 Программные ресурсы: открытое программное обеспечение, бесплатные публичные
 датасеты.
 ### 2.3 Ограничения по данным
 Объём собственного корпуса автора ограничен числом существующих
 композиторских работ и временем, доступным на ручную транскрипцию.
 Реалистичный ориентир: 80–150 гармонических периодов из 20–25 пьес.
 Это значение на два-три порядка меньше типичного объёма данных, на которых
 обучаются современные музыкальные генеративные модели. Из этого ограничения
 вытекает принципиальное архитектурное решение: модель должна использовать
 схему «предобучение на публичном корпусе плюс дообучение на собственном
 корпусе», обучение с нуля исключительно на собственных данных нецелесообразно.
 ### 2.4 Языковые требования
 Согласно требованиям учебного заведения:
 - Итоговый отчёт оформляется на русском языке по стандартам ГОСТ для
  студенческих работ.
 - Документация для пользователя (README, спецификация формата, описания
  архитектуры) ведётся на русском языке.
 - Технические артефакты кода (идентификаторы, комментарии, сообщения логов,
  сообщения коммитов) ведутся на английском языке для совместимости с
  общепринятыми стандартами разработки и удобства совместной работы с
  инструментами вроде Claude Code.
 ---
 ## 3. Функциональные требования
 ### 3.1 Подсистема работы с форматом данных
 **ФТ-1.** Система должна поддерживать чтение `.chord`-файлов в формате,
 описанном в `docs/chord_format_spec.md` версии 2.0, включая:
 - Парсинг шапки с метаданными.
 - Парсинг тела файла, состоящего из последовательности тактов.
 - Распознавание аккордовых символов по правилам §4 спецификации.
 - Поддержку всех восемнадцати базовых качеств аккордов с альтернативными
  написаниями.
 - Поддержку расширений аккордов (одиночный слот).
 - Поддержку слэш-нотации для инверсий.
 - Распознавание специальных значений (точка для удержания, `NC` для паузы,
  `?` для неизвестного аккорда).
 **ФТ-2.** Система должна выполнять валидацию `.chord`-файлов:
 - Проверять корректность шапки (все обязательные поля присутствуют, значения
  входят в допустимые множества).
 - Проверять, что число позиций в каждом такте соответствует тактовому
  размеру и подразделению доли.
 - Поднимать информативные ошибки с указанием имени файла, номера такта и
  позиции при обнаружении нарушений.
 **ФТ-3.** Система должна выполнять нормализующую транспозицию:
 все мажорные периоды приводятся к тональности C major, минорные — к A minor.
 **ФТ-4.** Система должна выполнять токенизацию `.chord`-файлов в
 последовательности целочисленных идентификаторов согласно словарю,
 описанному в §5 спецификации формата. Словарь содержит 81 токен.
 **ФТ-5.** Система должна поддерживать обратную детокенизацию: преобразование
 последовательности целочисленных идентификаторов обратно в `.chord`-файл,
 с последующей опциональной транспозицией в произвольную тональность.
 **ФТ-6.** Система должна обеспечивать round-trip эквивалентность: для
 любого корректного `.chord`-файла операция `parse → tokenize → detokenize →
 serialize` должна давать `.chord`-файл, эквивалентный исходному по
 гармоническому содержанию.
 ### 3.2 Подсистема экспорта в MIDI
 **ФТ-7.** Система должна обеспечивать экспорт `.chord`-файлов в стандартный
 формат MIDI с двумя треками: трек аккордов и трек баса. Темп задаётся
 параметром, по умолчанию 90 ударов в минуту.
 **ФТ-8.** Длительности нот в MIDI должны соответствовать длительностям
 удержания аккордов в исходном `.chord`-файле.
 ### 3.3 Подсистема конвертации внешних корпусов
 **ФТ-9.** Система должна предоставлять конвертер McGill Billboard Project →
 формат `.chord`, выполняющий:
 - Чтение Harte-нотации.
 - Разрезание исходных пьес на гармонические периоды по границам секций.
 - Сохранение каждого периода как отдельного `.chord`-файла.
 - Простановку стилевого тега и функциональной роли в шапке.
 **ФТ-10.** Конвертер должен быть устойчив к некорректным или неполным
 аннотациям в исходном корпусе: периоды, которые не могут быть однозначно
 сконвертированы, пропускаются с записью в лог, выполнение скрипта при этом
 не прерывается.
 ### 3.4 Подсистема обучения
 **ФТ-11.** Система должна реализовывать архитектуру авторегрессионного
 трансформера со следующими параметрами:
 - Количество слоёв: настраиваемое, 2–4 по умолчанию.
 - Размерность модели: настраиваемая, 128–256 по умолчанию.
 - Число голов внимания: настраиваемое, 4–8 по умолчанию.
 - Контекстное окно: 512 токенов.
 - Связанные веса входного и выходного эмбеддингов.
 **ФТ-12.** Система должна предоставлять единый скрипт обучения, параметризуемый
 аргументами командной строки, поддерживающий:
 - Обучение модели с нуля (предобучение).
 - Дообучение существующей модели (fine-tuning) — через параметр инициализации
  весов из указанного чекпоинта.
 - Настройку всех ключевых гиперпараметров через аргументы.
 - Установку случайного зерна для воспроизводимости.
 - Автоматический выбор вычислительного устройства (CPU/GPU) с возможностью
  принудительного задания.
 **ФТ-13.** В процессе обучения система должна:
 - Логировать значения функции потерь на тренировочной и валидационной
  выборках после каждой эпохи.
 - Логировать перплексию на валидационной выборке.
 - Сохранять лучший по валидационной потере чекпоинт.
 - Поддерживать раннюю остановку по валидационной потере с настраиваемым
  параметром терпения.
 - Сохранять полный лог обучения в формате CSV.
 ### 3.5 Подсистема инференса
 **ФТ-14.** Система должна предоставлять CLI-инструмент генерации со
 следующими настраиваемыми параметрами:
 - Путь к чекпоинту модели.
 - Лад (мажор / минор).
 - Тональность (любой из 12 классов высоты).
 - Тактовый размер.
 - Подразделение доли.
 - Стилевой тег.
 - Функциональная роль.
 - Опциональная гармоническая затравка (последовательность аккордовых символов).
 - Температура сэмплирования.
 - Параметр top-p (nucleus sampling).
 - Максимальное число токенов.
 - Случайное зерно.
 - Пути для сохранения `.chord`- и MIDI-файлов.
 **ФТ-15.** Инференс должен использовать nucleus sampling с настраиваемой
 температурой. Beam search не используется.
 **ФТ-16.** Система должна предотвращать генерацию грамматически невалидных
 последовательностей токенов (например, токена расширения сразу после токена
 удержания) через маскирование невалидных кандидатов на каждом шаге.
 ### 3.6 Подсистема оценки
 **ФТ-17.** Система должна предоставлять скрипт оценки, принимающий на вход
 два чекпоинта (базовый и целевой) и отложенную выборку, и формирующий:
 - Численные метрики перплексии для обеих моделей.
 - Графики распределений по ключевым гармоническим признакам.
 - Сгенерированные образцы для качественного сравнения.
 **ФТ-18.** Графики распределений должны включать:
 - Распределение типов качеств аккордов.
 - Долю аккордов с расширениями.
 - Долю аккордов с инверсиями.
 - Распределение интервалов движения корня.
 - Распределение наиболее частых пар «корень-корень» (биграммы).
 Каждый график должен показывать baseline-распределение и target-распределение
 на одной координатной плоскости с легендой.
 ---
 ## 4. Нефункциональные требования
 ### 4.1 Производительность
 **НФТ-1.** Парсинг одного `.chord`-файла должен выполняться менее чем за
 100 миллисекунд на стандартном персональном компьютере.
 **НФТ-2.** Один проход обучения по тренировочной выборке (одна эпоха) на
 полном McGill корпусе должен укладываться в 10 минут на CPU современного
 ноутбука.
 **НФТ-3.** Генерация одного периода должна занимать менее 10 секунд на CPU.
 ### 4.2 Корректность
 **НФТ-4.** Парсер аккордовых символов должен корректно обрабатывать все
 примеры, перечисленные в §4.6 спецификации формата.
 **НФТ-5.** Round-trip эквивалентность (см. ФТ-6) должна подтверждаться
 автоматизированными тестами для всех тестовых фикстур.
 **НФТ-6.** Транспозиция должна быть точной: после транспозиции мажорного
 периода в C major все аккорды должны находиться в правильных функциональных
 отношениях с новой тоникой.
 ### 4.3 Воспроизводимость
 **НФТ-7.** Все скрипты обучения, инференса и оценки должны принимать параметр
 случайного зерна и устанавливать его одновременно для PyTorch, NumPy и
 стандартного модуля random.
 **НФТ-8.** При фиксированном случайном зерне и идентичных входных данных
 запуски обучения должны давать численно воспроизводимые результаты.
 **НФТ-9.** Все эксперименты, упомянутые в итоговом отчёте, должны быть
 воспроизводимы посредством запуска документированных команд.
 ### 4.4 Надёжность работы с данными
 **НФТ-10.** Невалидные или непарсимые аккордовые символы должны вызывать
 явные ошибки с информативным сообщением. Тихая подмена неизвестных символов
 на «ближайшие» категорически запрещена: это приводит к молчаливому
 повреждению обучающего корпуса.
 **НФТ-11.** Файлы из отложенной выборки не должны использоваться на этапах
 тренировки или валидации. Любой скрипт подготовки данных, при обнаружении
 файла в `data/holdout/`, должен направлять его в отдельную holdout-выборку.
 ### 4.5 Сопровождаемость
 **НФТ-12.** Все публичные функции в модулях `src/` должны иметь аннотации
 типов и краткие docstrings.
 **НФТ-13.** Логика парсинга, токенизации и MIDI-экспорта должна покрываться
 модульными тестами с использованием pytest.
 **НФТ-14.** Спецификация формата `.chord` является контрактом между уровнем
 человекочитаемых данных и уровнем обучения модели. Любые изменения формата
 должны сопровождаться обновлением `docs/chord_format_spec.md` и инкрементом
 номера версии спецификации.
 ### 4.6 Удобство использования
 **НФТ-15.** Каждый CLI-скрипт должен поддерживать флаг `--help` с
 информативным описанием параметров.
 **НФТ-16.** Сообщения об ошибках должны содержать достаточно информации для
 самостоятельного устранения проблемы пользователем: имя файла, номер строки,
 характер нарушения, ожидаемое значение.
 ---
 ## 5. Критерии приёмки
 Проект считается завершённым при выполнении всех нижеперечисленных условий.
 ### 5.1 Учебные критерии
 | ID   | Критерий                                                                                                    |
 | ---- | ----------------------------------------------------------------------------------------------------------- |
 | УК-1 | Реализован полный цикл подготовки данных, обучения, инференса и оценки.                                     |
 | УК-2 | Имеется как минимум одна обученная модель, прошедшая стадии предобучения и дообучения.                      |
 | УК-3 | Подготовлен итоговый отчёт, оформленный по стандартам ГОСТ для учебных работ.                               |
 | УК-4 | Отчёт содержит количественное сравнение базовой и дообученной моделей.                                      |
 | УК-5 | Отчёт содержит качественные примеры сгенерированных периодов.                                               |
 | УК-6 | Все эксперименты, упомянутые в отчёте, воспроизводимы по командам, приведённым в README или в самом отчёте. |
 ### 5.2 Технические критерии
 | ID   | Критерий                                                                                                        |
 | ---- | --------------------------------------------------------------------------------------------------------------- |
 | ТК-1 | Все автоматизированные тесты проходят.                                                                          |
 | ТК-2 | Round-trip эквивалентность парсера-токенизатора подтверждена на всех тестовых фикстурах.                        |
 | ТК-3 | Транспозиция протестирована для мажорных и минорных периодов с разными исходными тональностями.                 |
 | ТК-4 | Модель обучается до сходимости (валидационная потеря выходит на плато или снижается монотонно).                 |
 | ТК-5 | Перплексия дообученной модели на отложенной выборке ниже перплексии базовой модели на той же выборке.           |
 | ТК-6 | На графиках распределений виден заметный сдвиг от baseline в сторону характеристик собственного корпуса автора. |
 ### 5.3 Прикладные критерии
 | ID   | Критерий                                                                                                                             |
 | ---- | ------------------------------------------------------------------------------------------------------------------------------------ |
 | ПК-1 | Автор может сгенерировать гармоническую последовательность по произвольным входным параметрам и воспроизвести её в DAW.              |
 | ПК-2 | Сгенерированные последовательности отличаются от случайного шума: соблюдается тональная стабильность, аккорды функционально связаны. |
 | ПК-3 | На качественном уровне в нескольких из сгенерированных примеров автор слышит элементы собственного стиля.                            |
 ---
 ## 6. Намеренно выведенное за рамки
 Перечисленные ниже возможности **не входят** в требования к текущей версии
 проекта. Их реализация может рассматриваться как направления дальнейшего
 развития после защиты курсовой работы.
 | Возможность                                        | Причина выведения                                                                        |
 | -------------------------------------------------- | ---------------------------------------------------------------------------------------- |
 | Генерация мелодической линии                       | Кратно увеличивает сложность задачи; не помещается в срок                                |
 | Расположение голосов в аккорде (voicing) выше баса | Требует существенно большего датасета; ручная реализация в DAW проще                     |
 | Ритмический паттерн внутри удержания аккорда       | Требует моделирования времени с большим разрешением; не критично для задачи              |
 | Дообучение на корпусе японской поп-музыки          | Запланировано как отдельный последующий эксперимент                                      |
 | Графический интерфейс                              | Не добавляет ценности с точки зрения учебных целей; занимает время                       |
 | Прямая интеграция с REAPER                         | Обмен через MIDI-файлы достаточен и проще в реализации                                   |
 | Сравнение нескольких архитектур модели             | Не помещается в срок; выбрана одна архитектура с обоснованием                            |
 | Слепой listening-тест с привлечением слушателей    | Не помещается в срок; используются качественные примеры                                  |
 | Обработка модуляций внутри одного периода          | Решено разрезанием периодов по точке модуляции                                           |
 | Поддержка микротональных аккордов                  | Не встречается в целевом материале; округление до темперированного эквивалента           |
 | Поддержка полиаккордов                             | Редкое явление в целевом материале; запись через слэш-нотацию или ближайший single chord |
 ---
 ## 7. Сценарии использования
 ### 7.1 Сценарий У-1. Транскрипция собственной пьесы
 **Действующее лицо:** автор-композитор.
 **Предусловия:** в DAW-проекте имеется готовая пьеса с гармонической
 структурой, доступной анализу. Установлена и настроена среда разработки.
 **Основной поток:**
 1. Автор прослушивает пьесу и определяет границы периодов.
 2. Для каждого периода создаёт `.chord`-файл и заполняет шапку.
 3. Транскрибирует гармонию по позициям, фиксируя инверсии и расширения.
 4. Запускает валидатор формата для проверки корректности.
 5. Экспортирует периоды в MIDI и прослушивает в DAW параллельно с оригиналом.
 6. Корректирует транскрипцию в случае расхождений.
 **Постусловия:** в `data/raw_user/` появились новые `.chord`-файлы,
 прошедшие валидацию.
 ### 7.2 Сценарий У-2. Полный цикл обучения
 **Действующее лицо:** автор-композитор.
 **Предусловия:** подготовлен собственный корпус и сконвертирован публичный
 корпус.
 **Основной поток:**
 1. Запуск скрипта подготовки данных для публичного корпуса.
 2. Запуск скрипта подготовки данных для собственного корпуса.
 3. Запуск скрипта предобучения, ожидание сходимости.
 4. Запуск скрипта дообучения с инициализацией из чекпоинта предобучения.
 5. Запуск скрипта оценки для сравнения базовой и дообученной моделей.
 6. Анализ полученных графиков и метрик.
 **Постусловия:** в `checkpoints/` сохранены обученные модели, в `reports/`
 сформированы графики и численные метрики.
 ### 7.3 Сценарий У-3. Генерация гармонической идеи
 **Действующее лицо:** автор-композитор в процессе работы над новой пьесой.
 **Предусловия:** имеется обученная модель.
 **Основной поток:**
 1. Автор определяет желаемые параметры будущего периода: тональность,
   функциональную роль, общий характер.
 2. Запускает скрипт генерации с этими параметрами.
 3. Получает `.chord`-файл и MIDI-файл результата.
 4. Открывает MIDI-файл в DAW и прослушивает.
 5. В случае удовлетворительного результата — переносит гармоническую
   последовательность в свой композиторский проект.
 6. В противном случае — повторяет генерацию с другим случайным зерном или
   другими параметрами сэмплирования.
 **Постусловия:** автор получает гармоническую идею в требуемом стилистическом
 ключе.
 ### 7.4 Сценарий У-4. Продолжение начатой идеи
 **Действующее лицо:** автор-композитор, у которого уже есть начало
 гармонической последовательности.
 **Предусловия:** имеется обученная модель и сформулированная гармоническая
 затравка из нескольких аккордов.
 **Основной поток:**
 1. Автор формулирует затравку в виде строки аккордовых символов.
 2. Запускает скрипт генерации с параметром `--prefix`.
 3. Модель достраивает остаток периода с учётом затравки.
 4. Получает MIDI и прослушивает.
 **Постусловия:** автор получает варианты продолжения для своей гармонической
 идеи.
 ---
 ## 8. История изменений
 - **1.0** (2026-05-19) — первоначальная редакция документа.