docs: add README, architecture, glossary, requirements; update CLAUDE.md

Add four Russian-language project documents: - README.md: user-facing guide (install, quick start, data prep, training, evaluation, limitations) - docs/architecture.md v1.0: system architecture, data flow diagrams, module interfaces, 7 architectural decision records, extension points - docs/glossary.md v1.0: musical, ML, and project-specific term definitions - docs/requirements.md v1.0: functional/non-functional requirements, acceptance criteria, four use-case scenarios Update CLAUDE.md with project name etymology (hamori / ハモリ) and rename repo root reference from chord-gen to hamori. Refine chord_format_spec.md. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-19 11:00:21 +03:00
parent 9929209bcf
commit 75fa07bf6c
6 changed files with 2312 additions and 5 deletions
@@ -4,11 +4,20 @@ This file gives Claude Code persistent context for the project. Read it before a

 ## Project overview

-**Goal.** Train a small autoregressive transformer to generate harmonic periods (4–16 bar chord progressions) in the author's compositional style. Coursework deliverable for an ML class at RTU MIREA; also intended as a working creative tool.
+**Name.** _hamori_ (Japanese ハモリ, "harmonization" in the sense of vocal
+harmony — adding a second voice to a melodic line). The name reflects the
+project's core idea: the model proposes harmonic ideas to complement a
+composer's existing intent, rather than writing music from scratch.
+
+**Goal.** Train a small autoregressive transformer to generate harmonic
+periods (4–16 bar chord progressions) in the author's compositional style.
+Coursework deliverable for an ML class at RTU MIREA; also intended as a
+working creative tool.

 **Unit of generation.** A single closed harmonic phrase (a "period"), not a full song.

 **Pipeline.**
+
 1. Hand-transcribe own compositions from REAPER DAW projects into `.chord` text files.
 2. Parse `.chord` → factorized token sequences.
 3. Pre-train on a public corpus (McGill Billboard or similar).
@@ -34,7 +43,7 @@ Avoid heavy abstractions. This is coursework, not a production system. Prefer si
 ## Repository layout

 ```
-chord-gen/
+hamori/
 ├── CLAUDE.md                          ← this file
 ├── README.md
 ├── requirements.txt
@@ -88,6 +97,7 @@ The authoritative specification is in `docs/chord_format_spec.md`. **Always read
 ## Model

 A small autoregressive transformer:
+
 - Layers: 2–4
 - d_model: 128–256
 - Heads: 4–8
@@ -111,6 +121,7 @@ Pre-training uses the full public corpus. Fine-tuning uses the own corpus with a
 ## Evaluation

 For the report:
+
 1. **Perplexity** on the holdout set, comparing pre-trained baseline vs fine-tuned.
 2. **Distribution shift plots** — histograms over chord qualities, extension presence, inversion frequency, root motion intervals — showing how fine-tuning moves the distribution toward the author's corpus.
 3. **Qualitative cherry-picked generations** — 3 examples with the same seed/prefix, generated by baseline vs fine-tuned, rendered to MIDI.
@@ -0,0 +1,349 @@
+# hamori
+
+Авторегрессионная нейросетевая модель для генерации гармонических периодов
+(замкнутых гармонических фраз 4–16 тактов) в авторском композиторском стиле.
+
+Название проекта — _hamori_ (яп. ハモリ) — относится к понятию вокальной
+гармонизации, добавлению второго голоса в существующую мелодическую линию.
+Отсылка к этому понятию закрепляет основную идею проекта: модель не пишет
+музыку с нуля, а предлагает гармонические идеи в дополнение к замыслу
+композитора.
+
+Проект разработан как курсовая работа по дисциплине «Машинное обучение» в
+рамках обучения в РТУ МИРЭА и одновременно как практический инструмент для
+композиторской работы.
+
+## Содержание
+
+- [hamori](#hamori)
+  - [Содержание](#содержание)
+  - [1. Краткое описание](#1-краткое-описание)
+  - [2. Контекст и цели](#2-контекст-и-цели)
+  - [3. Установка](#3-установка)
+  - [4. Структура репозитория](#4-структура-репозитория)
+  - [5. Быстрый старт](#5-быстрый-старт)
+  - [6. Подготовка датасета](#6-подготовка-датасета)
+    - [6.1 Собственный корпус](#61-собственный-корпус)
+    - [6.2 Публичный корпус](#62-публичный-корпус)
+    - [6.3 Отложенная выборка](#63-отложенная-выборка)
+    - [6.4 Токенизация](#64-токенизация)
+  - [7. Обучение моделей](#7-обучение-моделей)
+    - [7.1 Предобучение](#71-предобучение)
+    - [7.2 Дообучение на собственном корпусе](#72-дообучение-на-собственном-корпусе)
+  - [8. Оценка результатов](#8-оценка-результатов)
+  - [9. Дополнительная документация](#9-дополнительная-документация)
+  - [10. Ограничения текущей версии](#10-ограничения-текущей-версии)
+
+---
+
+## 1. Краткое описание
+
+Система принимает на вход параметры желаемого периода (тональность, тактовый
+размер, стилевой тег, функциональная роль) и опционально первые несколько
+аккордов. На выходе формируется гармоническая последовательность, представленная
+как `.chord`-файл лид-шит-нотации и MIDI-файл для воспроизведения и работы
+в цифровой звуковой рабочей станции.
+
+Модель обучается в две стадии:
+
+- **Pre-training** на публичном корпусе аккордовых последовательностей
+  (McGill Billboard Project) для усвоения общих гармонических закономерностей
+  поп-музыки.
+- **Fine-tuning** на корпусе собственных произведений автора для адаптации
+  модели к индивидуальному композиторскому почерку.
+
+Юнит обработки и генерации — **гармонический период**, а не пьеса целиком.
+Это решение обеспечивает достаточный размер обучающей выборки при ограниченном
+числе исходных произведений и снимает проблему обработки модуляций между
+крупными разделами формы.
+
+## 2. Контекст и цели
+
+Проект преследует две сопряжённые цели.
+
+**Учебная цель.** Закрытие дисциплины «Машинное обучение» с выполнением
+курсового проекта, включающего полный цикл работы с генеративной моделью:
+постановка задачи, проектирование формата данных, подготовка обучающего
+корпуса, обучение, оценка и интерпретация результатов.
+
+**Прикладная цель.** Получение работающего инструмента-помощника, который
+автор сможет использовать в дальнейшей композиторской деятельности как
+источник гармонических идей в собственном стилистическом ключе.
+
+Срок реализации: менее одного месяца. Бюджет ручного труда: около 50 часов.
+
+Подробное описание целей и формальных требований приведено в
+[docs/requirements.md](docs/requirements.md).
+
+## 3. Установка
+
+Требования: Python 3.11 или новее, доступ к командной строке, git.
+
+```bash
+git clone <repository-url> hamori
+cd hamori
+python -m venv venv
+source venv/bin/activate     # Linux, macOS
+venv\Scripts\activate        # Windows
+pip install -r requirements.txt
+```
+
+Для воспроизведения сгенерированных MIDI-файлов требуется цифровая звуковая
+рабочая станция (рекомендуется REAPER) с подключённым программным
+синтезатором, либо стандартный плеер MIDI операционной системы.
+
+Обучение модели возможно как на CPU, так и на GPU. Модель компактна
+(порядка одного-трёх миллионов параметров), и pre-training на полном
+корпусе укладывается в несколько часов на CPU современного ноутбука,
+fine-tuning — в десятки минут.
+
+## 4. Структура репозитория
+
+```
+hamori/
+├── CLAUDE.md                          постоянный контекст для Claude Code
+├── README.md                          этот файл
+├── requirements.txt                   зависимости Python
+├── docs/
+│   ├── chord_format_spec.md           спецификация формата .chord (версия 2.0)
+│   ├── requirements.md                функциональные и нефункциональные требования
+│   ├── architecture.md                архитектура системы
+│   └── glossary.md                    глоссарий терминов
+├── data/
+│   ├── raw_user/                      .chord-файлы собственного корпуса
+│   ├── raw_external/                  публичные корпуса (McGill Billboard и др.)
+│   ├── processed/                     токенизированные .pt-файлы для обучения
+│   └── holdout/                       отложенная выборка для итоговой оценки
+├── src/
+│   ├── chord_parser.py                парсинг аккордовых символов
+│   ├── tokenizer.py                   преобразование .chord ↔ токены
+│   ├── midi_export.py                 экспорт периодов в MIDI
+│   ├── dataset.py                     PyTorch-датасет
+│   ├── model.py                       определение модели
+│   ├── train.py                       логика обучения
+│   ├── generate.py                    инференс и сэмплирование
+│   ├── evaluate.py                    метрики и распределения
+│   └── external_converters/           конвертеры публичных корпусов
+├── scripts/                           CLI-обёртки над модулями src
+├── tests/                             модульные тесты и фикстуры
+├── notebooks/                         Jupyter-ноутбуки для исследования и отчётности
+├── checkpoints/                       сохранённые состояния моделей
+└── reports/                           графики, примеры и итоговый отчёт
+```
+
+## 5. Быстрый старт
+
+После завершения обучения (см. разделы 6–7) генерация одного периода
+выполняется следующей командой:
+
+```bash
+python scripts/generate.py \
+    --checkpoint checkpoints/finetuned.pt \
+    --mode major \
+    --key F# \
+    --style user \
+    --function chorus \
+    --time 4/4 \
+    --output reports/samples/period.chord \
+    --midi reports/samples/period.mid \
+    --seed 42
+```
+
+После выполнения в указанной директории появятся два файла:
+текстовый `.chord` с гармонической последовательностью и MIDI-файл,
+готовый к открытию в DAW.
+
+Если у пользователя есть начальная гармоническая идея, её можно передать
+параметром `--prefix`:
+
+```bash
+python scripts/generate.py \
+    --checkpoint checkpoints/finetuned.pt \
+    --mode major --key C --style user --function verse --time 4/4 \
+    --prefix "Cmaj7 Am7 Dm7" \
+    --output reports/samples/continuation.chord
+```
+
+Модель достроит остаток периода в логике, выученной на собственном корпусе
+автора.
+
+## 6. Подготовка датасета
+
+Подготовка датасета — самая трудозатратная часть проекта (10–15 часов
+чистого времени). Сокращать её за счёт автоматического извлечения аккордов
+из аудио нецелесообразно: при плотной фактуре и нетривиальных гармонических
+решениях современные алгоритмы chord detection дают слишком высокую долю
+ошибок, тогда как ручная транскрипция при наличии абсолютного слуха выполняется
+быстро и без потерь.
+
+### 6.1 Собственный корпус
+
+Из 20–25 собственных произведений (DAW-проекты в REAPER) необходимо извлечь
+80–150 гармонических периодов и записать каждый в виде отдельного `.chord`-файла
+в директории `data/raw_user/`.
+
+Процедура транскрипции:
+
+1. Прослушать пьесу, определить границы замкнутых гармонических фраз. Признаки
+   замкнутости — возврат к тонике или ясная полукаденция, отсутствие модуляции
+   внутри фрагмента.
+2. Заполнить шапку `.chord`-файла: название, тональность, тактовый размер,
+   подразделение доли, стилевой тег `user`, функциональная роль периода.
+3. Транскрибировать гармонию по позициям, аккуратно фиксируя инверсии и расширения.
+4. Запустить парсер для проверки корректности файла:
+   ```bash
+   python scripts/validate_chord_file.py data/raw_user/2024_001_song_chorus.chord
+   ```
+5. Запустить экспорт в MIDI и прослушать результат в DAW параллельно с оригиналом
+   для контроля точности транскрипции:
+   ```bash
+   python -m src.midi_export data/raw_user/2024_001_song_chorus.chord /tmp/check.mid
+   ```
+
+Полная спецификация формата приведена в [docs/chord_format_spec.md](docs/chord_format_spec.md).
+Чек-лист транскрипции — в разделе 10 спецификации.
+
+### 6.2 Публичный корпус
+
+Для предобучения используется McGill Billboard Project — открытый
+размеченный профессиональными аннотаторами корпус из примерно семи сотен
+пьес западной поп-музыки 1950–1990-х годов. Корпус необходимо скачать с
+официального сайта и распаковать в директорию `data/raw_external/mcgill_billboard/`.
+
+Конвертация в формат `.chord`:
+
+```bash
+python -m src.external_converters.mcgill_to_chord \
+    --input data/raw_external/mcgill_billboard/ \
+    --output data/raw_external/mcgill_converted/
+```
+
+Конвертер автоматически разрезает каждую пьесу на периоды по границам секций
+и сохраняет каждый период как отдельный `.chord`-файл со стилевым тегом `other`.
+
+### 6.3 Отложенная выборка
+
+Из собственного корпуса необходимо отложить 10–15 периодов в директорию
+`data/holdout/` ещё до начала обучения. Эти периоды не должны попасть ни в
+тренировочную, ни в валидационную выборки и используются только для итоговой
+оценки качества модели. Откладывать следует репрезентативные для авторского
+стиля примеры, а не самые экспериментальные.
+
+### 6.4 Токенизация
+
+После того как `.chord`-файлы готовы, выполняется пакетная токенизация:
+
+```bash
+python scripts/prepare_data.py \
+    --input-dir data/raw_user/ \
+    --output-dir data/processed/user/ \
+    --split-ratios 0.9 0.1
+
+python scripts/prepare_data.py \
+    --input-dir data/raw_external/mcgill_converted/ \
+    --output-dir data/processed/mcgill/ \
+    --split-ratios 0.9 0.1
+```
+
+Скрипт автоматически разделяет файлы на тренировочную и валидационную выборки,
+выводит статистику по длине последовательностей и распределениям метаданных.
+
+## 7. Обучение моделей
+
+Обучение выполняется в две стадии.
+
+### 7.1 Предобучение
+
+Обучение базовой модели на конвертированном корпусе McGill Billboard:
+
+```bash
+python scripts/train.py \
+    --data-dir data/processed/mcgill/ \
+    --output checkpoints/pretrained.pt \
+    --epochs 50 \
+    --batch-size 32 \
+    --lr 3e-4 \
+    --warmup-steps 200 \
+    --seed 42
+```
+
+По окончании обучения в директории `checkpoints/` появятся: сам чекпоинт,
+лог обучения в формате CSV и график кривых train/val loss.
+
+### 7.2 Дообучение на собственном корпусе
+
+```bash
+python scripts/train.py \
+    --init-from checkpoints/pretrained.pt \
+    --data-dir data/processed/user/ \
+    --output checkpoints/finetuned.pt \
+    --epochs 15 \
+    --batch-size 16 \
+    --lr 1e-5 \
+    --warmup-steps 20 \
+    --seed 42
+```
+
+Существенно более низкая скорость обучения (на два порядка меньше, чем на
+предобучении) и небольшое число эпох предотвращают катастрофическое забывание
+закономерностей, выученных на этапе предобучения.
+
+## 8. Оценка результатов
+
+Скрипт оценки сравнивает базовую (только предобученную) и дообученную модели
+на отложенной выборке:
+
+```bash
+python scripts/evaluate.py \
+    --baseline checkpoints/pretrained.pt \
+    --target checkpoints/finetuned.pt \
+    --holdout data/processed/holdout/ \
+    --output-dir reports/
+```
+
+В директории `reports/` будут сформированы:
+
+- Таблица в формате JSON с численными метриками (perplexity обеих моделей).
+- Графики распределений типов аккордов, частот инверсий, интервалов движения
+  корня, наиболее частых функциональных пар. Каждый график показывает баланс
+  baseline-распределения и target-распределения.
+- Сгенерированные образцы для качественного сравнения (3 затравки × 3 семпла
+  × 2 модели).
+
+Подробное описание метрик и методологии оценки — в разделе 6 файла
+[docs/architecture.md](docs/architecture.md).
+
+## 9. Дополнительная документация
+
+| Документ                                               | Назначение                                                                                                                                             |
+| ------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------ |
+| [docs/chord_format_spec.md](docs/chord_format_spec.md) | Полная спецификация формата `.chord`, словарь токенов, правила парсинга. Авторитетный источник по формату.                                             |
+| [docs/requirements.md](docs/requirements.md)           | Функциональные и нефункциональные требования, критерии приёмки.                                                                                        |
+| [docs/architecture.md](docs/architecture.md)           | Архитектура системы, схемы потоков данных, описания модулей, обоснование ключевых проектных решений.                                                   |
+| [docs/glossary.md](docs/glossary.md)                   | Глоссарий музыкальных, машинно-обучательных и проектных терминов.                                                                                      |
+| [CLAUDE.md](CLAUDE.md)                                 | Постоянный контекст для Claude Code (на английском). Описывает правила разработки, чего нельзя делать без согласования и какие модули за что отвечают. |
+
+## 10. Ограничения текущей версии
+
+Текущая версия проекта сознательно ограничена для соблюдения сроков курсовой
+работы. Перечисленные ниже возможности **не реализованы** и являются
+кандидатами для дальнейшего развития.
+
+- Генерация мелодии. Текущая модель работает только с гармонической
+  последовательностью.
+- Расположение голосов внутри аккорда (voicing) выше баса. Бас передаётся,
+  остальное оставлено на ручную работу композитора в DAW.
+- Ритмический паттерн внутри удержания аккорда (синкопы, проходящие фигуры,
+  альбертиевы басы).
+- Аранжировка, тембр, динамика, артикуляция.
+- Графический пользовательский интерфейс. Взаимодействие осуществляется
+  через командную строку.
+- Прямая интеграция с REAPER в режиме реального времени. Обмен с DAW
+  происходит через файлы MIDI.
+- Обработка модуляций внутри одного периода. При наличии модуляции в
+  исходном произведении периоды разрезаются по точке модуляции.
+- Дообучение на корпусе японской поп-музыки (J-Pop). Запланировано как
+  отдельный эксперимент после защиты курсовой.
+
+Подробное обсуждение каждого пункта и направления развития содержатся в
+[docs/architecture.md](docs/architecture.md), раздел «Точки расширения».
@@ -0,0 +1,915 @@
+# Архитектура системы hamori
+
+**Версия документа:** 1.0
+**Дата:** 2026-05-19
+
+Документ описывает архитектуру проекта _hamori_ — генератора гармонических
+периодов: высокоуровневую структуру, потоки данных, состав модулей, ключевые
+проектные решения и их обоснование, а также точки расширения.
+
+---
+
+## Содержание
+
+1. [Высокоуровневая архитектура](#1-высокоуровневая-архитектура)
+2. [Потоки данных](#2-потоки-данных)
+3. [Состав модулей](#3-состав-модулей)
+4. [Модель машинного обучения](#4-модель-машинного-обучения)
+5. [Конвейер обучения](#5-конвейер-обучения)
+6. [Конвейер инференса и оценки](#6-конвейер-инференса-и-оценки)
+7. [Ключевые проектные решения](#7-ключевые-проектные-решения)
+8. [Точки расширения](#8-точки-расширения)
+
+---
+
+## 1. Высокоуровневая архитектура
+
+Система состоит из шести логических уровней.
+
+**Уровень человекочитаемых данных.** Текстовые `.chord`-файлы лид-шит-нотации,
+с которыми работает автор-композитор при ручной транскрипции. Каждый файл
+описывает один гармонический период.
+
+**Уровень парсинга и валидации.** Модули, преобразующие `.chord`-файлы в
+структурированные внутренние представления и проверяющие их корректность.
+
+**Уровень токенизации.** Модули, преобразующие структурированные представления
+в последовательности целочисленных идентификаторов и обратно. Здесь же
+выполняется нормализующая транспозиция в каноническую тональность.
+
+**Уровень обучения и инференса.** Реализация нейросетевой модели, циклы
+обучения и сэмплирования, работа с чекпоинтами.
+
+**Уровень оценки.** Расчёт метрик, построение распределений, формирование
+графических артефактов для отчёта.
+
+**Уровень внешних адаптеров.** Конвертеры публичных корпусов в формат `.chord`,
+экспорт периодов в MIDI.
+
+Схема информационных связей между уровнями:
+
+```
+                    автор-композитор
+                          │
+                          ▼
+                  .chord-файлы (raw_user)
+                          │
+                          │
+                          │           публичный корпус
+                          │                 │
+                          │                 ▼
+                          │         внешний конвертер
+                          │                 │
+                          │                 ▼
+                          │         .chord-файлы (raw_external)
+                          │                 │
+                          └────────┬────────┘
+                                   │
+                                   ▼
+                          парсер + валидатор
+                                   │
+                                   ▼
+                          транспозиция в C/Am
+                                   │
+                                   ▼
+                              токенизатор
+                                   │
+                                   ▼
+                          .pt-файлы (processed)
+                                   │
+                ┌──────────────────┼──────────────────┐
+                ▼                  ▼                  ▼
+            train выборка      val выборка       holdout выборка
+                │                  │                  │
+                └────────┬─────────┘                  │
+                         ▼                            │
+              трансформер: pre-train + fine-tune      │
+                         │                            │
+                         ▼                            │
+                    чекпоинты ◄───────────────────────┘
+                         │                            │
+        ┌────────────────┼────────────────────────────┘
+        ▼                ▼
+    инференс         оценка
+        │                │
+        ▼                ▼
+.chord + MIDI    метрики + графики + образцы
+        │                │
+        ▼                ▼
+   автор-композитор    отчёт
+```
+
+---
+
+## 2. Потоки данных
+
+### 2.1 Поток подготовки собственного корпуса
+
+```
+DAW-проект (REAPER)
+    │
+    │  ручная транскрипция
+    ▼
+.chord-файл в data/raw_user/
+    │
+    │  валидация формата
+    │  (опционально: MIDI-санитарная проверка)
+    ▼
+.chord-файл прошёл проверку
+    │
+    │  скрипт prepare_data.py
+    │  ├── чтение
+    │  ├── транспозиция в C major / A minor
+    │  ├── токенизация
+    │  └── разбиение train / val
+    ▼
+.pt-файлы в data/processed/user/{train,val}/
+```
+
+### 2.2 Поток подготовки публичного корпуса
+
+```
+McGill Billboard (Harte-аннотации)
+    │
+    │  скрипт mcgill_to_chord.py
+    │  ├── парсинг Harte-нотации
+    │  ├── разрезание на периоды по секциям
+    │  ├── определение тональности
+    │  └── конвертация в .chord
+    ▼
+.chord-файлы в data/raw_external/mcgill_converted/
+    │
+    │  скрипт prepare_data.py
+    ▼
+.pt-файлы в data/processed/mcgill/{train,val}/
+```
+
+### 2.3 Поток обучения
+
+```
+data/processed/mcgill/      ◄── предобучение
+    │
+    ▼
+checkpoints/pretrained.pt
+    │
+    │  инициализация весов
+    ▼
+data/processed/user/        ◄── дообучение
+    │
+    ▼
+checkpoints/finetuned.pt
+```
+
+### 2.4 Поток инференса
+
+```
+пользовательские параметры (CLI)
+    │
+    │  построение prompt-токенов
+    │  ▼
+prompt = <BOS> + метатокены + опциональный prefix
+    │
+    │  авторегрессионная генерация (top-p sampling)
+    ▼
+последовательность токенов до <EOS>
+    │
+    │  детокенизация
+    ▼
+ChordPeriod в канонической тональности C/Am
+    │
+    │  транспозиция в целевую тональность
+    ▼
+ChordPeriod в требуемой тональности
+    │
+    │  сериализация + MIDI-экспорт
+    ▼
+.chord и .mid файлы
+```
+
+### 2.5 Поток оценки
+
+```
+data/processed/holdout/
+    │
+    ▼
+вычисление перплексии для base и target
+    │
+    ▼
+извлечение признаков (типы аккордов, инверсии, интервалы корня)
+    │
+    ▼
+построение гистограмм и таблиц
+    │
+    ▼
+reports/figures/, reports/metrics.json
+```
+
+---
+
+## 3. Состав модулей
+
+### 3.1 `src/chord_parser.py`
+
+**Назначение.** Разбор отдельных аккордовых символов в строго типизированное
+представление.
+
+**Публичный интерфейс.**
+
+- `parse_chord_symbol(symbol: str) -> ChordTokens` — парсит строку вида `Am7`,
+  `Cmaj9`, `F/G`, `Bb7b9/D` в dataclass `ChordTokens(root, quality, extension, bass)`.
+- `ChordParseError` — исключение, поднимаемое при невалидном символе.
+
+**Ключевые соображения реализации.** Модуль не использует регулярные
+выражения для парсинга качеств: вместо этого выполняется последовательное
+распознавание из таблицы альтернативных написаний по принципу самого длинного
+совпадения. Это упрощает добавление новых качеств в будущем и снижает риск
+тонких ошибок с приоритетами совпадений.
+
+Бемольные написания корня и баса нормализуются к диезной форме на этапе парсинга.
+
+**Связи.** Используется модулем `tokenizer.py` для разбора аккордов внутри
+периода. Не имеет зависимостей внутри проекта, кроме стандартной библиотеки
+Python и опционально `music21` (как fallback для нетипичных написаний).
+
+### 3.2 `src/tokenizer.py`
+
+**Назначение.** Преобразование `.chord`-файлов в последовательности
+целочисленных идентификаторов и обратно. Реализация словаря токенов.
+Реализация нормализующей транспозиции.
+
+**Публичный интерфейс.**
+
+- Константа `VOCAB: list[str]` — словарь токенов в порядке, описанном в
+  спецификации формата (81 токен).
+- Константа `TOKEN_TO_ID: dict[str, int]` — обратное отображение.
+- Функция `parse_chord_file(path: Path) -> ChordPeriod` — парсинг
+  `.chord`-файла в структурированное представление.
+- Функция `transpose_to_canonical(period: ChordPeriod) -> ChordPeriod` —
+  транспозиция мажорных периодов в C major, минорных в A minor.
+- Функция `tokenize_period(period: ChordPeriod) -> list[int]` — последовательно
+  выполняет транспозицию и преобразование в токены.
+- Функция `detokenize_to_period(token_ids: list[int]) -> ChordPeriod` —
+  обратная операция, возвращает период в канонической тональности.
+- Функция `transpose_period(period, target_key) -> ChordPeriod` —
+  транспозиция в произвольную целевую тональность (используется на этапе
+  инференса для возврата результата в требуемую тональность).
+- Исключение `ChordFormatError` — для ошибок формата файла.
+
+**Ключевые соображения реализации.** Словарь токенов является константой
+модуля; его изменение приводит к несовместимости с ранее обученными моделями,
+поэтому любые изменения должны сопровождаться инкрементом версии спецификации
+формата и переобучением моделей.
+
+Транспозиция реализуется через расчёт интервала в полутонах между исходным и
+целевым тонами, после чего к каждому корневому тону и бассу применяется
+циклический сдвиг по 12-тоновой системе. Качество и расширения аккорда при
+транспозиции не меняются.
+
+**Связи.** Используется всеми остальными модулями для входа и выхода из
+токенизированного пространства. Зависит от `chord_parser.py`.
+
+### 3.3 `src/midi_export.py`
+
+**Назначение.** Преобразование `.chord`-файлов в стандартные MIDI-файлы для
+прослушивания в DAW и для использования сгенерированных периодов в
+композиторской работе.
+
+**Публичный интерфейс.**
+
+- `chord_file_to_midi(chord_path, midi_path, tempo=90)` — основная функция.
+- `period_to_midi(period: ChordPeriod, midi_path, tempo=90)` — вариант,
+  принимающий уже распарсенный период.
+
+**Ключевые соображения реализации.** MIDI-файл содержит два инструментальных
+трека: трек аккордов и трек баса. Аккорды раскладываются в средней октаве
+(C4–B5) тремя или четырьмя одновременными нотами, бас — в нижней октаве (C2–B2)
+одной нотой. Длительности соответствуют длительностям удержания аккордов в
+исходном `.chord`-файле.
+
+Voicing внутри аккорда выполняется минимально — простое расположение нот в
+тесном расположении от корня. Это не задача данного модуля и сознательно
+оставлено простым.
+
+**Связи.** Зависит от `tokenizer.py` (для парсинга `.chord`) и `pretty_midi`.
+
+### 3.4 `src/dataset.py`
+
+**Назначение.** Реализация PyTorch-датасета над предварительно
+токенизированными `.pt`-файлами.
+
+**Публичный интерфейс.**
+
+- Класс `ChordDataset(torch.utils.data.Dataset)`.
+  - Конструктор принимает путь к директории с `.pt`-файлами и максимальную
+    длину последовательности.
+  - `__getitem__` возвращает тензор токенов, обрезанный или дополненный
+    паддингом до максимальной длины.
+- Функция `make_dataloader(dataset, batch_size, shuffle) -> DataLoader` —
+  удобная фабрика.
+
+**Ключевые соображения реализации.** Все `.pt`-файлы загружаются в память при
+создании датасета. Это допустимо при текущем размере данных (тысячи периодов
+максимум) и существенно ускоряет обучение по сравнению с подгрузкой с диска.
+
+Паддинг выполняется специальным токеном `<PAD>` с индексом 2 в словаре.
+В функции потерь этот индекс игнорируется через параметр `ignore_index`.
+
+### 3.5 `src/model.py`
+
+**Назначение.** Определение нейросетевой архитектуры.
+
+**Публичный интерфейс.**
+
+- Класс `ChordTransformer(nn.Module)` с параметрами конструктора:
+  `vocab_size`, `d_model`, `n_layers`, `n_heads`, `d_ff`, `max_seq_len`,
+  `dropout`.
+
+**Архитектурные детали.** Декодер-only трансформер с pre-normalization
+(нормализация перед остаточной связью, а не после). Эмбеддинги токенов и
+позиционные эмбеддинги — обучаемые. Веса входного эмбеддинга и финальной
+проекции на словарь связаны (tied weights), что сокращает число параметров
+и стабилизирует обучение на малых данных.
+
+Каждый блок трансформера состоит из:
+
+- LayerNorm
+- Causal multi-head self-attention с маскированием будущих позиций
+- Residual connection
+- LayerNorm
+- Feedforward с активацией GELU
+- Residual connection
+
+После последнего блока — финальная LayerNorm и линейная проекция на размер
+словаря.
+
+**Связи.** Используется в модулях обучения и инференса.
+
+### 3.6 `src/train.py`
+
+**Назначение.** Логика обучения, общая для предобучения и дообучения.
+
+**Публичный интерфейс.**
+
+- Функция `train_model(config: TrainConfig) -> Path` — основная точка
+  входа. Возвращает путь к лучшему чекпоинту.
+- Dataclass `TrainConfig` с полями для всех гиперпараметров.
+
+**Особенности.** Один общий цикл обучения параметризуется аргументом
+`init_from`. Если этот аргумент задан, веса модели инициализируются из
+указанного чекпоинта, иначе — случайно. Это позволяет использовать один и
+тот же код для предобучения и дообучения, различающихся только параметрами
+запуска (низкий learning rate, меньшее число эпох для дообучения).
+
+Логирование: после каждой эпохи в stdout выводится строка с номером эпохи,
+тренировочной потерей, валидационной потерей и валидационной перплексией.
+Параллельно строка добавляется в CSV-лог. Лучший по валидационной потере
+чекпоинт сохраняется отдельно.
+
+Ранняя остановка: если валидационная потеря не улучшается на протяжении N
+эпох (по умолчанию 5), обучение завершается досрочно.
+
+### 3.7 `src/generate.py`
+
+**Назначение.** Сэмплирование из обученной модели.
+
+**Публичный интерфейс.**
+
+- Функция `generate_period(model, mode, time, subdivision, style, function,
+key, prefix=None, temperature=1.0, top_p=0.9, max_tokens=300, seed=None)
+-> ChordPeriod`.
+
+**Ключевые соображения реализации.** Авторегрессионная генерация выполняется
+по одному токену за раз. Для каждого шага:
+
+1. Прогон последовательности через модель, получение распределения над
+   следующим токеном.
+2. Деление логитов на температуру.
+3. Применение nucleus sampling: оставляем минимальный по числу элементов
+   набор кандидатов с накопленной вероятностью не менее top_p.
+4. Маскирование грамматически невалидных кандидатов (например, токена
+   расширения сразу после токена удержания).
+5. Сэмплирование из оставшегося распределения.
+6. Останов при появлении `<EOS>` или при достижении лимита токенов.
+
+После завершения генерации последовательность детокенизируется, получившийся
+период транспонируется из канонической тональности в целевую и возвращается
+вызывающему.
+
+### 3.8 `src/evaluate.py`
+
+**Назначение.** Расчёт метрик качества и построение распределений.
+
+**Публичный интерфейс.**
+
+- `compute_perplexity(model, dataloader) -> float`.
+- `extract_features(period: ChordPeriod) -> dict` — извлекает гармонические
+  признаки периода: список типов качеств, доли инверсий, интервалы движения
+  корня, биграммы корней.
+- `compare_distributions(baseline_features, target_features) -> dict` —
+  агрегирует признаки и формирует структуры для построения графиков.
+- `plot_comparison(distributions, output_dir)` — рисует и сохраняет графики.
+
+### 3.9 `src/external_converters/mcgill_to_chord.py`
+
+**Назначение.** Конвертация аннотаций McGill Billboard Project в формат
+`.chord`.
+
+**Публичный интерфейс.**
+
+- `convert_directory(input_dir, output_dir, log_path=None)` — конвертирует
+  все пьесы из исходной директории.
+- `convert_song(song_dir, output_dir) -> list[Path]` — конвертирует одну
+  пьесу, возвращает список путей к созданным файлам периодов.
+
+**Ключевые соображения реализации.** Harte-нотация McGill отличается от
+формата проекта по ряду признаков: использует другие имена качеств, явно
+указывает интервальный состав в скобках, имеет иную систему обозначения
+длительностей. Конвертер реализует таблицу соответствий между Harte и форматом
+проекта и приводит к ближайшему допустимому аккорду в случаях, когда точное
+соответствие отсутствует.
+
+Разрезание на периоды выполняется по разметке секций в исходных файлах
+(`verse`, `chorus`, `bridge` и т.д.). Периоды длиной менее 4 или более 16
+тактов пропускаются.
+
+---
+
+## 4. Модель машинного обучения
+
+### 4.1 Выбор архитектуры
+
+Архитектура декодер-only трансформера выбрана по следующим причинам.
+
+**Соответствие задаче.** Гармоническая последовательность — это
+последовательность дискретных символов с сильными локальными
+зависимостями (соседние аккорды связаны функциональными отношениями) и
+менее сильными глобальными зависимостями (начало и конец периода связаны
+тонально). Self-attention отражает оба типа зависимостей естественным
+образом.
+
+**Совместимость со схемой предобучения + дообучения.** Архитектуры
+семейства трансформеров — стандартный выбор для задач с малой целевой
+выборкой и большим объёмом предобучающих данных.
+
+**Простота реализации с нуля.** При выбранном масштабе модели (несколько
+блоков, небольшая размерность) реализация умещается в нескольких сотнях
+строк кода и не требует тяжёлых зависимостей.
+
+Альтернатива в виде LSTM была рассмотрена и отвергнута на основании того,
+что:
+
+- При сопоставимом числе параметров трансформер обычно работает не хуже на
+  задачах с дискретными последовательностями.
+- Параллелизация обучения трансформера эффективнее.
+- Стандартное предобучение языковых моделей через next-token prediction
+  легче переносится на трансформер, чем на рекуррентные сети.
+
+### 4.2 Параметры модели
+
+Размер модели сознательно выбран небольшим — порядка одного-трёх миллионов
+параметров. Это обусловлено объёмом обучающих данных: при тысячах примеров
+крупная модель неизбежно переобучится, а компактная сохранит способность
+к обобщению. Рекомендуемая конфигурация:
+
+| Параметр                     | Значение    |
+| ---------------------------- | ----------- |
+| Число слоёв                  | 3           |
+| Размерность модели (d_model) | 192         |
+| Число голов внимания         | 6           |
+| Размерность FFN              | 768         |
+| Длина контекста              | 512 токенов |
+| Размер словаря               | 81          |
+| Dropout                      | 0.1         |
+
+При необходимости конфигурация может быть пересмотрена в сторону уменьшения
+(если модель не сходится) или увеличения (если результаты явно недостаточны
+и есть запас времени на эксперимент).
+
+### 4.3 Функция потерь и оптимизация
+
+Стандартная кросс-энтропия с игнорированием `<PAD>`-токена. Оптимизатор —
+AdamW. Расписание learning rate — косинусное снижение с линейным разогревом
+на 5% от общего числа шагов.
+
+**Предобучение.** Стартовый learning rate 3·10⁻⁴, 50 эпох (с возможностью
+ранней остановки).
+
+**Дообучение.** Стартовый learning rate 1·10⁻⁵, 15 эпох с ранней остановкой.
+
+Двухпорядковая разница в learning rate между предобучением и дообучением —
+ключевой приём для предотвращения катастрофического забывания: на этапе
+дообучения веса модели изменяются медленно, что сохраняет общие
+гармонические закономерности, выученные на крупном корпусе.
+
+### 4.4 Генерация
+
+Используется nucleus sampling (top-p) с температурой 1.0 по умолчанию.
+Параметры регулируются на этапе инференса.
+
+Beam search отвергнут на основании опыта генеративных задач: он склонен
+порождать монотонные, многократно повторяющиеся последовательности, что
+особенно нежелательно в задаче создания творческих идей.
+
+---
+
+## 5. Конвейер обучения
+
+### 5.1 Подготовка данных
+
+```
+сырьё (.chord)
+    │
+    ▼
+парсинг и валидация
+    │
+    ▼
+транспозиция в каноническую тональность
+    │
+    ▼
+токенизация
+    │
+    ▼
+случайное разбиение на train/val (90/10)
+    │
+    ▼
+сохранение .pt-файлов
+```
+
+Разбиение train/val выполняется на уровне периодов, а не на уровне исходных
+пьес. Для собственного корпуса это компромиссное решение: разбиение по
+пьесам было бы методологически чище, но при 20–25 пьесах привело бы к
+слишком высокой дисперсии валидационной потери. Holdout-выборка, в свою
+очередь, специально формируется на уровне пьес, что обеспечивает честность
+итоговой оценки.
+
+### 5.2 Цикл предобучения
+
+```
+инициализация модели случайными весами
+    │
+    ▼
+для каждой эпохи (1..50):
+    │
+    ├── проход по train: forward, loss, backward, optimizer step
+    │   │
+    │   ▼
+    │   агрегация train_loss за эпоху
+    │
+    ├── проход по val (без градиентов): forward, loss
+    │   │
+    │   ▼
+    │   агрегация val_loss и val_perplexity
+    │
+    ├── запись строки в CSV-лог
+    │
+    ├── если val_loss улучшилась — сохранение чекпоинта
+    │
+    └── если val_loss не улучшалась 5 эпох подряд — выход
+```
+
+### 5.3 Цикл дообучения
+
+Идентичен циклу предобучения по структуре, отличается:
+
+- Инициализация модели из чекпоинта предобучения.
+- Меньший learning rate.
+- Меньшее максимальное число эпох (15).
+- Опционально: меньший patience для ранней остановки.
+
+### 5.4 Контроль качества обучения
+
+В процессе обучения отслеживаются следующие признаки нормального хода:
+
+- Train loss монотонно снижается.
+- Val loss снижается синхронно с train loss до точки, после которой
+  начинается расхождение (типичное переобучение). Лучший чекпоинт
+  сохраняется до точки расхождения.
+- Val perplexity на сошедшейся модели находится в диапазоне 2–6 для нашей
+  задачи. Существенно меньшие значения указывают на ошибку (например,
+  пересечение train и val выборок). Существенно большие — на плохую
+  сходимость или несоответствие модели данным.
+
+Если эти признаки нарушаются, необходимо в первую очередь проверить
+корректность подготовленных данных: токенизацию случайных файлов руками,
+отсутствие пересечений между выборками, баланс распределения метаданных.
+
+---
+
+## 6. Конвейер инференса и оценки
+
+### 6.1 Инференс
+
+Подробное описание процесса генерации приведено в разделе 3.7. Ключевые
+особенности:
+
+- Все параметры запроса передаются через CLI-аргументы.
+- Случайное зерно фиксируется, что обеспечивает воспроизводимость отдельных
+  семплов.
+- Невалидные грамматические последовательности маскируются на каждом шаге
+  сэмплирования.
+- Результат сразу сохраняется в двух форматах: `.chord` (для возможного
+  редактирования или подачи модели как затравки в дальнейшем) и MIDI (для
+  прослушивания).
+
+### 6.2 Количественная оценка
+
+**Перплексия** на отложенной выборке рассчитывается как экспонента средней
+кросс-энтропии. Сравнение перплексий базовой и целевой моделей на одной
+выборке показывает, насколько сильно дообучение сместило распределение
+вероятностей модели в сторону распределения собственного корпуса автора.
+
+Снижение перплексии на отложенной выборке после дообучения является
+основным численным индикатором успеха проекта. Ожидаемая величина снижения —
+от 10% до 50% относительно базовой модели.
+
+### 6.3 Качественная оценка через распределения
+
+Качественная сторона эффекта дообучения оценивается через сравнение
+гистограмм по следующим признакам.
+
+**Типы качеств аккордов.** Распределение по 18 базовым качествам. На малых
+данных авторский стиль часто проявляется в смещении этого распределения:
+например, повышенная частота больших септаккордов и нонаккордов или,
+напротив, преобладание простых трезвучий.
+
+**Доля инверсий.** Процент аккордов с явно указанным басом, отличным от
+корня. Этот признак особенно характерен для индивидуального стиля и для
+конкретных жанров (J-Pop, например, активно использует слэш-аккорды).
+
+**Интервалы движения корня.** Распределение интервалов между корнями
+соседних аккордов в полутонах. Например, доминирование интервала –5
+полутонов (квинтовый ход вниз) характерно для барочной и классической
+гармонии; преобладание интервалов –2, +2 — для более поп-ориентированных
+стилей.
+
+**Биграммы корней.** Частоты пар «текущий корень → следующий корень». Эти
+биграммы захватывают функциональные предпочтения автора: например,
+характерные переходы IV → V или V → vi.
+
+Графики строятся как наложение двух гистограмм (baseline-распределение и
+target-распределение) на одной координатной плоскости. Визуальный сдвиг
+target относительно baseline — прямое подтверждение того, что дообучение
+сработало.
+
+### 6.4 Качественная оценка через прослушивание
+
+Для отчёта формируются три специально подобранные («cherry-picked») пары
+сгенерированных образцов: для каждой из выбранных гармонических затравок —
+по одному примеру от базовой и от дообученной модели с одним и тем же
+случайным зерном. Эти примеры конвертируются в MIDI и прилагаются к отчёту
+(в виде ссылок и описаний).
+
+Слепой listening-тест с привлечением сторонних слушателей не проводится из
+соображений ограничения по времени.
+
+---
+
+## 7. Ключевые проектные решения
+
+В этом разделе фиксируются проектные решения, принятые на этапе
+проектирования, и обоснования к ним. Решения изложены в виде записей в
+стиле Architectural Decision Records.
+
+### 7.1 ПР-01. Юнит обработки — гармонический период, а не пьеса целиком
+
+**Контекст.** Изначально рассматривался вариант обучения модели на целых
+пьесах. При объёме собственного корпуса 20–25 пьес и средней длине каждой
+40–100 тактов это давало бы датасет из 20–25 длинных последовательностей —
+крайне малый объём для генеративной модели.
+
+**Решение.** Единицей обработки и генерации является гармонический период —
+замкнутая фраза 4–16 тактов. Из одной пьесы извлекается 4–8 периодов.
+
+**Последствия.**
+
+- Эффективный объём датасета увеличивается в 4–8 раз.
+- Проблема обработки модуляций между секциями исчезает: внутри периода
+  модуляций нет.
+- Длина обучающей последовательности становится меньшей и более однородной
+  (50–250 токенов вместо 500–1500), что упрощает обучение.
+- Юнит хорошо соответствует реальному композиторскому воркфлоу: помощник
+  выдаёт идеи периодами, а не целыми пьесами.
+
+### 7.2 ПР-02. Нормализующая транспозиция в C major / A minor
+
+**Контекст.** Если каждый период хранится в исходной тональности,
+функционально эквивалентные последовательности в разных тональностях
+становятся для модели разными последовательностями. Это резко увеличивает
+эффективное разнообразие данных в 12 раз и затрудняет обобщение.
+
+**Решение.** Перед токенизацией все периоды транспонируются: мажорные — в
+C major, минорные — в A minor. Тональность в словарь модели не входит.
+На инференсе результат транспонируется обратно в требуемую тональность
+постпроцессингом.
+
+**Последствия.**
+
+- Эффективное увеличение датасета в 12 раз.
+- Сокращение словаря на 24 токена.
+- Цвет конкретной тональности (характерное звучание Fis-dur против C-dur)
+  теряется. Это исполнительское свойство, не функционально-гармоническое,
+  и для задачи генерации прогрессий не релевантно.
+- Внутренние модуляции и тонизации записываются обычными функциональными
+  аккордами и обрабатываются единообразно.
+
+### 7.3 ПР-03. Факторизованная токенизация аккордов
+
+**Контекст.** Каждый аккорд можно представить либо одним атомарным токеном
+(`Cmaj7`, `Am7`, `F/G` как отдельные элементы словаря), либо разложенным
+на несколько токенов (корень, качество, расширение, бас).
+
+**Решение.** Каждый аккорд представляется ровно четырьмя токенами:
+`ROOT_x`, `QUAL_x`, `EXT_x`, `BASS_x`. Словарь содержит 81 токен против
+нескольких сотен в случае атомарной токенизации.
+
+**Последствия.**
+
+- Существенно меньший словарь, легче обучаемый на малых данных.
+- Модель видит общность между, например, всеми минорными септаккордами,
+  а не учит их как 12 несвязанных слов.
+- Каждый аккорд занимает в последовательности четыре позиции вместо одной,
+  что увеличивает длину последовательности и нагрузку на attention. При
+  выбранной длине контекста 512 это не создаёт проблем.
+- Появляется необходимость грамматического маскирования при генерации:
+  не любой токен может следовать за любым.
+
+### 7.4 ПР-04. Двухстадийное обучение
+
+**Контекст.** Прямое обучение модели на собственном корпусе автора
+невозможно из-за крайне малого объёма данных.
+
+**Решение.** Двухстадийная схема: предобучение на крупном публичном
+корпусе (McGill Billboard Project) и последующее дообучение на собственном
+корпусе с пониженным learning rate.
+
+**Последствия.**
+
+- Базовые гармонические закономерности (функциональная гармония,
+  стандартные каденции) выучиваются на этапе предобучения.
+- Индивидуальный стиль автора подмешивается на этапе дообучения без
+  необходимости заново выучивать общие законы.
+- Появляется естественная схема сравнения «до и после» дообучения для
+  отчёта.
+- Существует риск катастрофического забывания на этапе дообучения, что
+  митигируется низким learning rate и небольшим числом эпох.
+
+### 7.5 ПР-05. Минималистичная реализация без тяжёлых фреймворков
+
+**Контекст.** Существует ряд готовых фреймворков для обучения трансформеров
+(PyTorch Lightning, HuggingFace Trainer, fastai), которые скрывают
+boilerplate кода тренировочного цикла.
+
+**Решение.** Использовать чистый PyTorch с явным циклом обучения.
+
+**Последствия.**
+
+- Код полностью прозрачен и поддаётся пошаговой отладке, что важно для
+  учебного проекта.
+- Снижается риск проблем с совместимостью версий и сложным поведением
+  фреймворков «из коробки».
+- Объём кода тренировочного цикла остаётся небольшим (порядка двух сотен
+  строк).
+- Теряется доступ к некоторым удобствам фреймворков (готовые callbacks,
+  логирование в TensorBoard и т.п.). Для масштабов проекта это
+  несущественно.
+
+### 7.6 ПР-06. Ручная транскрипция собственного корпуса
+
+**Контекст.** Альтернатива — автоматическое извлечение аккордов из аудио
+с помощью библиотек вроде Chordino, librosa, или нейросетевых детекторов.
+
+**Решение.** Транскрипция выполняется автором вручную, на основе
+DAW-проектов с использованием абсолютного слуха.
+
+**Последствия.**
+
+- Качество транскрипции существенно выше автоматического: тонкие гармонические
+  решения, нестандартные расширения, точные инверсии — всё это передаётся
+  без потерь.
+- Существенные временные затраты (10–15 часов). Это самая трудозатратная
+  часть проекта.
+- Невозможность масштабирования на большой корпус. Для текущей задачи
+  (80–150 периодов) это приемлемо.
+
+### 7.7 ПР-07. Английский язык в коде, русский — в документации и отчёте
+
+**Контекст.** Учебное заведение требует оформления отчёта на русском
+языке. С другой стороны, стандарты разработки и совместимость с
+инструментами вроде Claude Code предполагают английский язык в коде.
+
+**Решение.** Чёткое разделение по слоям:
+
+- Код, идентификаторы, комментарии, сообщения логов, коммиты — английский.
+- Документация (README, спецификация, требования, архитектура,
+  глоссарий) — русский.
+- Итоговый отчёт — русский с оформлением по ГОСТу.
+
+**Последствия.** Однозначность для всех участников разработки.
+Двуязычность не создаёт неудобств, поскольку слои разделены.
+
+---
+
+## 8. Точки расширения
+
+Перечисленные ниже направления развития проекта оставлены явно за рамками
+текущей версии. Их реализация может рассматриваться в будущем.
+
+### 8.1 Дообучение на корпусе японской поп-музыки
+
+**Описание.** После защиты курсовой работы планируется собрать второй
+авторский корпус — гармонические периоды из японских поп-песен (Royal Road
+прогрессии, mu-аккорды, характерные секундовые надстройки, on-аккорды) — и
+выполнить дополнительное дообучение модели на этом материале с тегом
+`STYLE_jpop`.
+
+**Что уже подготовлено для этого расширения.** В словаре токенов
+зарезервирован токен `STYLE_jpop`. Формат `.chord` поддерживает любые
+характерные для J-Pop приёмы (расширенные аккорды, инверсии, слэш-аккорды).
+В шапке файла предусмотрено поле `style`.
+
+**Что нужно дополнительно сделать.** Собрать и транскрибировать корпус
+J-Pop периодов. Выполнить дообучение существующей модели на смешанном
+корпусе (свой + J-Pop) или последовательное дообучение (свой → J-Pop).
+Сравнить генерации с разными значениями стилевого conditioning.
+
+### 8.2 Генерация мелодии
+
+**Описание.** Расширение модели на генерацию монофонической мелодической
+линии, привязанной к гармонической последовательности.
+
+**Что нужно сделать.** Расширить формат `.chord` дополнительным полем для
+мелодической линии (или ввести отдельный формат). Расширить словарь
+токенов мелодическими токенами (вероятно, через раздельное представление
+ступени, длительности, артикуляции). Архитектура модели может остаться
+прежней.
+
+**Сложность.** Существенная: задача мелодизации сложнее, чем гармонизации,
+требует больше данных, имеет другие критерии оценки.
+
+### 8.3 Voicing внутри аккорда
+
+**Описание.** Автоматическое расположение нот внутри аккорда выше баса
+с учётом голосоведения (минимизация суммарного движения голосов, запрет
+параллельных квинт и октав, разрешение тяготеющих ступеней).
+
+**Что нужно сделать.** Эта задача может быть решена rule-based методом без
+машинного обучения. Простой алгоритм минимизации суммарного межаккордового
+смещения голосов с дополнительными правилами укладывается в несколько
+сотен строк кода.
+
+**Сложность.** Низкая, выполнима за день-два после защиты курсовой.
+
+### 8.4 Графический пользовательский интерфейс
+
+**Описание.** Веб- или десктоп-приложение, позволяющее задавать параметры
+генерации интерактивно, прослушивать результат прямо в браузере, сохранять
+понравившиеся варианты.
+
+**Что нужно сделать.** Любой современный веб-фреймворк (FastAPI на backend,
+любой минимальный frontend) поверх существующего CLI. Воспроизведение
+MIDI в браузере через `Tone.js` или подобные библиотеки.
+
+**Сложность.** Невысокая по нынешним стандартам, но требует существенного
+времени.
+
+### 8.5 Интеграция с REAPER
+
+**Описание.** Плагин или внешний инструмент, который при работе в REAPER
+позволяет запрашивать генерацию следующего фрагмента прямо из проекта,
+учитывая текущий гармонический контекст.
+
+**Сложность.** REAPER предоставляет ReaScript для расширений на Lua и
+Python. Реализация возможна, но требует погружения в API REAPER.
+
+### 8.6 Обработка модуляций внутри периода
+
+**Описание.** Текущая версия требует разрезания периодов по точке
+модуляции. Альтернатива — введение inline-токена `MODULATE_<note>_<mode>`,
+переключающего тонический центр в середине последовательности.
+
+**Что нужно сделать.** Расширить словарь токенов на 24 модуляционных
+токена. Дополнить парсер и токенизатор поддержкой inline-меток модуляции.
+Накопить достаточное число обучающих примеров с модуляциями (что
+проблематично при малом исходном корпусе).
+
+**Сложность.** Средняя, основное ограничение — данные.
+
+### 8.7 Поддержка большего числа альтераций в аккорде
+
+**Описание.** Текущая версия поддерживает один слот расширения на аккорд.
+Альтерированные доминанты с несколькими альтерациями одновременно
+(`C7♯9♭13`) сворачиваются до одной альтерации.
+
+**Что нужно сделать.** Перейти от единственного `EXT_x` токена к множеству
+одновременных токенов расширений. Это требует пересмотра грамматики
+последовательности и формата представления одного аккорда (теперь его
+описание становится не четырёхтокеновым, а переменной длины).
+
+**Сложность.** Средняя, в основном проектная — требуется аккуратное
+обновление формата с инкрементом версии.
+
+---
+
+## 9. История изменений
+
+- **1.0** (2026-05-19) — первоначальная редакция документа.
@@ -1,6 +1,4 @@
-# Спецификация формата данных
-
-## Проект: генератор аккордовых последовательностей
+# Спецификация формата данных hamori

 **Версия:** 2.0
 **Дата:** 2026-05-16
@@ -0,0 +1,567 @@
+# Глоссарий hamori
+
+**Версия документа:** 1.0
+**Дата:** 2026-05-19
+
+Документ содержит определения терминов, используемых в проекте _hamori_,
+разделённые на три тематические группы: музыкальные термины, термины
+машинного обучения и проектные термины. Внутри каждой группы записи
+упорядочены по алфавиту.
+
+---
+
+## 1. Музыкальные термины
+
+### Аккорд
+
+Гармоническая единица — одновременное звучание трёх и более нот. В контексте
+проекта аккорд представляется в текстовой нотации (например, `Cmaj7`, `Am`,
+`F/G`) и характеризуется четырьмя признаками: корневой тон, качество,
+расширение, бас.
+
+### Аккордовая последовательность (прогрессия)
+
+Последовательность аккордов, сопровождающая мелодию или существующая
+самостоятельно. Является основным объектом генерации в данном проекте.
+
+### Альтерация
+
+Хроматическое изменение ступени аккорда — повышение или понижение её на
+полутон. В рамках формата проекта альтерации записываются как расширения
+вида `b9`, `#9`, `#11`, `b13`.
+
+### Анакруза (затакт)
+
+Несколько нот или один аккорд, предшествующих первой сильной доле такта.
+В формате проекта затакт записывается через специальное значение `NC`
+(no chord) на пустых позициях первого такта.
+
+### Бас
+
+Самая нижняя нота аккорда. Может совпадать с корневым тоном (основной
+позиции) или отличаться от него (в инверсиях и слэш-аккордах). В формате
+проекта бас выделен в отдельный слот токенизации.
+
+### Гармоническая функция
+
+Роль аккорда в тональной системе: тоника (T), субдоминанта (S), доминанта
+(D) и их побочные ступени. Хотя в формате проекта аккорды записываются
+абсолютными именами, а не функциональными цифрами, нормализующая
+транспозиция в C major / A minor делает функциональные роли явно читаемыми:
+после транспозиции `C` всегда тоника мажорной пьесы, `A` — тоника
+минорной.
+
+### Гармонический период
+
+Замкнутая гармоническая фраза длиной обычно 4, 8 или 16 тактов, имеющая
+ясное начало и завершение (возврат к тонике или полукаденция). Является
+**единицей обработки и генерации** в проекте.
+
+### Голосоведение
+
+Способ соединения нот в соседних аккордах: плавное движение голосов,
+запрет параллельных квинт и октав, разрешение тяготеющих ступеней.
+В текущей версии проекта голосоведение **не моделируется** —
+сгенерированные аккорды передаются как абстрактные гармонические единицы,
+а конкретное расположение голосов оставлено на ручную работу композитора
+в DAW.
+
+### Доминанта
+
+Аккорд пятой ступени лада. Содержит вводный тон и создаёт сильное
+тяготение к тонике. Обычная запись в виде доминантового септаккорда — `G7`
+в C major, `E7` в A minor (с альтерированной третьей ступенью минора).
+
+### Инверсия (обращение)
+
+Аккорд, в котором в качестве баса выступает не корневой тон, а одна из
+других нот аккорда (терция, квинта, септима). В формате проекта инверсии
+записываются через слэш-нотацию: `C/E` (C мажор с басом E, первое
+обращение), `C/G` (с басом G, второе обращение).
+
+### Каденция
+
+Гармонический оборот, завершающий музыкальную фразу. Полная каденция —
+переход доминанты в тонику (V → I). Полукаденция — остановка на
+доминанте, создающая ожидание продолжения. Полукаденция — характерный
+признак середины периода в классических формах.
+
+### Качество (тип) аккорда
+
+Интервальная структура аккорда независимо от его корневого тона. Базовые
+качества, поддерживаемые форматом проекта: мажорное и минорное трезвучия,
+уменьшённое и увеличенное трезвучия, sus2 и sus4, мажорный, минорный,
+доминантовый, полууменьшённый и уменьшённый септаккорды, минорно-мажорный
+септаккорд, доминанта на sus4, увеличенный септаккорд, мажорный и минорный
+аккорды с секстой, аккорды с добавленной ноной. Всего 18 качеств.
+
+### Корневой тон
+
+Основная нота, на которой строится аккорд. Не обязательно совпадает с
+басом (см. _Инверсия_). В формате проекта корневой тон выделен в отдельный
+слот токенизации.
+
+### Лад
+
+Структурно-функциональная организация звуков вокруг центра (тоники).
+В проекте моделируются два лада: натуральный мажор и натуральный минор
+(включая гармонический и мелодический миноры как разновидности — отдельно
+не различаются). Лад фиксируется отдельным метатокеном `MODE_major` или
+`MODE_minor`.
+
+### Лид-шит-нотация
+
+Способ записи музыки, при котором над тактами выписывается мелодия, а
+гармония указывается аккордовыми символами без точной нотации каждой ноты
+аккорда. Формат `.chord` в проекте — упрощённый аналог лид-шита,
+содержащий только гармоническую часть.
+
+### Минор гармонический
+
+Разновидность минорного лада с повышенной седьмой ступенью, создающая
+выраженную доминанту. Внутренние альтерации (V становится мажорным,
+появляется уменьшённый VII7) трактуются в формате проекта как обычные
+аккорды.
+
+### Модуляция
+
+Смена тональности в произведении. В рамках текущей версии формата
+поддерживается только модуляция **между периодами** (каждый период
+хранится в своей тональности). Модуляция **внутри периода** обрабатывается
+через разрезание периода на два — до и после момента модуляции.
+
+### Нонаккорд
+
+Аккорд, расширенный девятой ступенью от корня. В формате проекта —
+`Cmaj9` (мажорный септаккорд + натуральная нона), `C9` (доминантовый
+септаккорд + нона), `Cm9` (минорный септаккорд + нона), `Cmaj7#11` (с
+повышенной квартой), и другие. Записывается как качество + расширение в
+слоте `EXT`.
+
+### Подразделение доли (subdivision)
+
+Параметр формата, определяющий, на сколько временных позиций делится один
+такт. При `subdivision: 4` в размере 4/4 каждый такт делится на четыре
+четверти (четыре позиции). При `subdivision: 8` — на восемь восьмых
+(восемь позиций). Выбирается в зависимости от того, как часто меняются
+аккорды в конкретной пьесе.
+
+### Полиаккорд
+
+Одновременное звучание двух функционально различных аккордов в разных
+регистрах (например, мажорное трезвучие D-F♯-A над мажорным трезвучием
+C-E-G). В текущей версии формата полиаккорды **не поддерживаются**.
+Близкие по звучанию структуры записываются через слэш-нотацию (`C/D`,
+`F/G`) или ближайший один аккорд с расширениями.
+
+### Расширение аккорда
+
+Дополнительный интервал, надстраивающийся над септаккордом: нона (9),
+ундецима (11), терцдецима (13), с возможными альтерациями (`b9`, `#9`,
+`#11`, `b13`). В формате проекта расширение записывается одним токеном
+в отдельном слоте `EXT`. Поддерживается ровно один слот расширения на
+аккорд.
+
+### Royal Road progression
+
+Характерная гармоническая прогрессия японской популярной музыки:
+IV — V — iii — vi (например, в C major: `F → G → Em → Am`). Прогрессия
+ассоциируется с мелодичной, ностальгической эмоциональной окраской и
+встречается в значительной части анисонга и J-Pop в широком смысле.
+
+### Sus-аккорды
+
+Аккорды с задержанной квартой (sus4) или секундой (sus2), заменяющей
+терцию. Лишены терцового тона, не определены как мажорные или минорные.
+В формате проекта — `Csus4`, `Csus2`, а также `C7sus4` (доминантовый
+септаккорд на sus4, часто встречается перед разрешением в обычный
+доминантовый аккорд).
+
+### Слэш-аккорд (slash chord, on-аккорд)
+
+Аккорд с явно указанным басом, отличным от любой ноты собственного состава.
+Записывается как `<аккорд>/<бас>`. Характерный приём японской поп-музыки:
+`F/G`, `C/D`, `Em7/A` — обеспечивают плавное движение баса и характерное
+напряжение.
+
+### Тактовый размер
+
+Соотношение числа долей в такте и их длительности. В формате проекта
+поддерживаются `4/4`, `3/4`, `6/8`, `2/4`, `12/8`. Большинство периодов
+ожидается в размере `4/4`.
+
+### Тональность
+
+Конкретное положение лада на звукоряде, определяемое тоникой и видом
+лада (`F# major`, `B♭ minor`, `C major`). В формате `.chord` указывается
+в шапке файла полем `key`. Перед обучением модели все периоды
+нормализуются в C major / A minor; в словарь модели тональность не
+входит.
+
+### Тонизация (отклонение)
+
+Кратковременный заход в другую тональность через её собственную доминанту
+без полноценной модуляции. Например, в C major последовательность
+`Dm — A7 — Dm` содержит тонизацию D minor. В формате проекта тонизации
+записываются обычными аккордовыми символами и не требуют специальной
+разметки.
+
+### Тоника
+
+Главный устойчивый тон лада, опора. В формате после нормализующей
+транспозиции тоника — `C` для мажорных периодов и `A` для минорных.
+
+### Функциональная роль периода
+
+Роль данного периода в форме исходной пьесы: куплет, припев, пре-припев,
+бридж, вступление, проигрыш, концовка. В формате `.chord` указывается в
+шапке поле `function`. Передаётся в модель как метатокен `FUNC_x` и может
+использоваться как conditioning на инференсе.
+
+---
+
+## 2. Термины машинного обучения
+
+### Авторегрессионная модель
+
+Модель, генерирующая последовательность по одному элементу за раз, причём
+каждый следующий элемент условен на всех предыдущих. Декодер-only
+трансформер, используемый в проекте, — пример авторегрессионной модели.
+
+### Beam search
+
+Алгоритм поиска наиболее вероятной последовательности при генерации:
+вместо сэмплирования удерживается несколько лучших кандидатов на каждом
+шаге, выбирается итоговая последовательность с максимальной совместной
+вероятностью. В проекте **не используется**, поскольку для генеративных
+творческих задач даёт монотонные результаты.
+
+### Catastrophic forgetting (катастрофическое забывание)
+
+Феномен, при котором при дообучении модели на новом наборе данных она
+теряет знания, выученные на исходном корпусе. В проекте митигируется
+существенным снижением скорости обучения на этапе дообучения и
+ограничением числа эпох.
+
+### Causal mask (причинная маска)
+
+Маска внимания в декодер-only трансформере, не позволяющая каждой позиции
+«видеть» будущие позиции в последовательности. Обеспечивает корректное
+обучение задачи предсказания следующего токена.
+
+### Cross-entropy loss
+
+Функция потерь, измеряющая расхождение между предсказанным моделью
+распределением вероятностей следующего токена и истинным значением. Стандартная
+функция потерь для задач классификации и генерации последовательностей.
+
+### Декодер-only трансформер
+
+Архитектура нейросети, состоящая из стека одинаковых блоков, каждый из
+которых содержит self-attention с причинной маской и feedforward-слой.
+В отличие от encoder-decoder архитектуры, у декодер-only нет отдельного
+блока для кодирования входа — всё обрабатывается одной башней. GPT-семейство
+языковых моделей — наиболее известный пример. Используется в данном проекте.
+
+### Дообучение (fine-tuning)
+
+Адаптация модели, ранее обученной на большом корпусе, к конкретной задаче
+или домену через дополнительное обучение на меньшем целевом наборе данных.
+В проекте после предобучения на McGill Billboard модель дообучается на
+собственном корпусе автора.
+
+### Embedding (эмбеддинг)
+
+Числовое векторное представление дискретного элемента (токена). В трансформере
+эмбеддинги токенов и позиций суммируются и подаются в первый блок. Размерность
+эмбеддинга равна размерности модели (`d_model`).
+
+### Epoch (эпоха)
+
+Один полный проход обучающего цикла по всем элементам тренировочной выборки.
+В проекте предобучение длится до 50 эпох с ранней остановкой,
+дообучение — до 15.
+
+### Holdout (отложенная выборка)
+
+Часть данных, отделённая до начала обучения и не используемая ни в
+тренировочной, ни в валидационной выборках. Применяется только для итоговой
+оценки качества модели. В проекте формируется на уровне исходных пьес
+(не на уровне периодов), что обеспечивает методологическую честность
+сравнения.
+
+### LayerNorm (нормализация слоя)
+
+Нормализующее преобразование, стабилизирующее распределение активаций
+внутри сети. В архитектуре проекта применяется в pre-norm варианте
+(перед residual connection, не после).
+
+### Learning rate
+
+Скорость обучения, коэффициент шага оптимизатора. В проекте используется
+значение `3e-4` на этапе предобучения и `1e-5` на этапе дообучения —
+двухпорядковая разница принципиальна для предотвращения катастрофического
+забывания.
+
+### Logits
+
+Выход модели перед применением softmax — нормализованные числовые
+оценки, отражающие предпочтения модели по каждому возможному следующему
+токену. Используются в функции потерь и в процессе сэмплирования.
+
+### Multi-head attention
+
+Механизм self-attention, в котором операция внимания выполняется
+параллельно несколькими «головами», каждая со своими обучаемыми
+проекциями. Результаты голов конкатенируются. В проекте используется
+6 голов.
+
+### Nucleus sampling (top-p sampling)
+
+Стратегия сэмплирования, при которой на каждом шаге сохраняется
+минимальный по числу элементов набор кандидатов с накопленной
+вероятностью не менее заданного порога `p`, после чего из этого набора
+происходит сэмплирование. Применяется в проекте с `p = 0.9` по умолчанию.
+
+### Padding
+
+Дополнение коротких последовательностей до фиксированной длины специальным
+токеном. В проекте — токен `<PAD>` (индекс 2 в словаре), игнорируемый в
+функции потерь через параметр `ignore_index`.
+
+### Perplexity (перплексия)
+
+Метрика качества языковой модели, рассчитываемая как экспонента средней
+кросс-энтропии. Содержательно — «эффективное число равновероятных
+альтернатив», между которыми модель колеблется на каждом шаге. Чем
+меньше, тем лучше. В проекте используется как основная численная метрика
+сравнения базовой и дообученной моделей.
+
+### Positional embedding (позиционный эмбеддинг)
+
+Векторное представление позиции токена в последовательности, добавляемое
+к токеновому эмбеддингу. Позволяет модели учитывать порядок элементов
+(сам по себе self-attention перестановочно-инвариантен). В проекте
+используются обучаемые позиционные эмбеддинги.
+
+### Pre-norm vs post-norm
+
+Два варианта размещения LayerNorm в блоке трансформера: до residual
+connection (pre-norm) или после (post-norm). Pre-norm обычно более
+стабилен при обучении. В проекте используется pre-norm.
+
+### Предобучение (pre-training)
+
+Этап обучения модели на большом и общем по содержанию корпусе данных,
+после которого следует адаптация модели к более узкой задаче или домену.
+В проекте предобучение выполняется на McGill Billboard Project.
+
+### Ранняя остановка (early stopping)
+
+Приём, прекращающий обучение, когда метрика на валидационной выборке
+перестаёт улучшаться на протяжении заданного числа эпох. Предотвращает
+переобучение. В проекте используется с параметром терпения 5 эпох.
+
+### Round-trip эквивалентность
+
+Свойство пары взаимно обратных преобразований: при последовательном
+применении прямого и обратного преобразования исходное представление
+восстанавливается с точностью до канонической нормализации. В проекте
+требуется для пары «парсинг + токенизация / детокенизация + сериализация»
+и проверяется автоматизированными тестами.
+
+### Self-attention
+
+Механизм внимания, в котором последовательность взаимодействует сама с
+собой: для каждой позиции рассчитываются взвешенные средние значений с
+других позиций, веса определяются скалярными произведениями обучаемых
+проекций. Центральный элемент архитектуры трансформера.
+
+### Softmax с температурой
+
+Модификация softmax, в которой логиты предварительно делятся на
+параметр температуры. При температуре больше 1 распределение становится
+более равномерным (генерация разнообразнее), при меньше 1 — более
+концентрированным (генерация консервативнее). По умолчанию в проекте — 1.0.
+
+### Tied weights (связанные веса)
+
+Приём, при котором веса входного эмбеддинга и финальной проекции на
+словарь совпадают (одна и та же матрица). Снижает число параметров и
+часто улучшает обобщающую способность. Применяется в проекте.
+
+### Токен
+
+Элементарная единица обработки модели — целочисленный идентификатор
+из конечного словаря. В данном проекте словарь содержит 81 токен,
+обозначающих служебные значения, метаданные периода и компоненты
+аккордов.
+
+### Токенизация
+
+Преобразование исходного представления данных в последовательность
+токенов. В проекте — преобразование `.chord`-файла в последовательность
+целочисленных идентификаторов.
+
+### Тренировочная и валидационная выборки (train / val)
+
+Разбиение обучающих данных: тренировочная выборка используется для
+обновления весов модели, валидационная — для контроля переобучения и
+выбора лучшего чекпоинта. В проекте используется разбиение 90/10. Кроме
+того, отдельно выделяется отложенная выборка (см. _Holdout_).
+
+### Warmup (разогрев)
+
+Начальная фаза обучения, в течение которой learning rate линейно растёт
+от нуля до целевого значения. Стабилизирует обучение трансформеров на
+первых шагах. В проекте — 5% от общего числа шагов.
+
+### Чекпоинт
+
+Сохранённое на диск состояние модели (веса, конфигурация, опционально
+состояние оптимизатора), пригодное для возобновления обучения или для
+инференса. В проекте сохраняются чекпоинты `pretrained.pt` и
+`finetuned.pt`.
+
+---
+
+## 3. Проектные термины
+
+### `.chord`-файл
+
+Текстовый файл в формате, описанном в `docs/chord_format_spec.md`. Содержит
+шапку с метаданными периода и тело — последовательность тактов с
+аккордовыми символами. Один файл = один гармонический период.
+
+### hamori
+
+Название проекта. Транслитерация японского слова ハモリ, означающего
+вокальную гармонизацию — практику добавления второго или третьего голоса
+к основной мелодической линии в певческом ансамбле. Само слово образовано
+от глагола ハモる (_hamoru_) — «гармонизировать», в свою очередь
+заимствованного из английского _harmony_. Название отражает основную
+функциональную идею проекта: модель не пишет музыку с нуля, а предлагает
+гармонические идеи в дополнение к замыслу композитора.
+
+### BAR (токен)
+
+Служебный токен, отмечающий конец такта в токенизированной
+последовательности. Помогает модели усваивать ритмическую сетку периода.
+
+### `<BOS>`, `<EOS>`, `<PAD>`, `<UNK>`
+
+Служебные токены словаря: начало последовательности, конец последовательности,
+паддинг и неизвестный токен соответственно.
+
+### `ChordTokens`
+
+Dataclass, представляющий разобранный аккорд: четыре строковых поля —
+`root`, `quality`, `extension`, `bass`. Является промежуточным
+представлением между текстовым аккордовым символом и токенами модели.
+
+### `ChordPeriod`
+
+Dataclass, представляющий полностью разобранный гармонический период:
+метаданные шапки и список тактов, каждый из которых — список позиций.
+Является промежуточным представлением между `.chord`-файлом и токенами.
+
+### `ChordFormatError` / `ChordParseError`
+
+Типы исключений, поднимаемые при некорректном формате файла или
+некорректном аккордовом символе соответственно. Содержат информативные
+сообщения с указанием места ошибки.
+
+### EXT (расширение)
+
+Один из четырёх слотов токенизации аккорда. Кодирует расширение аккорда:
+`EXT_none` (расширения нет), `EXT_9`, `EXT_b9`, `EXT_#9`, `EXT_11`,
+`EXT_#11`, `EXT_13`, `EXT_b13`. Восемь возможных значений.
+
+### FUNC (функциональная роль)
+
+Метатокен периода, указывающий на функциональную роль в исходной пьесе.
+Возможные значения: `FUNC_verse`, `FUNC_chorus`, `FUNC_prechorus`,
+`FUNC_bridge`, `FUNC_intro`, `FUNC_outro`, `FUNC_interlude`, `FUNC_other`,
+`FUNC_unspecified`.
+
+### HOLD (токен)
+
+Служебный токен, означающий, что текущая позиция продолжает звучание
+предыдущего аккорда. Использование `HOLD` существенно сокращает длину
+последовательности по сравнению с повторением всех четырёх токенов
+аккорда.
+
+### MODE (лад)
+
+Метатокен периода, указывающий на лад. Только два значения: `MODE_major`
+для мажора и `MODE_minor` для минора. После нормализующей транспозиции
+этот токен — единственный носитель информации о ладе в обучающих данных.
+
+### NC (No Chord)
+
+Специальное значение позиции, обозначающее паузу в гармонии — отсутствие
+аккорда. Применяется, например, в анакрузах. Имеет соответствующий
+служебный токен `NC` в словаре.
+
+### Нормализующая транспозиция
+
+Преобразование, переводящее любой период в каноническую тональность:
+мажорные периоды — в C major, минорные — в A minor. Применяется перед
+токенизацией. На инференсе обратное преобразование возвращает результат
+в требуемую пользователем тональность.
+
+### Период (см. также _Гармонический период_ в музыкальной части)
+
+Единица обработки и генерации в проекте. Замкнутая гармоническая фраза
+4–16 тактов, представленная одним `.chord`-файлом.
+
+### QUAL (качество)
+
+Один из четырёх слотов токенизации аккорда. Кодирует качество аккорда:
+`QUAL_maj`, `QUAL_m`, `QUAL_dim`, `QUAL_aug`, `QUAL_sus2`, `QUAL_sus4`,
+`QUAL_maj7`, `QUAL_m7`, `QUAL_7`, `QUAL_m7b5`, `QUAL_dim7`, `QUAL_mM7`,
+`QUAL_7sus4`, `QUAL_aug7`, `QUAL_6`, `QUAL_m6`, `QUAL_add9`,
+`QUAL_m_add9`. Восемнадцать возможных значений.
+
+### ROOT (корень)
+
+Один из четырёх слотов токенизации аккорда. Кодирует корневой тон:
+`ROOT_C`, `ROOT_C#`, ..., `ROOT_B`. Двенадцать возможных значений.
+
+### BASS (бас)
+
+Один из четырёх слотов токенизации аккорда. Кодирует басовый тон:
+`BASS_root` (бас совпадает с корнем) или конкретная нота
+(`BASS_C`, `BASS_C#`, ..., `BASS_B`). Тринадцать возможных значений.
+
+### Стилевой тег (STYLE)
+
+Метатокен периода, указывающий на стилистическую принадлежность.
+Возможные значения: `STYLE_user` (собственный корпус автора), `STYLE_jpop`
+(японская поп-музыка), `STYLE_classical` (классическая музыка),
+`STYLE_jazz` (джазовая музыка), `STYLE_other` (прочее, включая публичные
+корпуса вроде McGill Billboard). Может использоваться как conditioning
+на инференсе.
+
+### SUB (подразделение доли)
+
+Метатокен периода, указывающий, как делится такт на временные позиции.
+Возможные значения: `SUB_4` (по четвертям) и `SUB_8` (по восьмым).
+
+### TIME (тактовый размер)
+
+Метатокен периода, указывающий тактовый размер. Возможные значения:
+`TIME_4/4`, `TIME_3/4`, `TIME_6/8`, `TIME_2/4`, `TIME_12/8`.
+
+### Шапка файла
+
+Часть `.chord`-файла, содержащая метаданные периода. Строки шапки
+начинаются с символа `#` и имеют вид `# key: value`. Шапка обязательно
+содержит поля `title`, `key`, `time`, `subdivision`, `style` и
+опционально — `function`.
+
+---
+
+## 4. История изменений
+
+- **1.0** (2026-05-19) — первоначальная редакция документа.
@@ -0,0 +1,467 @@
+# Требования к проекту hamori
+
+**Версия документа:** 1.0
+**Дата:** 2026-05-19
+
+Документ описывает функциональные и нефункциональные требования к проекту
+_hamori_ — генератору гармонических периодов в авторском композиторском
+стиле. Описываются ограничения, критерии приёмки и явно выведенные за рамки
+возможности.
+
+---
+
+## 1. Контекст и цели проекта
+
+### 1.1 Постановка задачи
+
+Разработать генеративную нейросетевую модель, способную создавать
+гармонические последовательности заданной длины и стилистики, обученную в
+том числе на корпусе собственных произведений автора, с целью использования
+получившейся модели как творческого инструмента в композиторской работе.
+
+### 1.2 Заинтересованные стороны
+
+| Сторона                               | Интерес                                                                                                               |
+| ------------------------------------- | --------------------------------------------------------------------------------------------------------------------- |
+| Автор-разработчик (студент)           | Закрытие курсовой дисциплины, получение работающего инструмента для собственной композиторской практики               |
+| Преподаватель курса                   | Демонстрация владения полным циклом ML-проекта: постановка задачи, подготовка данных, обучение, оценка, интерпретация |
+| Потенциальные читатели исходного кода | Понимание принятых архитектурных решений и возможность повторного использования компонентов                           |
+
+### 1.3 Учебные цели
+
+Демонстрация компетенций в следующих областях машинного обучения:
+
+- Проектирование задачи генерации последовательностей в условиях ограниченного
+  объёма обучающих данных.
+- Выбор и реализация архитектуры авторегрессионной модели для дискретных
+  последовательностей.
+- Подготовка и токенизация специализированного датасета.
+- Применение схемы предобучение / дообучение.
+- Количественная и качественная оценка генеративной модели.
+- Анализ распределений и интерпретация результатов.
+
+### 1.4 Прикладные цели
+
+Получение программного инструмента, обладающего следующими функциональными
+характеристиками:
+
+- Принимает на вход параметры желаемой гармонической последовательности.
+- Принимает опциональную гармоническую затравку из нескольких аккордов.
+- Генерирует последовательность аккордов, согласованную с заданными параметрами
+  и стилистически приближенную к авторскому корпусу.
+- Сохраняет результат в формате, пригодном для непосредственного использования
+  в цифровой звуковой рабочей станции.
+
+---
+
+## 2. Ограничения
+
+### 2.1 Временные ограничения
+
+Жёсткий срок реализации: менее одного календарного месяца с момента начала
+работ. Бюджет ручного труда автора: около 50 часов.
+
+Распределение времени:
+
+- Подготовка инфраструктуры данных: ~12 часов.
+- Ручная транскрипция собственного корпуса: ~10–15 часов.
+- Реализация модели и обучение: ~12 часов.
+- Оценка и подготовка примеров: ~6 часов.
+- Написание отчёта и оформление: ~10 часов.
+
+### 2.2 Ресурсные ограничения
+
+Аппаратные ресурсы: персональный ноутбук автора. Использование облачных
+GPU-ресурсов (Google Colab) допустимо, но не должно быть критически
+необходимым — модель проектируется так, чтобы обучение было выполнимо на CPU.
+
+Программные ресурсы: открытое программное обеспечение, бесплатные публичные
+датасеты.
+
+### 2.3 Ограничения по данным
+
+Объём собственного корпуса автора ограничен числом существующих
+композиторских работ и временем, доступным на ручную транскрипцию.
+Реалистичный ориентир: 80–150 гармонических периодов из 20–25 пьес.
+
+Это значение на два-три порядка меньше типичного объёма данных, на которых
+обучаются современные музыкальные генеративные модели. Из этого ограничения
+вытекает принципиальное архитектурное решение: модель должна использовать
+схему «предобучение на публичном корпусе плюс дообучение на собственном
+корпусе», обучение с нуля исключительно на собственных данных нецелесообразно.
+
+### 2.4 Языковые требования
+
+Согласно требованиям учебного заведения:
+
+- Итоговый отчёт оформляется на русском языке по стандартам ГОСТ для
+  студенческих работ.
+- Документация для пользователя (README, спецификация формата, описания
+  архитектуры) ведётся на русском языке.
+- Технические артефакты кода (идентификаторы, комментарии, сообщения логов,
+  сообщения коммитов) ведутся на английском языке для совместимости с
+  общепринятыми стандартами разработки и удобства совместной работы с
+  инструментами вроде Claude Code.
+
+---
+
+## 3. Функциональные требования
+
+### 3.1 Подсистема работы с форматом данных
+
+**ФТ-1.** Система должна поддерживать чтение `.chord`-файлов в формате,
+описанном в `docs/chord_format_spec.md` версии 2.0, включая:
+
+- Парсинг шапки с метаданными.
+- Парсинг тела файла, состоящего из последовательности тактов.
+- Распознавание аккордовых символов по правилам §4 спецификации.
+- Поддержку всех восемнадцати базовых качеств аккордов с альтернативными
+  написаниями.
+- Поддержку расширений аккордов (одиночный слот).
+- Поддержку слэш-нотации для инверсий.
+- Распознавание специальных значений (точка для удержания, `NC` для паузы,
+  `?` для неизвестного аккорда).
+
+**ФТ-2.** Система должна выполнять валидацию `.chord`-файлов:
+
+- Проверять корректность шапки (все обязательные поля присутствуют, значения
+  входят в допустимые множества).
+- Проверять, что число позиций в каждом такте соответствует тактовому
+  размеру и подразделению доли.
+- Поднимать информативные ошибки с указанием имени файла, номера такта и
+  позиции при обнаружении нарушений.
+
+**ФТ-3.** Система должна выполнять нормализующую транспозицию:
+все мажорные периоды приводятся к тональности C major, минорные — к A minor.
+
+**ФТ-4.** Система должна выполнять токенизацию `.chord`-файлов в
+последовательности целочисленных идентификаторов согласно словарю,
+описанному в §5 спецификации формата. Словарь содержит 81 токен.
+
+**ФТ-5.** Система должна поддерживать обратную детокенизацию: преобразование
+последовательности целочисленных идентификаторов обратно в `.chord`-файл,
+с последующей опциональной транспозицией в произвольную тональность.
+
+**ФТ-6.** Система должна обеспечивать round-trip эквивалентность: для
+любого корректного `.chord`-файла операция `parse → tokenize → detokenize →
+serialize` должна давать `.chord`-файл, эквивалентный исходному по
+гармоническому содержанию.
+
+### 3.2 Подсистема экспорта в MIDI
+
+**ФТ-7.** Система должна обеспечивать экспорт `.chord`-файлов в стандартный
+формат MIDI с двумя треками: трек аккордов и трек баса. Темп задаётся
+параметром, по умолчанию 90 ударов в минуту.
+
+**ФТ-8.** Длительности нот в MIDI должны соответствовать длительностям
+удержания аккордов в исходном `.chord`-файле.
+
+### 3.3 Подсистема конвертации внешних корпусов
+
+**ФТ-9.** Система должна предоставлять конвертер McGill Billboard Project →
+формат `.chord`, выполняющий:
+
+- Чтение Harte-нотации.
+- Разрезание исходных пьес на гармонические периоды по границам секций.
+- Сохранение каждого периода как отдельного `.chord`-файла.
+- Простановку стилевого тега и функциональной роли в шапке.
+
+**ФТ-10.** Конвертер должен быть устойчив к некорректным или неполным
+аннотациям в исходном корпусе: периоды, которые не могут быть однозначно
+сконвертированы, пропускаются с записью в лог, выполнение скрипта при этом
+не прерывается.
+
+### 3.4 Подсистема обучения
+
+**ФТ-11.** Система должна реализовывать архитектуру авторегрессионного
+трансформера со следующими параметрами:
+
+- Количество слоёв: настраиваемое, 2–4 по умолчанию.
+- Размерность модели: настраиваемая, 128–256 по умолчанию.
+- Число голов внимания: настраиваемое, 4–8 по умолчанию.
+- Контекстное окно: 512 токенов.
+- Связанные веса входного и выходного эмбеддингов.
+
+**ФТ-12.** Система должна предоставлять единый скрипт обучения, параметризуемый
+аргументами командной строки, поддерживающий:
+
+- Обучение модели с нуля (предобучение).
+- Дообучение существующей модели (fine-tuning) — через параметр инициализации
+  весов из указанного чекпоинта.
+- Настройку всех ключевых гиперпараметров через аргументы.
+- Установку случайного зерна для воспроизводимости.
+- Автоматический выбор вычислительного устройства (CPU/GPU) с возможностью
+  принудительного задания.
+
+**ФТ-13.** В процессе обучения система должна:
+
+- Логировать значения функции потерь на тренировочной и валидационной
+  выборках после каждой эпохи.
+- Логировать перплексию на валидационной выборке.
+- Сохранять лучший по валидационной потере чекпоинт.
+- Поддерживать раннюю остановку по валидационной потере с настраиваемым
+  параметром терпения.
+- Сохранять полный лог обучения в формате CSV.
+
+### 3.5 Подсистема инференса
+
+**ФТ-14.** Система должна предоставлять CLI-инструмент генерации со
+следующими настраиваемыми параметрами:
+
+- Путь к чекпоинту модели.
+- Лад (мажор / минор).
+- Тональность (любой из 12 классов высоты).
+- Тактовый размер.
+- Подразделение доли.
+- Стилевой тег.
+- Функциональная роль.
+- Опциональная гармоническая затравка (последовательность аккордовых символов).
+- Температура сэмплирования.
+- Параметр top-p (nucleus sampling).
+- Максимальное число токенов.
+- Случайное зерно.
+- Пути для сохранения `.chord`- и MIDI-файлов.
+
+**ФТ-15.** Инференс должен использовать nucleus sampling с настраиваемой
+температурой. Beam search не используется.
+
+**ФТ-16.** Система должна предотвращать генерацию грамматически невалидных
+последовательностей токенов (например, токена расширения сразу после токена
+удержания) через маскирование невалидных кандидатов на каждом шаге.
+
+### 3.6 Подсистема оценки
+
+**ФТ-17.** Система должна предоставлять скрипт оценки, принимающий на вход
+два чекпоинта (базовый и целевой) и отложенную выборку, и формирующий:
+
+- Численные метрики перплексии для обеих моделей.
+- Графики распределений по ключевым гармоническим признакам.
+- Сгенерированные образцы для качественного сравнения.
+
+**ФТ-18.** Графики распределений должны включать:
+
+- Распределение типов качеств аккордов.
+- Долю аккордов с расширениями.
+- Долю аккордов с инверсиями.
+- Распределение интервалов движения корня.
+- Распределение наиболее частых пар «корень-корень» (биграммы).
+
+Каждый график должен показывать baseline-распределение и target-распределение
+на одной координатной плоскости с легендой.
+
+---
+
+## 4. Нефункциональные требования
+
+### 4.1 Производительность
+
+**НФТ-1.** Парсинг одного `.chord`-файла должен выполняться менее чем за
+100 миллисекунд на стандартном персональном компьютере.
+
+**НФТ-2.** Один проход обучения по тренировочной выборке (одна эпоха) на
+полном McGill корпусе должен укладываться в 10 минут на CPU современного
+ноутбука.
+
+**НФТ-3.** Генерация одного периода должна занимать менее 10 секунд на CPU.
+
+### 4.2 Корректность
+
+**НФТ-4.** Парсер аккордовых символов должен корректно обрабатывать все
+примеры, перечисленные в §4.6 спецификации формата.
+
+**НФТ-5.** Round-trip эквивалентность (см. ФТ-6) должна подтверждаться
+автоматизированными тестами для всех тестовых фикстур.
+
+**НФТ-6.** Транспозиция должна быть точной: после транспозиции мажорного
+периода в C major все аккорды должны находиться в правильных функциональных
+отношениях с новой тоникой.
+
+### 4.3 Воспроизводимость
+
+**НФТ-7.** Все скрипты обучения, инференса и оценки должны принимать параметр
+случайного зерна и устанавливать его одновременно для PyTorch, NumPy и
+стандартного модуля random.
+
+**НФТ-8.** При фиксированном случайном зерне и идентичных входных данных
+запуски обучения должны давать численно воспроизводимые результаты.
+
+**НФТ-9.** Все эксперименты, упомянутые в итоговом отчёте, должны быть
+воспроизводимы посредством запуска документированных команд.
+
+### 4.4 Надёжность работы с данными
+
+**НФТ-10.** Невалидные или непарсимые аккордовые символы должны вызывать
+явные ошибки с информативным сообщением. Тихая подмена неизвестных символов
+на «ближайшие» категорически запрещена: это приводит к молчаливому
+повреждению обучающего корпуса.
+
+**НФТ-11.** Файлы из отложенной выборки не должны использоваться на этапах
+тренировки или валидации. Любой скрипт подготовки данных, при обнаружении
+файла в `data/holdout/`, должен направлять его в отдельную holdout-выборку.
+
+### 4.5 Сопровождаемость
+
+**НФТ-12.** Все публичные функции в модулях `src/` должны иметь аннотации
+типов и краткие docstrings.
+
+**НФТ-13.** Логика парсинга, токенизации и MIDI-экспорта должна покрываться
+модульными тестами с использованием pytest.
+
+**НФТ-14.** Спецификация формата `.chord` является контрактом между уровнем
+человекочитаемых данных и уровнем обучения модели. Любые изменения формата
+должны сопровождаться обновлением `docs/chord_format_spec.md` и инкрементом
+номера версии спецификации.
+
+### 4.6 Удобство использования
+
+**НФТ-15.** Каждый CLI-скрипт должен поддерживать флаг `--help` с
+информативным описанием параметров.
+
+**НФТ-16.** Сообщения об ошибках должны содержать достаточно информации для
+самостоятельного устранения проблемы пользователем: имя файла, номер строки,
+характер нарушения, ожидаемое значение.
+
+---
+
+## 5. Критерии приёмки
+
+Проект считается завершённым при выполнении всех нижеперечисленных условий.
+
+### 5.1 Учебные критерии
+
+| ID   | Критерий                                                                                                    |
+| ---- | ----------------------------------------------------------------------------------------------------------- |
+| УК-1 | Реализован полный цикл подготовки данных, обучения, инференса и оценки.                                     |
+| УК-2 | Имеется как минимум одна обученная модель, прошедшая стадии предобучения и дообучения.                      |
+| УК-3 | Подготовлен итоговый отчёт, оформленный по стандартам ГОСТ для учебных работ.                               |
+| УК-4 | Отчёт содержит количественное сравнение базовой и дообученной моделей.                                      |
+| УК-5 | Отчёт содержит качественные примеры сгенерированных периодов.                                               |
+| УК-6 | Все эксперименты, упомянутые в отчёте, воспроизводимы по командам, приведённым в README или в самом отчёте. |
+
+### 5.2 Технические критерии
+
+| ID   | Критерий                                                                                                        |
+| ---- | --------------------------------------------------------------------------------------------------------------- |
+| ТК-1 | Все автоматизированные тесты проходят.                                                                          |
+| ТК-2 | Round-trip эквивалентность парсера-токенизатора подтверждена на всех тестовых фикстурах.                        |
+| ТК-3 | Транспозиция протестирована для мажорных и минорных периодов с разными исходными тональностями.                 |
+| ТК-4 | Модель обучается до сходимости (валидационная потеря выходит на плато или снижается монотонно).                 |
+| ТК-5 | Перплексия дообученной модели на отложенной выборке ниже перплексии базовой модели на той же выборке.           |
+| ТК-6 | На графиках распределений виден заметный сдвиг от baseline в сторону характеристик собственного корпуса автора. |
+
+### 5.3 Прикладные критерии
+
+| ID   | Критерий                                                                                                                             |
+| ---- | ------------------------------------------------------------------------------------------------------------------------------------ |
+| ПК-1 | Автор может сгенерировать гармоническую последовательность по произвольным входным параметрам и воспроизвести её в DAW.              |
+| ПК-2 | Сгенерированные последовательности отличаются от случайного шума: соблюдается тональная стабильность, аккорды функционально связаны. |
+| ПК-3 | На качественном уровне в нескольких из сгенерированных примеров автор слышит элементы собственного стиля.                            |
+
+---
+
+## 6. Намеренно выведенное за рамки
+
+Перечисленные ниже возможности **не входят** в требования к текущей версии
+проекта. Их реализация может рассматриваться как направления дальнейшего
+развития после защиты курсовой работы.
+
+| Возможность                                        | Причина выведения                                                                        |
+| -------------------------------------------------- | ---------------------------------------------------------------------------------------- |
+| Генерация мелодической линии                       | Кратно увеличивает сложность задачи; не помещается в срок                                |
+| Расположение голосов в аккорде (voicing) выше баса | Требует существенно большего датасета; ручная реализация в DAW проще                     |
+| Ритмический паттерн внутри удержания аккорда       | Требует моделирования времени с большим разрешением; не критично для задачи              |
+| Дообучение на корпусе японской поп-музыки          | Запланировано как отдельный последующий эксперимент                                      |
+| Графический интерфейс                              | Не добавляет ценности с точки зрения учебных целей; занимает время                       |
+| Прямая интеграция с REAPER                         | Обмен через MIDI-файлы достаточен и проще в реализации                                   |
+| Сравнение нескольких архитектур модели             | Не помещается в срок; выбрана одна архитектура с обоснованием                            |
+| Слепой listening-тест с привлечением слушателей    | Не помещается в срок; используются качественные примеры                                  |
+| Обработка модуляций внутри одного периода          | Решено разрезанием периодов по точке модуляции                                           |
+| Поддержка микротональных аккордов                  | Не встречается в целевом материале; округление до темперированного эквивалента           |
+| Поддержка полиаккордов                             | Редкое явление в целевом материале; запись через слэш-нотацию или ближайший single chord |
+
+---
+
+## 7. Сценарии использования
+
+### 7.1 Сценарий У-1. Транскрипция собственной пьесы
+
+**Действующее лицо:** автор-композитор.
+
+**Предусловия:** в DAW-проекте имеется готовая пьеса с гармонической
+структурой, доступной анализу. Установлена и настроена среда разработки.
+
+**Основной поток:**
+
+1. Автор прослушивает пьесу и определяет границы периодов.
+2. Для каждого периода создаёт `.chord`-файл и заполняет шапку.
+3. Транскрибирует гармонию по позициям, фиксируя инверсии и расширения.
+4. Запускает валидатор формата для проверки корректности.
+5. Экспортирует периоды в MIDI и прослушивает в DAW параллельно с оригиналом.
+6. Корректирует транскрипцию в случае расхождений.
+
+**Постусловия:** в `data/raw_user/` появились новые `.chord`-файлы,
+прошедшие валидацию.
+
+### 7.2 Сценарий У-2. Полный цикл обучения
+
+**Действующее лицо:** автор-композитор.
+
+**Предусловия:** подготовлен собственный корпус и сконвертирован публичный
+корпус.
+
+**Основной поток:**
+
+1. Запуск скрипта подготовки данных для публичного корпуса.
+2. Запуск скрипта подготовки данных для собственного корпуса.
+3. Запуск скрипта предобучения, ожидание сходимости.
+4. Запуск скрипта дообучения с инициализацией из чекпоинта предобучения.
+5. Запуск скрипта оценки для сравнения базовой и дообученной моделей.
+6. Анализ полученных графиков и метрик.
+
+**Постусловия:** в `checkpoints/` сохранены обученные модели, в `reports/`
+сформированы графики и численные метрики.
+
+### 7.3 Сценарий У-3. Генерация гармонической идеи
+
+**Действующее лицо:** автор-композитор в процессе работы над новой пьесой.
+
+**Предусловия:** имеется обученная модель.
+
+**Основной поток:**
+
+1. Автор определяет желаемые параметры будущего периода: тональность,
+   функциональную роль, общий характер.
+2. Запускает скрипт генерации с этими параметрами.
+3. Получает `.chord`-файл и MIDI-файл результата.
+4. Открывает MIDI-файл в DAW и прослушивает.
+5. В случае удовлетворительного результата — переносит гармоническую
+   последовательность в свой композиторский проект.
+6. В противном случае — повторяет генерацию с другим случайным зерном или
+   другими параметрами сэмплирования.
+
+**Постусловия:** автор получает гармоническую идею в требуемом стилистическом
+ключе.
+
+### 7.4 Сценарий У-4. Продолжение начатой идеи
+
+**Действующее лицо:** автор-композитор, у которого уже есть начало
+гармонической последовательности.
+
+**Предусловия:** имеется обученная модель и сформулированная гармоническая
+затравка из нескольких аккордов.
+
+**Основной поток:**
+
+1. Автор формулирует затравку в виде строки аккордовых символов.
+2. Запускает скрипт генерации с параметром `--prefix`.
+3. Модель достраивает остаток периода с учётом затравки.
+4. Получает MIDI и прослушивает.
+
+**Постусловия:** автор получает варианты продолжения для своей гармонической
+идеи.
+
+---
+
+## 8. История изменений
+
+- **1.0** (2026-05-19) — первоначальная редакция документа.