docs: add README, architecture, glossary, requirements; update CLAUDE.md

Add four Russian-language project documents: - README.md: user-facing guide (install, quick start, data prep, training, evaluation, limitations) - docs/architecture.md v1.0: system architecture, data flow diagrams, module interfaces, 7 architectural decision records, extension points - docs/glossary.md v1.0: musical, ML, and project-specific term definitions - docs/requirements.md v1.0: functional/non-functional requirements, acceptance criteria, four use-case scenarios Update CLAUDE.md with project name etymology (hamori / ハモリ) and rename repo root reference from chord-gen to hamori. Refine chord_format_spec.md. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-19 11:00:21 +03:00
parent 9929209bcf
commit 75fa07bf6c
6 changed files with 2312 additions and 5 deletions
@@ -0,0 +1,467 @@
+# Требования к проекту hamori
+
+**Версия документа:** 1.0
+**Дата:** 2026-05-19
+
+Документ описывает функциональные и нефункциональные требования к проекту
+_hamori_ — генератору гармонических периодов в авторском композиторском
+стиле. Описываются ограничения, критерии приёмки и явно выведенные за рамки
+возможности.
+
+---
+
+## 1. Контекст и цели проекта
+
+### 1.1 Постановка задачи
+
+Разработать генеративную нейросетевую модель, способную создавать
+гармонические последовательности заданной длины и стилистики, обученную в
+том числе на корпусе собственных произведений автора, с целью использования
+получившейся модели как творческого инструмента в композиторской работе.
+
+### 1.2 Заинтересованные стороны
+
+| Сторона                               | Интерес                                                                                                               |
+| ------------------------------------- | --------------------------------------------------------------------------------------------------------------------- |
+| Автор-разработчик (студент)           | Закрытие курсовой дисциплины, получение работающего инструмента для собственной композиторской практики               |
+| Преподаватель курса                   | Демонстрация владения полным циклом ML-проекта: постановка задачи, подготовка данных, обучение, оценка, интерпретация |
+| Потенциальные читатели исходного кода | Понимание принятых архитектурных решений и возможность повторного использования компонентов                           |
+
+### 1.3 Учебные цели
+
+Демонстрация компетенций в следующих областях машинного обучения:
+
+- Проектирование задачи генерации последовательностей в условиях ограниченного
+  объёма обучающих данных.
+- Выбор и реализация архитектуры авторегрессионной модели для дискретных
+  последовательностей.
+- Подготовка и токенизация специализированного датасета.
+- Применение схемы предобучение / дообучение.
+- Количественная и качественная оценка генеративной модели.
+- Анализ распределений и интерпретация результатов.
+
+### 1.4 Прикладные цели
+
+Получение программного инструмента, обладающего следующими функциональными
+характеристиками:
+
+- Принимает на вход параметры желаемой гармонической последовательности.
+- Принимает опциональную гармоническую затравку из нескольких аккордов.
+- Генерирует последовательность аккордов, согласованную с заданными параметрами
+  и стилистически приближенную к авторскому корпусу.
+- Сохраняет результат в формате, пригодном для непосредственного использования
+  в цифровой звуковой рабочей станции.
+
+---
+
+## 2. Ограничения
+
+### 2.1 Временные ограничения
+
+Жёсткий срок реализации: менее одного календарного месяца с момента начала
+работ. Бюджет ручного труда автора: около 50 часов.
+
+Распределение времени:
+
+- Подготовка инфраструктуры данных: ~12 часов.
+- Ручная транскрипция собственного корпуса: ~10–15 часов.
+- Реализация модели и обучение: ~12 часов.
+- Оценка и подготовка примеров: ~6 часов.
+- Написание отчёта и оформление: ~10 часов.
+
+### 2.2 Ресурсные ограничения
+
+Аппаратные ресурсы: персональный ноутбук автора. Использование облачных
+GPU-ресурсов (Google Colab) допустимо, но не должно быть критически
+необходимым — модель проектируется так, чтобы обучение было выполнимо на CPU.
+
+Программные ресурсы: открытое программное обеспечение, бесплатные публичные
+датасеты.
+
+### 2.3 Ограничения по данным
+
+Объём собственного корпуса автора ограничен числом существующих
+композиторских работ и временем, доступным на ручную транскрипцию.
+Реалистичный ориентир: 80–150 гармонических периодов из 20–25 пьес.
+
+Это значение на два-три порядка меньше типичного объёма данных, на которых
+обучаются современные музыкальные генеративные модели. Из этого ограничения
+вытекает принципиальное архитектурное решение: модель должна использовать
+схему «предобучение на публичном корпусе плюс дообучение на собственном
+корпусе», обучение с нуля исключительно на собственных данных нецелесообразно.
+
+### 2.4 Языковые требования
+
+Согласно требованиям учебного заведения:
+
+- Итоговый отчёт оформляется на русском языке по стандартам ГОСТ для
+  студенческих работ.
+- Документация для пользователя (README, спецификация формата, описания
+  архитектуры) ведётся на русском языке.
+- Технические артефакты кода (идентификаторы, комментарии, сообщения логов,
+  сообщения коммитов) ведутся на английском языке для совместимости с
+  общепринятыми стандартами разработки и удобства совместной работы с
+  инструментами вроде Claude Code.
+
+---
+
+## 3. Функциональные требования
+
+### 3.1 Подсистема работы с форматом данных
+
+**ФТ-1.** Система должна поддерживать чтение `.chord`-файлов в формате,
+описанном в `docs/chord_format_spec.md` версии 2.0, включая:
+
+- Парсинг шапки с метаданными.
+- Парсинг тела файла, состоящего из последовательности тактов.
+- Распознавание аккордовых символов по правилам §4 спецификации.
+- Поддержку всех восемнадцати базовых качеств аккордов с альтернативными
+  написаниями.
+- Поддержку расширений аккордов (одиночный слот).
+- Поддержку слэш-нотации для инверсий.
+- Распознавание специальных значений (точка для удержания, `NC` для паузы,
+  `?` для неизвестного аккорда).
+
+**ФТ-2.** Система должна выполнять валидацию `.chord`-файлов:
+
+- Проверять корректность шапки (все обязательные поля присутствуют, значения
+  входят в допустимые множества).
+- Проверять, что число позиций в каждом такте соответствует тактовому
+  размеру и подразделению доли.
+- Поднимать информативные ошибки с указанием имени файла, номера такта и
+  позиции при обнаружении нарушений.
+
+**ФТ-3.** Система должна выполнять нормализующую транспозицию:
+все мажорные периоды приводятся к тональности C major, минорные — к A minor.
+
+**ФТ-4.** Система должна выполнять токенизацию `.chord`-файлов в
+последовательности целочисленных идентификаторов согласно словарю,
+описанному в §5 спецификации формата. Словарь содержит 81 токен.
+
+**ФТ-5.** Система должна поддерживать обратную детокенизацию: преобразование
+последовательности целочисленных идентификаторов обратно в `.chord`-файл,
+с последующей опциональной транспозицией в произвольную тональность.
+
+**ФТ-6.** Система должна обеспечивать round-trip эквивалентность: для
+любого корректного `.chord`-файла операция `parse → tokenize → detokenize →
+serialize` должна давать `.chord`-файл, эквивалентный исходному по
+гармоническому содержанию.
+
+### 3.2 Подсистема экспорта в MIDI
+
+**ФТ-7.** Система должна обеспечивать экспорт `.chord`-файлов в стандартный
+формат MIDI с двумя треками: трек аккордов и трек баса. Темп задаётся
+параметром, по умолчанию 90 ударов в минуту.
+
+**ФТ-8.** Длительности нот в MIDI должны соответствовать длительностям
+удержания аккордов в исходном `.chord`-файле.
+
+### 3.3 Подсистема конвертации внешних корпусов
+
+**ФТ-9.** Система должна предоставлять конвертер McGill Billboard Project →
+формат `.chord`, выполняющий:
+
+- Чтение Harte-нотации.
+- Разрезание исходных пьес на гармонические периоды по границам секций.
+- Сохранение каждого периода как отдельного `.chord`-файла.
+- Простановку стилевого тега и функциональной роли в шапке.
+
+**ФТ-10.** Конвертер должен быть устойчив к некорректным или неполным
+аннотациям в исходном корпусе: периоды, которые не могут быть однозначно
+сконвертированы, пропускаются с записью в лог, выполнение скрипта при этом
+не прерывается.
+
+### 3.4 Подсистема обучения
+
+**ФТ-11.** Система должна реализовывать архитектуру авторегрессионного
+трансформера со следующими параметрами:
+
+- Количество слоёв: настраиваемое, 2–4 по умолчанию.
+- Размерность модели: настраиваемая, 128–256 по умолчанию.
+- Число голов внимания: настраиваемое, 4–8 по умолчанию.
+- Контекстное окно: 512 токенов.
+- Связанные веса входного и выходного эмбеддингов.
+
+**ФТ-12.** Система должна предоставлять единый скрипт обучения, параметризуемый
+аргументами командной строки, поддерживающий:
+
+- Обучение модели с нуля (предобучение).
+- Дообучение существующей модели (fine-tuning) — через параметр инициализации
+  весов из указанного чекпоинта.
+- Настройку всех ключевых гиперпараметров через аргументы.
+- Установку случайного зерна для воспроизводимости.
+- Автоматический выбор вычислительного устройства (CPU/GPU) с возможностью
+  принудительного задания.
+
+**ФТ-13.** В процессе обучения система должна:
+
+- Логировать значения функции потерь на тренировочной и валидационной
+  выборках после каждой эпохи.
+- Логировать перплексию на валидационной выборке.
+- Сохранять лучший по валидационной потере чекпоинт.
+- Поддерживать раннюю остановку по валидационной потере с настраиваемым
+  параметром терпения.
+- Сохранять полный лог обучения в формате CSV.
+
+### 3.5 Подсистема инференса
+
+**ФТ-14.** Система должна предоставлять CLI-инструмент генерации со
+следующими настраиваемыми параметрами:
+
+- Путь к чекпоинту модели.
+- Лад (мажор / минор).
+- Тональность (любой из 12 классов высоты).
+- Тактовый размер.
+- Подразделение доли.
+- Стилевой тег.
+- Функциональная роль.
+- Опциональная гармоническая затравка (последовательность аккордовых символов).
+- Температура сэмплирования.
+- Параметр top-p (nucleus sampling).
+- Максимальное число токенов.
+- Случайное зерно.
+- Пути для сохранения `.chord`- и MIDI-файлов.
+
+**ФТ-15.** Инференс должен использовать nucleus sampling с настраиваемой
+температурой. Beam search не используется.
+
+**ФТ-16.** Система должна предотвращать генерацию грамматически невалидных
+последовательностей токенов (например, токена расширения сразу после токена
+удержания) через маскирование невалидных кандидатов на каждом шаге.
+
+### 3.6 Подсистема оценки
+
+**ФТ-17.** Система должна предоставлять скрипт оценки, принимающий на вход
+два чекпоинта (базовый и целевой) и отложенную выборку, и формирующий:
+
+- Численные метрики перплексии для обеих моделей.
+- Графики распределений по ключевым гармоническим признакам.
+- Сгенерированные образцы для качественного сравнения.
+
+**ФТ-18.** Графики распределений должны включать:
+
+- Распределение типов качеств аккордов.
+- Долю аккордов с расширениями.
+- Долю аккордов с инверсиями.
+- Распределение интервалов движения корня.
+- Распределение наиболее частых пар «корень-корень» (биграммы).
+
+Каждый график должен показывать baseline-распределение и target-распределение
+на одной координатной плоскости с легендой.
+
+---
+
+## 4. Нефункциональные требования
+
+### 4.1 Производительность
+
+**НФТ-1.** Парсинг одного `.chord`-файла должен выполняться менее чем за
+100 миллисекунд на стандартном персональном компьютере.
+
+**НФТ-2.** Один проход обучения по тренировочной выборке (одна эпоха) на
+полном McGill корпусе должен укладываться в 10 минут на CPU современного
+ноутбука.
+
+**НФТ-3.** Генерация одного периода должна занимать менее 10 секунд на CPU.
+
+### 4.2 Корректность
+
+**НФТ-4.** Парсер аккордовых символов должен корректно обрабатывать все
+примеры, перечисленные в §4.6 спецификации формата.
+
+**НФТ-5.** Round-trip эквивалентность (см. ФТ-6) должна подтверждаться
+автоматизированными тестами для всех тестовых фикстур.
+
+**НФТ-6.** Транспозиция должна быть точной: после транспозиции мажорного
+периода в C major все аккорды должны находиться в правильных функциональных
+отношениях с новой тоникой.
+
+### 4.3 Воспроизводимость
+
+**НФТ-7.** Все скрипты обучения, инференса и оценки должны принимать параметр
+случайного зерна и устанавливать его одновременно для PyTorch, NumPy и
+стандартного модуля random.
+
+**НФТ-8.** При фиксированном случайном зерне и идентичных входных данных
+запуски обучения должны давать численно воспроизводимые результаты.
+
+**НФТ-9.** Все эксперименты, упомянутые в итоговом отчёте, должны быть
+воспроизводимы посредством запуска документированных команд.
+
+### 4.4 Надёжность работы с данными
+
+**НФТ-10.** Невалидные или непарсимые аккордовые символы должны вызывать
+явные ошибки с информативным сообщением. Тихая подмена неизвестных символов
+на «ближайшие» категорически запрещена: это приводит к молчаливому
+повреждению обучающего корпуса.
+
+**НФТ-11.** Файлы из отложенной выборки не должны использоваться на этапах
+тренировки или валидации. Любой скрипт подготовки данных, при обнаружении
+файла в `data/holdout/`, должен направлять его в отдельную holdout-выборку.
+
+### 4.5 Сопровождаемость
+
+**НФТ-12.** Все публичные функции в модулях `src/` должны иметь аннотации
+типов и краткие docstrings.
+
+**НФТ-13.** Логика парсинга, токенизации и MIDI-экспорта должна покрываться
+модульными тестами с использованием pytest.
+
+**НФТ-14.** Спецификация формата `.chord` является контрактом между уровнем
+человекочитаемых данных и уровнем обучения модели. Любые изменения формата
+должны сопровождаться обновлением `docs/chord_format_spec.md` и инкрементом
+номера версии спецификации.
+
+### 4.6 Удобство использования
+
+**НФТ-15.** Каждый CLI-скрипт должен поддерживать флаг `--help` с
+информативным описанием параметров.
+
+**НФТ-16.** Сообщения об ошибках должны содержать достаточно информации для
+самостоятельного устранения проблемы пользователем: имя файла, номер строки,
+характер нарушения, ожидаемое значение.
+
+---
+
+## 5. Критерии приёмки
+
+Проект считается завершённым при выполнении всех нижеперечисленных условий.
+
+### 5.1 Учебные критерии
+
+| ID   | Критерий                                                                                                    |
+| ---- | ----------------------------------------------------------------------------------------------------------- |
+| УК-1 | Реализован полный цикл подготовки данных, обучения, инференса и оценки.                                     |
+| УК-2 | Имеется как минимум одна обученная модель, прошедшая стадии предобучения и дообучения.                      |
+| УК-3 | Подготовлен итоговый отчёт, оформленный по стандартам ГОСТ для учебных работ.                               |
+| УК-4 | Отчёт содержит количественное сравнение базовой и дообученной моделей.                                      |
+| УК-5 | Отчёт содержит качественные примеры сгенерированных периодов.                                               |
+| УК-6 | Все эксперименты, упомянутые в отчёте, воспроизводимы по командам, приведённым в README или в самом отчёте. |
+
+### 5.2 Технические критерии
+
+| ID   | Критерий                                                                                                        |
+| ---- | --------------------------------------------------------------------------------------------------------------- |
+| ТК-1 | Все автоматизированные тесты проходят.                                                                          |
+| ТК-2 | Round-trip эквивалентность парсера-токенизатора подтверждена на всех тестовых фикстурах.                        |
+| ТК-3 | Транспозиция протестирована для мажорных и минорных периодов с разными исходными тональностями.                 |
+| ТК-4 | Модель обучается до сходимости (валидационная потеря выходит на плато или снижается монотонно).                 |
+| ТК-5 | Перплексия дообученной модели на отложенной выборке ниже перплексии базовой модели на той же выборке.           |
+| ТК-6 | На графиках распределений виден заметный сдвиг от baseline в сторону характеристик собственного корпуса автора. |
+
+### 5.3 Прикладные критерии
+
+| ID   | Критерий                                                                                                                             |
+| ---- | ------------------------------------------------------------------------------------------------------------------------------------ |
+| ПК-1 | Автор может сгенерировать гармоническую последовательность по произвольным входным параметрам и воспроизвести её в DAW.              |
+| ПК-2 | Сгенерированные последовательности отличаются от случайного шума: соблюдается тональная стабильность, аккорды функционально связаны. |
+| ПК-3 | На качественном уровне в нескольких из сгенерированных примеров автор слышит элементы собственного стиля.                            |
+
+---
+
+## 6. Намеренно выведенное за рамки
+
+Перечисленные ниже возможности **не входят** в требования к текущей версии
+проекта. Их реализация может рассматриваться как направления дальнейшего
+развития после защиты курсовой работы.
+
+| Возможность                                        | Причина выведения                                                                        |
+| -------------------------------------------------- | ---------------------------------------------------------------------------------------- |
+| Генерация мелодической линии                       | Кратно увеличивает сложность задачи; не помещается в срок                                |
+| Расположение голосов в аккорде (voicing) выше баса | Требует существенно большего датасета; ручная реализация в DAW проще                     |
+| Ритмический паттерн внутри удержания аккорда       | Требует моделирования времени с большим разрешением; не критично для задачи              |
+| Дообучение на корпусе японской поп-музыки          | Запланировано как отдельный последующий эксперимент                                      |
+| Графический интерфейс                              | Не добавляет ценности с точки зрения учебных целей; занимает время                       |
+| Прямая интеграция с REAPER                         | Обмен через MIDI-файлы достаточен и проще в реализации                                   |
+| Сравнение нескольких архитектур модели             | Не помещается в срок; выбрана одна архитектура с обоснованием                            |
+| Слепой listening-тест с привлечением слушателей    | Не помещается в срок; используются качественные примеры                                  |
+| Обработка модуляций внутри одного периода          | Решено разрезанием периодов по точке модуляции                                           |
+| Поддержка микротональных аккордов                  | Не встречается в целевом материале; округление до темперированного эквивалента           |
+| Поддержка полиаккордов                             | Редкое явление в целевом материале; запись через слэш-нотацию или ближайший single chord |
+
+---
+
+## 7. Сценарии использования
+
+### 7.1 Сценарий У-1. Транскрипция собственной пьесы
+
+**Действующее лицо:** автор-композитор.
+
+**Предусловия:** в DAW-проекте имеется готовая пьеса с гармонической
+структурой, доступной анализу. Установлена и настроена среда разработки.
+
+**Основной поток:**
+
+1. Автор прослушивает пьесу и определяет границы периодов.
+2. Для каждого периода создаёт `.chord`-файл и заполняет шапку.
+3. Транскрибирует гармонию по позициям, фиксируя инверсии и расширения.
+4. Запускает валидатор формата для проверки корректности.
+5. Экспортирует периоды в MIDI и прослушивает в DAW параллельно с оригиналом.
+6. Корректирует транскрипцию в случае расхождений.
+
+**Постусловия:** в `data/raw_user/` появились новые `.chord`-файлы,
+прошедшие валидацию.
+
+### 7.2 Сценарий У-2. Полный цикл обучения
+
+**Действующее лицо:** автор-композитор.
+
+**Предусловия:** подготовлен собственный корпус и сконвертирован публичный
+корпус.
+
+**Основной поток:**
+
+1. Запуск скрипта подготовки данных для публичного корпуса.
+2. Запуск скрипта подготовки данных для собственного корпуса.
+3. Запуск скрипта предобучения, ожидание сходимости.
+4. Запуск скрипта дообучения с инициализацией из чекпоинта предобучения.
+5. Запуск скрипта оценки для сравнения базовой и дообученной моделей.
+6. Анализ полученных графиков и метрик.
+
+**Постусловия:** в `checkpoints/` сохранены обученные модели, в `reports/`
+сформированы графики и численные метрики.
+
+### 7.3 Сценарий У-3. Генерация гармонической идеи
+
+**Действующее лицо:** автор-композитор в процессе работы над новой пьесой.
+
+**Предусловия:** имеется обученная модель.
+
+**Основной поток:**
+
+1. Автор определяет желаемые параметры будущего периода: тональность,
+   функциональную роль, общий характер.
+2. Запускает скрипт генерации с этими параметрами.
+3. Получает `.chord`-файл и MIDI-файл результата.
+4. Открывает MIDI-файл в DAW и прослушивает.
+5. В случае удовлетворительного результата — переносит гармоническую
+   последовательность в свой композиторский проект.
+6. В противном случае — повторяет генерацию с другим случайным зерном или
+   другими параметрами сэмплирования.
+
+**Постусловия:** автор получает гармоническую идею в требуемом стилистическом
+ключе.
+
+### 7.4 Сценарий У-4. Продолжение начатой идеи
+
+**Действующее лицо:** автор-композитор, у которого уже есть начало
+гармонической последовательности.
+
+**Предусловия:** имеется обученная модель и сформулированная гармоническая
+затравка из нескольких аккордов.
+
+**Основной поток:**
+
+1. Автор формулирует затравку в виде строки аккордовых символов.
+2. Запускает скрипт генерации с параметром `--prefix`.
+3. Модель достраивает остаток периода с учётом затравки.
+4. Получает MIDI и прослушивает.
+
+**Постусловия:** автор получает варианты продолжения для своей гармонической
+идеи.
+
+---
+
+## 8. История изменений
+
+- **1.0** (2026-05-19) — первоначальная редакция документа.