docs: actualize README, architecture, requirements (v1.1)

README:
- processed/ tree now shows mcgill/ and user/ subdirs
- --style user -> --style H1K0 in quick-start prefix example
- pretrained.report.txt and finetuned.report.txt added to artifact tables

architecture.md (-> v1.1):
- remove stale music21 fallback mention from chord_parser section
- fix ChordDataset: on-demand loading, not eager; remove non-existent
  make_dataloader from public interface
- fix train function name: train_model -> train
- update logging description: report goes to .report.txt, not stdout
- note that scripts use max_seq_len=256 (sequences top out at 195 tokens)

requirements.md (-> v1.1):
- FT-12: update from unified script to pretrain.py + train.py pair

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-05-20 12:46:09 +03:00
parent 03b464973a
commit 0682ccc140
3 changed files with 40 additions and 32 deletions
+10 -9
View File
@@ -182,16 +182,15 @@ serialize` должна давать `.chord`-файл, эквивалентны
- Контекстное окно: 512 токенов.
- Связанные веса входного и выходного эмбеддингов.
**ФТ-12.** Система должна предоставлять единый скрипт обучения, параметризуемый
аргументами командной строки, поддерживающий:
**ФТ-12.** Система должна предоставлять два высокоуровневых скрипта обучения:
- Обучение модели с нуля (предобучение).
- Дообучение существующей модели (fine-tuning) — через параметр инициализации
весов из указанного чекпоинта.
- Настройку всех ключевых гиперпараметров через аргументы.
- Установку случайного зерна для воспроизводимости.
- Автоматический выбор вычислительного устройства (CPU/GPU) с возможностью
принудительного задания.
- `scripts/pretrain.py` — предобучение на публичном корпусе McGill.
- `scripts/train.py` — дообучение на собственном корпусе с инициализацией
весов из чекпоинта предобучения.
Оба скрипта имеют флаг `--skip-training` для повторного построения графиков и
отчёта без перезапуска обучения. Низкоуровневая параметризация (гиперпараметры,
архитектурные параметры, устройство) доступна через `src/train.TrainConfig`.
**ФТ-13.** В процессе обучения система должна:
@@ -464,4 +463,6 @@ serialize` должна давать `.chord`-файл, эквивалентны
## 8. История изменений
- **1.1** (2026-05-20) — ФТ-12 обновлён: два скрипта (pretrain.py, train.py)
вместо единого универсального CLI.
- **1.0** (2026-05-19) — первоначальная редакция документа.