hamori

Files

T

H1K0 8a73394df9 data: update pretrained checkpoint results (BAR-free tokenizer)

Re-run pre-training results with the corrected 84-token vocabulary and
max_seq_len=320.  Previous checkpoint was trained on stale data with BAR
tokens and a corrupted tokenizer.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-05-20 14:28:00 +03:00

_smoke_pretrain.log.csv

data: add 2-epoch smoke pre-training log (_smoke_pretrain.log.csv)

2026-05-20 12:16:28 +03:00

.gitkeep

chore: initialize project scaffold

2026-05-19 10:28:17 +03:00

pretrained_curves.png

data: update pretrained checkpoint results (BAR-free tokenizer)

2026-05-20 14:28:00 +03:00

pretrained.log.csv

data: update pretrained checkpoint results (BAR-free tokenizer)

2026-05-20 14:28:00 +03:00

pretrained.report.txt

data: update pretrained checkpoint results (BAR-free tokenizer)

2026-05-20 14:28:00 +03:00