Перейти к содержанию

Глоссарий проекта

Технические термины, используемые в документации, отчётах по практике и материалах магистерской работы. Глоссарий собран в одном месте, чтобы любой документ проекта мог ссылаться на него точечно (например, policy или sim-to-real).

Метрики и обучение

Термин Расшифровка
SR (Success Rate) Доля успешных эпизодов в формальной оценке policy: робот достиг цели и не вышел за пределы коридора / не врезался в стену. Считается на 20 эпизодах с разными случайными seed'ами.
PPO Proximal Policy Optimization (Schulman 2017) — основной алгоритм обучения policy в этом проекте. Реализация — из библиотеки Stable-Baselines3.
Policy Обученная нейросеть, которая по наблюдению (кадр + показания ультразвукового датчика) выбирает одно из 5 дискретных действий: DirStop, DirForward, DirBack, DirLeft, DirRight.
Transfer learning Дообучение от предыдущей policy вместо обучения с нуля. Используется как ускорение и для сохранения навигационных навыков базовой модели.
ent_coef Коэффициент entropy regularization в PPO. При слишком низком значении policy схлопывается в одну команду (degenerate basin).
BC bootstrap (behavior cloning) Предобучение policy с учителем на парах (кадр, действие), записанных оператором. Снижает разброс при последующей дотренировке через PPO.

Sim-to-real и domain randomization

Термин Расшифровка
sim-to-real (sim2real) Перенос policy, обученной в симуляторе, на физического робота. Основная сложность — расхождение визуальных распределений между Unity-сценой и реальной камерой.
Domain randomization (DR) Намеренное варьирование визуальных параметров сцены (текстуры, цвета, освещение) в процессе обучения, чтобы policy не закреплялась за конкретный «вид» симулятора. Различают mild-DR (умеренная) и heavy-DR (сильная).
Prior flip Эффект, при котором одна и та же policy на «эквивалентном» кадре в симе и на реале выбирает противоположные действия. Основной диагностический сигнал sim-to-real разрыва.

Архитектура нейросети и инфраструктура обучения

Термин Расшифровка
CNN Свёрточная нейронная сеть для обработки изображений. Используется как визуальная часть policy: сеть получает кадр с камеры и извлекает признаки коридора.
LSTM Рекуррентный блок с памятью, который может учитывать не только текущий кадр, но и недавнюю историю наблюдений. В maze-сцене это важно из-за последовательности поворотов и ответвлений.
Frame stacking (k=4) Подача в CNN не одного кадра, а четырёх последовательных. Позволяет policy видеть движение и различать «стою у стены» vs «приближаюсь к стене».
R3M Замороженный предобученный визуальный encoder для робототехнических задач из работы Nair (2022). Идея: вместо обучения свёрточной сети с нуля используется уже готовая, предобученная на огромном объёме видеоданных — это уменьшает разброс между запусками и количество необходимых примеров. В проекте используется функционально эквивалентный аналог — ResNet18, предобученный на ImageNet, со «замороженными» весами.
ImageNet Большой датасет изображений, на котором предобучен ResNet18. Упоминается как практическая замена R3M-подходу для устойчивого визуального encoder'а.
RecurrentPPO Реализация PPO с LSTM-памятью внутри policy (sb3-contrib). Нужна на maze-сцене, где требуется помнить недавнюю историю поворотов.
VecEnv Вектор-среда (Stable-Baselines3): несколько параллельных копий симулятора, по которым PPO собирает обучающие данные одновременно. В проекте — две собственные реализации: одна запускает несколько агентов в одном Unity-инстансе, вторая — несколько Unity-инстансов параллельно.
Stable-Baselines3 / sb3-contrib Python-библиотеки с реализациями RL-алгоритмов. Stable-Baselines3 используется для PPO, sb3-contrib — для RecurrentPPO.
TensorBoard Инструмент визуализации метрик обучения: reward, распределение действий, энтропия, loss и другие сигналы. Используется для раннего обнаружения схлопывания policy.
ONNX Формат обмена нейросетевыми моделями. В проекте используется для переноса обученной policy из Python-обвязки в backend и в runtime робота.

Управление роботом и safety

Термин Расшифровка
Sonar guard / E-stop Аппаратно-программная защита: backend форсирует DirStop, если ультразвуковой датчик HC-SR04 показывает дистанцию ниже заданного порога.
Open-loop / closed-loop control Open-loop: команды на моторы без обратной связи по фактическому движению. Closed-loop: с обратной связью через энкодеры или IMU. Робот KS0223 в текущей прошивке работает как open-loop.