Тренажер имитация ходьбы по лестнице: как правильно заниматься, какие мышцы работают

Содержание

как правильно заниматься, какие мышцы работают

Тренажер «Лестница» (клаймер) — это машина для кардио. Он отличается тем, что помогает обходиться без ударной нагрузки, и, в отличие от степера, полностью имитирует шаги по лестнице. Да, кардио полезно для здоровья, но мало кто испытывает удовольствие от однообразного хождения по беговой дорожке. Клаймер позволяет имитировать ходьбу по обычной лестнице в подъезде. Он рассчитан на тех, кто хочет похудеть, подтянуть мышцы ног и ягодиц и сжечь много лишних калорий.

Содержание

  • 1 Техника выполнения
    • 1.1 Исходное положение
    • 1.2 Движение
    • 1.3 Внимание
  • 2 Рекомендации
  • 3 Варианты выполнения
  • 4 Разбор упражнения
    • 4.1 Какие мышцы работают
    • 4.2 Плюсы
    • 4.3 Подготовка к упражнению
    • 4.4 Правила выполнения
    • 4.5 Ошибки
    • 4.6 Советы по эффективности
  • 5 Включение в программу
  • 6 Противопоказания
  • 7 Интересные факты
  • 8 Чем заменить лестницу

Техника выполнения

Исходное положение

  • Примите положение стоя на ступеньке двигающейся лестницы;
  • Если вы новичок, возьмитесь руками за поручни, и создайте легкий упор, который поможет поддерживать равновесие, но не будет способствовать тому, чтобы вы наклонялись в ту или иную сторону, например, в сторону более развитой руки;
  • Подтяните живот, выпрямите спину, но не отводите плечи слишком сильно;
  • Создайте легкий наклон корпуса вперед;
  • Поставьте работающую ногу на ступеньку выше, включите тренажер, начинайте идти

Движение

  1. Не убирая рук с поручней, выполняйте нашагивание как на обычной лестнице;
  2. Перенесите вес на правую ногу, затем нашагните на лестницу, напрягая бицепс бедра и ягодицу;
  3. Поднимитесь на ступеньку выше;
  4. Снова шагните, но уже другой ногой;
  5. Держитесь руками за поручни, ровно и глубоко дышите;
  6. Продолжайте в том же духе.

Внимание

  • Упражнение лучше выполнять без существенной фиксации рук на поручнях. Достаточно легкой опоры, если атлет справляется с удержанием баланса без нее, это даже лучше. Без опоры движение ног будет более естественным, чем с таковой, поэтому стоит научиться идти в простом ровном стиле;
  • Удерживать спину прямой и не выпячивать живот – основные критерии к эффективности движения в этом упражнении;
  • Не вставляйте колени до щелчка, полное выпрямление в суставе не подходит большинству людей анатомически и требует слишком активного вовлечения в работу.

Обзор лестница-эскалатор от Matrix.


Watch this video on YouTube

Рекомендации

  • На ступеньку стоит учиться вставать полной стопой. Это не бег, в котором используются различные техники переката с носка на пятку, и с пятки на носок;
  • Поручни созданы не для того, чтобы висеть на них всей силой организма, а для того, чтобы выполнять роль опоры, если вдруг потеряешь равновесие;
  • Вес во время движения надо распределять как в обычной ходьбе, не стоит наваливаться на колено, или проталкивать его назад;
  • Для степпера лучше выбрать кроссовки с качественной гелевой амортизационной подошвой. Можно брать беговую обувь или для аэробики, это не принципиально;
  • Нужно выполнять вдохи и выдохи исключительно носом. В идеале дыхание должно быть ровным, и не сбивчивым;
  • Аэробная нагрузка измеряется в своей системе координат эффективности. Следует измерять пульс и по нему контролировать нагрузку от тренировки. Возможны два варианта – носить кардиомонитор и измерять пульс при помощи датчиков, расположенных на тренажере

Варианты выполнения

  1. Выпады в шаге через ступеньку. Этот вариант часто используют для того, чтобы разнообразить тренировку ног. Шаги через ступеньку похожи на так любимые современными физкультурниками выпады в шаге. Они позволяют активизировать бицепсы бедер и ягодицы. По технике напоминает обычный шаг, только длина шага естественным образом становится больше;
  2. Шаги вбок, и крест-накрест. Боковые зашагивания – это отличный вариант для проработки отводящих и приводящих мышц бедра, а также для задействования ягодичных. Такие варианты подходят тем, кто устал от обычных силовых тренировок и хочет выполнять работу в интервальном стиле

Разбор упражнения

Какие мышцы работают

Для кардионагрузки обычно считается некорректным описывать работающие группы мышц и так далее. Однако в случае с двигающейся лестницей делают исключение. Ведь ягодицы и бедра на ней прорабатываются отлично.

  • Основные работающие мышцы – ягодичные, бицепсы бедер, икроножные;
  • Вспомогательные – мышцы кора, камбаловидные, мышцы спины.

Плюсы

  • Укрепляет сердце и сосуды;
  • Способствует нормализации обмена веществ;
  • Исправляет гиподинамию;
  • Помогает укрепить мышцы ног и ягодиц тем, кто не стремится к силовой нагрузке;
  • Помогает избавиться от рутины в тренировочных программах;
  • Подходит для тренинга фитнес-бикини и специализации на развитие ягодичных мышц;
  • Может использоваться в домашних условиях:
  • Заменяет ударные виды нагрузки, например, бег и прыжки;
  • Позволяет существенно повысить расход калорий;
  • Увеличивает энергоемкость любого упражнения;
  • Подходит для организации высокоинтенсивной интервальной тренировки

Подготовка к упражнению

  • В кардиотренировке главное выбрать адекватный режим, который подходил бы под ваши тренировочные цели. Если цель состоит в сжигании лишнего жира или восстановлении, тренировка не должна превышать час по времени. Для тех, кто стремится сохранить мышцы и улучшить физические кондиции во время кардиотренировки подходят интервалы. Они не могут длиться не более 20 минут и быть при этом все равно очень эффективными;
  • Прежде чем начинать тренировку, следует выполнить суставную гимнастику. Недостаточно просто разогреть колени и голеностопы, нужно уделить внимание плечам, локтям, запястьям. По 8-9 вращений достаточно;
  • Тренировка должна начинаться в низкой пульсовой зоне, обычно не выше 40 процентов от максимума;
  • Разминка длится 5-10 минут, переход к рабочей интенсивности должен быть плавным, организм должен вработаться в нагрузку;
  • Целью разминки на двигающейся лестнице является постепенное повышение частоты сердечных сокращений. Поэтому для эффективной работы требуется мониторить пульс, и разгонять его медленно. Разминка на двигающейся лестнице происходит в медленном темпе, но с той же высотой шага;
  • На рабочем пульсе проводится только основная часть тренировки, заминка – также проводится на невысоком пульсе. Цель заминки – успокоить сердце.

Правила выполнения

  1. Шаги без опоры – наиболее энергоемкий способ справляться с этим типом нагрузки. Такой вид хождения на степпере исключительно полезен, и подразумевает оптимальную нагрузку. Если человек слегка придерживаться за ручки, это не страшно;
  2. Биомеханика работы руками напоминает движения во время бега, руки двигаются вдоль тела, они достаточно расслаблены, и не помогают, но и не мешают движению;
  3. Колени нельзя вставлять, голеностопы перенапрягать за счет резкого выпрямления;
  4. Амплитуда движения должна оставаться естественной. Шаг выполняется так же, как и в обычной жизни. Следует работать с чуть разведенными носками, мягкими голеностопами и коленями;
  5. Ноги полностью не выпрямляются, даже если выполняется шаг через ступеньку. Стоит отказаться от принудительного увеличения амплитуды движения, если не получается ходить через ступеньку и увеличивать амплитуду движения;

Упругие ягодицы. Осваиваем тренажёр-эскалатор


Watch this video on YouTube

Ошибки

  • Слишком согнутая спина;
  • Отрыв пяток и хождение на носках;
  • Обратная проблема – хождение исключительно на пятках;
  • Вывешивание (опора) на поручни;
  • Сутулость, прогибы в грудном и поясничном отделе;

Советы по эффективности

  • Загрузить ягодичные мышцы можно, выполняя после каждого шага мах свободной ногой назад;
  • Некоторые используют «хип серкл» для бедер, то есть круговой амортизатор. Он должен фиксировать ноги в определенном положении и затруднять нашагивание. За счет аморотизатора можно больше задействовать приводящие мышцы бедра и проработать ягодицы;
  • Шаги вбок и вверх с амортизатором некоторыми тренерами приравниваются к полноценной тренировке ягодиц;
  • Уровень сопротивления тренажера можно регулировать. Интервальный стиль нагрузки варьируется в зависимости от того, как установлено сопротивление. Можно делать его максимально большим, и за счет этого прорабатывать мышцы ног и ягодиц больше;
  • Тренировка может быть не самой продолжительной, но расход калорий будет выше за счет более высокого уровня сопротивления;
  • Для аэробной выносливости рекомендуются тренировки на частоте пульса от 85% от ЧСС максимальной, для похудения пульс может быть ниже, но тренировка должна беспрерывно продолжаться более 20 минут, если она выполняется в ровном темпе.

Включение в программу

  • Считается, что для похудения кардио надо выполнять в объеме не менее получаса в день. Это норма рекомендованная ВОЗ. В реальности можно использовать как большую, так и меньшую продолжительность.
  • Обычно кардио делают в свободный от силовой день, и таких тренировок в неделю проводить 2-3. Но это в идеале. В реальности может быть и так, что тренирующийся проводит не более 2 сессий длиной 40 минут в неделю и ему этого хватает. Если применить эту информацию к похудению, тут определяющим фактором является не то, сколько часов человек проводит на тренажере, а то, создает он дефицит энергии или нет.
  • Кардио можно проводить и после силовой, тогда не нужно делать слишком длинные тренировки. Любителям, чтобы не переутомляться, достаточно 20-30 минут.
  • Интервальное кардио на лестнице можно проводить и короткими сессиями в течение 10-12 минут после силовой тренировки, либо в самом начале кардиотренировки. И, наконец, двигающаяся лестница может не быть единственным тренажером, на котором занимается человек и может представлять собой исключительно «разогревочный» или «добивочный» кардиотренажер в зависимости от предпочтений.

Противопоказания

  • Травмы коленных, голеностопных и тазобедренных суставов;
  • Тендиниты, бурситы, воспалительные процессы в мышцах;
  • Заболевания легких, дыхательных путей, болезни сердца, сосудов;
  • Существенный лишний вес при условии слабой техники, когда человек наваливается на колено;

Интересные факты

Это один из наиболее энергоемких тренажеров. За получасовую тренировку можно израсходовать 300 ккал или даже больше, если идти быстро или использовать интервальные режимы работы. За час можно сжечь до 700 ккал. Этот тренажер подходит тем, кто устал или не хочет бегать и по какой-то причине не может заниматься другими  видами кардионагрузки.

Этот тренажер был изобретен в 1983 году на волне всеобщего увлечения аэробикой. Он позволял тратить на 100 ккал больше, чем медленный бег трусцой, поэтому быстро обрел популярность.

Тренажер в нашей стране называют лестница, степмилл или клаймер. Путать со степпером не нужно, последнее – это устройство с независимыми двигающимися педалями.

Чем заменить лестницу

Заменить тренажер можно обычной ходьбой или бегом по лестнице. Иногда люди ходят по эскалаторам в супермаркетах или метро ради кардионагрузки, но это немного отличается и не так безопасно. Поэтому тем, у кого нет доступа к тренажерам, просто рекомендуют спуститься в парадное.

Тренировки на клаймере могут сжечь много лишних калорий, укрепить мышцы ног и ягодиц, и некоторым даже помочь в увеличении ягодиц, и изменении их формы. Поэтому стоит попробовать этот тренажер, если хочется внести в тренинг разнообразие.

Типичные ошибки на КАРДИО — учимся ходить правильно!


Watch this video on YouTube

Fitness Division |

Тренажер-лестница Palisade Climber от компании True Fitness – ярких пример технического и конструктивного совершенства современных кардиотренажеров. Крепкий, надежный, включающий множество инновационных решений, он признан лучшим в своем категории профессионалами мировой фитнес-индустрии. 

Разработка этой машины у TRUE заняла довольно продолжительное время. Немудрено, тренажер был разработан компанией «с нуля». Инженеры-разработчики уделили значительное внимание тому, чтобы получить от владельцев фитнес-клубов отзывы об эксплуатации существующих на тот момент образцов «лестниц», учесть недостатки, озвученные пользователями, и запустить серийное производство собственной модели полностью основываясь на собственных конструктивных решениях.

Выход Palisade Climber пришелся кстати, так как к тому моменту в индустрии был отмечен рост спроса на данный тип оборудования как среди владельцев фитнес-клубов, так и среди их клиентов, и который продолжается и сейчас.

Стоит отметить, что растущая популярность тренажеров-лестниц не безосновательна. Если бег или ходьба даже с 10% уклоном ускоряют сердечный ритм и ведут к большим энергозатратам относительно движения по горизонтальной поверхности, то что уж говорить про подъем вверх под крутым углом! К такому типу активности как раз относится подъем по лестнице. 

Ниже мы хотели бы привести 5 преимуществ, которые обеспечивает такой замечательный тренажер как True Palisade Climber.

#1 Развивает бедра и ягодичные мышцы лучше, чем другие кардиотренажеры

Многие виды кардиотренировок включают квадрицепсы и ягодицы в работу, среди них, например, бег и вращение педалей на байке. Но если вы настроены сфокусироваться на проработке этих мышц – имитация ходьбы по лестнице поднимет все на совершенно новый уровень. При использовании тренажера-лестницы спортсмен должен преодолевать гравитацию в большем диапазоне движения чем у других кардиотренажеров. Бóльшая степень сгибания колена и бедра требует вовлечения в работу более мощных мышц, таких как квадрицепс и ягодичные мышцы.

Более того, ваши ноги в процессе движения по лестнице перемещают почти весь вес вашего тела, чего не происходит, когда вы бегаете, катаетесь на велосипеде, гребете или плаваете. По степени вовлечения мышц и энергозатратам это сопоставимо скорее с прыжками, чем с шагами в ходе бега или ходьбы.

#2 Имитация ходьбы по лестнице – это всегда вызов

Каждому знакомо ощущение быть запыхавшимся после подъема по лестнице, даже тому, кто находится в отличной форме. Во многом это связано с тем, что в ходе этого значительно задействуются ягодичные мышцы — самая массивная мышечная группа нашего тела. Работа ягодичных мышц требует большего потребления кислорода, поэтому в этот момент мы вынуждены дышать интенсивнее. Использование большой группы мышц вызывает сильную системную реакцию, влекущую всплеск частоты сердечных сокращений и кровяного давления, соответственно, такой «взрывной» тип кардио более эффективен, чем что-то более пассивное, например, работа на эллипсе или езда на велосипеде.

Другими словами, тренажер-лестница потребует готовности преодолевать значительную нагрузку, но отдача будет не сопоставимо выше чем на других кардиотренажерах. 

#3 Меньшая нагрузка на суставы

Подъем по лестнице не наносит существенного вреда суставам. Если вы не бежите по ней, то ваше тело все время находится в контакте с ее поверхностью. В этом заключается заметное отличие от бега, который в большей степени нагружает суставы нижней части тела. В определенной фазе бега тело тренирующегося целиком находится в отрыве от поверхности, затем весь его вес плюс дополнительные силы опускаются на одну ногу, в этот момент суставы принимают на себя удар. Но при подъеме по лестнице передача нагрузки происходит почти безударно, с меньшим воздействием на суставы.

#4 Эффективен для снижения веса

За счет способности включать в работу крупные мышечные группы и вызывать мощную системную реакцию в организме тренажер-лестница наилучшим образом подходит для высокоинтенсивного интервального тренинга (HIIT). В многочисленных исследованиях, статьях и блогах экспертов уже сказано немало позитивного о том насколько этот тренировочный режим эффективен для сжигания жира. HIIT сжигает значительно больше калорий чем традиционное кардио, ускоряет метаболизм и включает эффект дожигания калорий в восстановительном периоде (после тренировки), именуемый EPOC, нацеливаясь при этом на расщепление глубокозалегающего («упорного») жира. Именно поэтому мы наблюдаем, что многие фитнес-студии, специализирующиеся на программах снижения веса приобретают для своих групповых классов комплект кардиотренажеров, состоящий только из тренажеров-лестниц.

#5 Занятия на тренажере-лестнице вносят разнообразие в тренировочную рутину

Вопреки очевидной формуле – чем интенсивнее и чаще тренировки, тем быстрее достигается результат, такой постулат верен лишь в теории. В жизни же, нашему организму и психике регулярно требуется смена высокого режима активности на низкий для физического и ментального восстановления. Другими словами, сочетание низко- и высокоэффективного кардио помогает выстроить более сблансированную и безопасную тренировочную стратегию. Поэтому комбинирование интервального и стационарного режимов работы дает лучший результат, чем каждый из них по отдельности. Тренажер-лестница при этом внесет свой значительный вклад в тренировочное разнообразие.

 

Эффективное обучение навыкам роботов: обоснованное симуляционное обучение и имитационное обучение на основе наблюдения

Чтобы автономные роботы могли работать в открытом, динамично меняющемся мире, они должны быть в состоянии освоить надежный набор навыков на основе относительно небольшого опыта. Это выступление начинается с представления обучения на основе симуляции как способа преодоления так называемого разрыва в реальности между симуляторами и реальным миром, чтобы можно было перенести обучение из симуляции в реальный робот. Затем он вводит два новых алгоритма для имитации обучения на основе наблюдения, которые позволяют роботу имитировать продемонстрированные навыки на основе траекторий только в состоянии, без каких-либо знаний о действиях, выбранных демонстратором.

Наземное симуляционное обучение привело к самой быстрой известной стабильной ходьбе широко используемого робота-гуманоида, а имитационное обучение на основе наблюдения открывает возможность обучения роботов на основе огромного количества видео, доступных в Интернете.

[Слайды]

  • Изучение наборов, подграфов и потоков: как точно включить контекст графа

    Динамики:

    • Дебадипта Дей,
    • Пол Беннетт,
    • Шон Андрист
  • Этический алгоритм

    Динамики:

    • Майкл Кернс
  • Программа «Как мы можем»

    Динамики:

    • Питер Норвиг

пользовательских синусоидальных волн достаточно для имитации обучения двуногой походке с использованием различных стилей

Введение

Передвижение двуногого робота долгое время было сложной задачей, где классические методы обычно основаны на упрощенных моделях [5] [24] [3] [15] , что ограничивает маневренность роботов с небольшими областями притяжения для возможных движений. Недавно появившиеся немодальные методы, такие как обучение с подкреплением (RL), продемонстрировали преимущества по сравнению с традиционными методами за счет полного изучения динамики роботов и неявно смоделированной информации об окружающей среде 9.0105 [7]

. Путем проб и ошибок роботы могут самостоятельно исследовать возможные политики.

Однако такой способ, основанный на данных, также требует хорошо продуманных функций вознаграждения и длительного обучения [16] , которые часто требуют огромных усилий для настройки. Таким образом, имитационное обучение стало популярным из-за высокой эффективности данных, достигаемой путем управления роботом ссылками [6] . Тем не менее приобретение ссылок не является тривиальным. Чтобы гарантировать качество движений для имитации, эталоны также требуют понимания и усилий со стороны экспертов-людей. Обычной практикой создания эталонов являются контроллеры с ручной настройкой [26] и дорогостоящие захваты движения (мокапы) [11]

.

Следовательно, имеет смысл найти способы, которые могут снизить стоимость и усилия по созданию эталонов. И в этой статье мы обнаруживаем, что даже синусоидальной волны достаточно для создания эталонов двуногого передвижения с довольно простыми конфигурациями системы и функциями вознаграждения. В частности, мы начинаем с простой идеи, что ходьба означает попеременное поднятие двух ног для двуногих роботов, а высота стопы может быть аппроксимирована положительной частью синусоиды, как показано на рис. 1.9.0003

Несмотря на такую ​​простую идею, насколько нам известно, ни в одной из существующих работ не было достигнуто эффективного по данным имитации обучения на основе таких легко генерируемых эталонов для двуногого передвижения. Другими словами, эталоны, созданные в нашей статье, в настоящее время являются самыми простыми эталонами, которые можно использовать для имитации обучения двуногому передвижению, не требуя дополнительных знаний, таких как кривые Безье или кинематика. Более того, с такими простыми, но эффективными референсами мы можем не только добиться двуногого передвижения в разных направлениях, но и генерировать паттерны походки разных стилей.

Рисунок 1: Для двуногой ходьбы кривая высоты стопы w.r.t. время выглядит как синусоида, если завершено. Это приводит к нашей простой идее, что синусоидальной волны достаточно, чтобы служить эталоном для имитации обучения двуногому передвижению.

II Связанные работы

Что касается RL, то немодальный алгоритм Proximal Policy Optimization (PPO) [19] стал рутиной для обучения двуногому передвижению. Стратегии изучения существующих работ можно разделить на две категории: 1) обучение без ссылок и 2) обучение по ссылкам.

II-a Обучение без ссылок

Политики можно обучать в моделировании напрямую без ссылки, как показано во многих работах [16] [20] [21] . Однако все эти работы требуют длительных процессов обучения, которые могут занять несколько десятков часов, и хорошо продуманных функций вознаграждения, которые, вероятно, потребуют трудоемкой настройки. Такие методы неприемлемы, особенно когда мы пытаемся проверить маневренность робота, который подвергается итеративному проектированию.

Хотя есть и другие работы, заявляющие о быстром обучении и успешном sim2real на роботах с ногами [8] [17] , нам было сложно применить изученные политики на реальных двуногих роботах, потому что быстрое обучение достигается массовым параллельным обучением. на основе графического процессора, и динамика в моделировании моделируется неточно. Хотя четвероногие роботы могут терпеть такую ​​неточность, мы обнаружили, что двуногие роботы гораздо более уязвимы к ненадежной динамике.

Ii-B Обучение по ссылкам

Другой распространенной практикой является имитация движений. [11] [10] и [12] использовали структуру имитации обучения, которая позволяет двуногим изучать несколько задач в моделировании, имитируя человеческие мокапы. В то время как мокапы трудно получить, контроллеры на основе моделей могут генерировать движение для справки. [26] [27] добились имитации обучения с помощью sim2real на основе движения, генерируемого вручную настроенным контроллером. [4] [2] использовал модель перевернутого маятника с приводом от пружины (ASLIP) в качестве модели пониженного порядка для создания экспертных контроллеров. Другим вариантом контроллера на основе модели является гибридная динамика нуля (HZD) [25] [9] . В [7] библиотека HZD с контроллерами >1 тыс. используется для имитации обучения всенаправленной ходьбе.

Несмотря на недавний успех имитационного обучения по этим ссылкам, их создание требует времени и усилий. Кроме того, выученный образец походки всегда следует стилю эталона, который может быть трудно настроить и иногда не может поддерживать всенаправленное передвижение.

Кроме того, перенос sim2real представляет собой проблему, но, как предлагается в [20] и [21] , sim2real и обучение навыкам можно рассматривать отдельно. При соответствующей рандомизации предметной области [22] изучения политики в симуляции достаточно для переноса sim2real, даже когда задачей является обход лестницы вслепую [21] . Следуя этой идее, мы хотели бы сосредоточиться на обучении навыкам в этой статье без рассмотрения sim2real, чтобы мы могли представить нашу работу более простым, но мощным способом.

II-C Мотивация

Основываясь на существующих работах, мы считаем, что имитационное обучение по-прежнему необходимо во многих случаях, как и ссылки. Тем не менее, с существующими работами, использующими мокапы и настраиваемые вручную контроллеры на основе моделей для получения ссылок, мы заинтересованы в том, чтобы найти простое представление, которое может намекнуть на обучение без кропотливой работы. Кроме того, мы хотим, чтобы робот мог ходить разными стилями, а не ограничиваться эталоном.

С этой целью мы предлагаем использовать синусоидальные волны в качестве эталона в этой статье. Мы показываем, что при простом дизайне функции вознаграждения и сквозном обучении простой синусоидальной волны достаточно для эталона в формулировке имитационного обучения. Надеемся, что наш метод сможет сделать RL не столько аксессуаром к существующим контроллерам или утомительным крупным проектом, сколько гибким инструментом для проверки маневренности двуногого робота.

III методология

III-a Обзор системы

Рис. 2: Системный Обзор. Красные стрелки указывают на части, связанные с оптимизацией, темно-зеленые стрелки указывают на входы и выходы сети политик, а светло-зеленые стрелки указывают на низкоуровневый контроль в среде моделирования.

В типичной среде RL агент изучает задачу путем проб и ошибок в среде. Задача содержит S,A,p,γ,r, где S — пространство состояний, A — возможные действия, γ∈[0,1] — коэффициент дисконтирования, p — динамика, r — функция вознаграждения, выдающая награда в каждом штате. Процесс заключается в изучении политики π, которая выводит действие в заданном состоянии, которое максимизирует возвращаемое значение.

В этой статье мы реализовали наш метод на двуногом роботе Cassie с 20 степенями свободы в симуляторе MuJoCo [23] со средой cassie-mujoco-sim [1] . Система показана на рис. 2. Моделирование выполняется на частоте 2000 Гц. Сеть политик выводит целевые положения суставов за 0,03 с, а целевые положения передаются низкоуровневому PD-контроллеру, работающему на частоте 2000 Гц. Здесь мы принимаем позиционное управление для повышения эффективности обучения и производительности в соответствии с [13] .

Входы сети политик состоят из положения qj и скорости ˙qj всех 14 суставов, ориентации таза op в форме кватерниона, угловой скорости таза Ωp, поступательной скорости таза vp, высота таза hp

, фазовый вектор

[sin(2πTt+ϕ0),cos(2πTt+ϕ0)] и команда скорости vc=[vx,vy]. Период T в фазовом векторе соответствует частоте, которую мы хотим получить для двуногой ходьбы.

Награда III-B

Функция вознаграждения предназначена для поощрения робота периодически поднимать ноги, догоняя заданную команду скорости. Награда рассчитывается на каждом шаге как

rt=0,5rIt+0,5rPt+rRt+rTt, (1)

где rIt — нормализованное вознаграждение за имитацию, поощряющее имитацию, rPt — вознаграждение за производительность, поощряющее отслеживание скорости и управление ориентацией, rRt — вознаграждение за регуляризацию, поощряющее более реалистичное движение, а rTt — вознаграждение за прекращение, препятствующее падению и накапливающиеся ошибки отслеживания.

Нормализованный срок вознаграждения за имитацию побуждает робота поднимать ноги в качестве эталона синусоидальной волны. Он получен из номинального срока вознаграждения за имитацию,

rI∗t=exp(−10,0522∑i=1(hrefi−hfooti)2), (2)

, где разница между эталонной высотой и текущей высотой обеих стоп не рекомендуется. Нормировка rI∗t жизненно важна, что будет объяснено в гл. В-Б. определяется как

rIt=rI∗t-BlowerBupper-Blower, (3)

, где Bupper — это верхняя граница для rI∗t, и мы небрежно присваиваем Bupper=1. Blower — это нижняя граница для rI∗t, если робот стремится к более высокому вознаграждению за имитацию, и мы небрежно назначаем его как Blower=0,4, что немного превышает значение rI∗t для случайной политики. Другими словами, нормализованный срок вознаграждения за имитацию становится штрафом за выживание, если агент не стремится к имитации. Мы находим нормализацию критической в ​​нашей реализации, и дальнейшие объяснения находятся в разд. В-Б.

rPt обозначает награду за результативность. Он сформулирован как

rPt=0,75exp(-pv)+0,25exp(-po), (4)

где

pv=∥[vp,x,vp,y]−vc∥2max(0,12,0,5∥vc∥2), (5)

, который фокусируется на отслеживании скорости таза, и

po=sin2(0,5⟨op,ou⟩)0,1, (6)

, который фокусируется на контроле ориентации таза. Здесь ⟨⋅,⋅⟩ — это угол двух ориентаций, а ou — ориентация вертикального положения лицом в направлении +x.

Последние два пункта rRt и rTt в (1) — это штрафы за подпружинивание голени и прерывание. В частности,

rRt=0,1exp(−q2leftShin+q2rightShin0,001), (7)

, где нарушаются углы соединения двух голеней.

rTt=−10, если завершить, иначе 0, (8)

, где завершение активировано, если 1) высота таза ниже 0,6, или 2) высота таза выше 1,2, или 3) положение робота слишком далеко от положения, в котором он должен быть в соответствии с командой скорости. Чтобы быть конкретным, мы определяем третье условие как

∥[xp,yp,hp]−[xt,yt,zt]∥≤0,6+∥vc∥, (9)

где [xp,yp,hp] — положение таза, а [xt,yt,zt] — положение, рассчитанное путем интегрирования команды скорости. Это условие обеспечивает точное отслеживание с ограниченным количеством кумулятивных ошибок.

Стоит отметить, что все веса в нашей функции вознаграждения устанавливаются на основе опыта без каких-либо особых усилий по тонкой настройке. Нормализация нетривиальна, потому что ни одна существующая работа не достигла имитации обучения на таких простых ссылках и конфигурациях, и мы приписываем это тому факту, что ни одна из существующих работ, насколько нам известно, не наказывает робота за выживание.

Справочник III-C

Задания генерируются из простой синусоиды, как показано на рис. 3 и определено ниже:

href1=hleft=max(0,hsin(2πTt+ϕ0)−Δh), (10)

href2=hright=max(0,hsin(2πTt+ϕ0+π)−Δh). (11)

Рис. 3: Сгенерированные эталоны походки для ног робота во время отслеживания команды скорости.

Высоты обеих стоп являются положительной частью синусоиды со смещением. Максимальная высота ступни равна h−Δh, а фаза синусоиды соответствует фазе вектора фазы, упомянутой в разд. III-А. Член -Δh, используемый в (10) и (11), должен оставить промежуток времени для двухопорной стойки, который занимает 4 arcsin(Δhh) всего периода 2π. Как показано на рис. 3, эталон просто дает стимул для подъема соответствующей ноги в определенной фазе.

Различные значения h, Δh и T могут описывать разные стили ходьбы. Большие значения h−Δh могут привести к большему зазору между ногами, что влияет на осанку всего тела. Большие значения Δh/h могут привести к более длинной стойке с двумя опорами, что также приводит к более быстрому подъему и опусканию ног. Меньшие значения T могут привести к более высоким частотам, что делает походку более быстрой.

Рис. 4: Кривые обучения для различных команд скорости. Сплошные линии сглажены экспоненциальным скользящим средним для значений в тени. Награды за имитацию сначала резко увеличиваются, указывая на успешную имитацию, а награды за производительность постепенно увеличиваются с увеличением количества шагов выживания. Более 300 шагов выживания, то есть 9 с, могут эмпирически обещать успешное обучение отслеживанию, а дальнейшее обучение является маргинальным.

IV Реализация

IV-a Конфигурации

Мы использовали stable-baselines3 [14] для реализации нашего алгоритма PPO с GAE [18]

. Два скрытых слоя с 512 единицами ReLU используются для политики и функции значения. При размере мини-пакета 128 мы оптимизировали политику на 256 шагов в 16 параллельных средах, т. е. на 4096 выборок. Другие гиперпараметры имеют значения по умолчанию в стабильных базах3, где скорость обучения составляет 3e-4, значение

γ составляет 0,99, а значение λ для GAE составляет 0,9.5.

Мы инициализируем робота стоящим прямо лицом в направлении +x без скорости. Начальная фаза ϕ0 случайным образом устанавливается равной 0 или π, что соответствует стойке с двумя опорами, и первый шаг может быть с вероятностью 50 % для левой ноги и с вероятностью 50 % для правой ноги.

Примечательно, что если мы предопределим позу для ϕ0=0 с левой ногой за правой ногой и зеркальную позу для ϕ0=π с правой ногой за левой ногой, эффективность обучения может быть значительно улучшена примерно на 40%. Это естественный способ в имитационном обучении уменьшить ненужные исследования, которые уходят от движения, которое мы хотим. Однако мы не уверены, может ли одна поза работать для разных скоростей в разных направлениях, и такую ​​реализацию нелегко воспроизвести, поэтому мы все равно решили инициализировать робота позой по умолчанию.

Отслеживание скорости Iv-B

Рис. 5: Положения таза для отслеживания различных скоростных команд. Метки ставятся с интервалом 1,8 с. Рис. 6: Робот может следовать одному и тому же ориентиру, отслеживая разные скорости в разных направлениях.

Чтобы показать, что нашего простого эталона из синусоидальной волны достаточно, чтобы научиться ходить в разных направлениях с разной скоростью, мы попробовали три разные команды скорости:

  1. vx=0,6 м/с, vy=0 м/с;

  2. vx=0 м/с, vy=0,3 м/с;

  3. vx=-0,4 м/с, vy=-0,2 м/с.

Мы случайно присвоили h−Δh=0,12 м и Δh/h=0,2 с временными шагами T=28, т. е. 0,84 с, чтобы создать один и тот же эталон для всех трех команд.

Кривые обучения показаны на рис. 4, где мы решили отобразить номинальное вознаграждение за подражание rIt, вознаграждение за исполнение rPt и количество шагов выживания за эпизод для простоты анализа. Мы не показываем кривые общего вознаграждения, потому что условие прекращения точного отслеживания в (9) делает шаги выживания лучшим индикатором прогресса в обучении.

На рис. 5 показано положение таза, когда робот отслеживает разные скорости в разных направлениях. Благодаря точному условию отслеживания в (9) кумулятивная ошибка незначительна, несмотря на то, что робот стартует с нулевой скорости, и мы не предоставляем никакой информации о координатах x-y.

Рис. 7: Разные значения h−Δh приводят не только к разным зазорам между ногами, но и к разным положениям всего тела. Снимки были сделаны, когда левая нога находилась на максимальной высоте. Рис. 8: Кривые высоты стопы для различных значений h−Δh. Робот научился поднимать ноги на разную высоту. (а) при h-Δh=0,12 м и Δh/h=0,2. На рисунке показаны эталоны и высота ног робота. (b) изменяет максимальную высоту на 0,20 м. (c) показывает зависимость между высотой одной стопы и вертикальной скоростью стопы. Рис. 9: Кривые высоты опоры для различных двухопорных пролетов. Максимальная высота стоп составляет 0,12 м, а период Т=0,84 с. (a) с Δh/h=0,2, (b) с Δh/h=0,3, а (c) показывает, что более длинный двухопорный пролет обеспечивает более быструю посадку. Рис. 10: Кривые высоты стопы для разных частот ходьбы. Максимальная высота опор составляет 0,12 м, а Δhh=0,2. (a) с T = 0,72 с, (b) с T = 0,84 с, и (c) показывает, что более высокая частота приводит к более быстрому подъему и опусканию ног.

Как показано на рис. 6, в нашем методе одна ссылка может работать для нескольких скоростей в разных направлениях, потому что мы предоставляем информацию только для контроля высоты стопы. Напротив, задания на основе контроллера обычно могут поддерживать только одну скорость, а для нескольких скоростей требуется несколько заданий 9. 0105 [7] [26] . Некоторые контроллеры могут поддерживать движение только в одном направлении [4] [2] .

IV-C Различные стили

Чтобы показать, что наш метод поддерживает изучение походок с разными стилями, в этом подразделе мы показываем, как различные значения h, Δh и T могут влиять на стиль. В частности, мы взяли ту же команду скорости vx=0,6 м/с, vy=0 м/с и попробовали три сравнения: 1) изменение h−Δh для зазора между стопами, 2) изменение Δh/h для двухопорных пролетов и 3 ) изменение T для разных частот.

IV-C1 Изменение h−Δh

Здесь мы взяли для сравнения два значения h−Δh 0,12 м и 0,20 м с Δh/h=0,2 и T=28 временными шагами, т. е. 0,84 с. Снимки представлены на рис. 7, а кривые высоты стопы — на рис. 8.

IV-C2 Изменение Δh/h

При h−Δh=0,12 м и T=0,84 с мы попробовали два разных значения Δh/h, 0,2 и 0,3. Результаты показаны на рис. 9, показывая, что более длинный пролет с двумя опорами обеспечивает более быструю посадку.

Рис. 11: Кривые обучения для абляционных исследований имитации и нормализации. Результаты для vx=0,6 м/с, vy=0 м/с, h-Δh=0,12 м, Δh/h=0,2, T=0,84 с.
IV-C3 Изменение T

При h-Δh=0,12 м и Δh/h=0,2 мы пробовали разные периоды T=0,72 с и T=0,84 с. Как показано на рис. 10, более высокая частота приводит к ускоренной походке с более быстрым подъемом и опусканием ног.

V Обсуждение

V-имитация

Мы успешно добились имитации обучения передвижению на двух ногах по очень простым ссылкам. Результаты показывают, что для обучения достаточно подсказки поднять ноги. Генерация ссылок в нашей статье намного проще, чем разработка нескольких контроллеров на основе моделей или сбор мокапов. С другой стороны, по сравнению с обучением без ссылок, наш метод может ускорить процесс обучения и уменьшить трудоемкую настройку. На рис. 11 показано, что робот не может научиться ходить, используя наши простые конфигурации, без имитационного обучения по эталону, т. е. rt=0rIt+1rPt+rRt+rTt.

Нормализация V-B

Нормализация в (3) необходима для того, чтобы агент был вынужден подражать, прежде чем пытаться выжить больше времени. Таким образом, вознаграждение за имитацию может быстро возрасти в первых же нескольких эпизодах, указывая на то, что робот пытается поднять ноги. В противном случае более длительное время выживания может быть штрафом. Кривые на рис. 11 показывают, что робот не может научиться работать без нормализации члена вознаграждения за имитацию, т. е. rt=0,5rI∗t+0,5rPt+rRt+rTt.

Идея в этой статье довольно проста, но, насколько нам известно, ни одна из существующих работ не достигла имитации обучения на основе такого легко генерируемого эталона. Мы считаем, что это связано с тем, что ни одна существующая работа не пришла к идее наказания «живого» робота. В большинстве случаев люди просто ничего не делают или даже положительно вознаграждают «живого» робота, но мы скорее наказываем его нормализацией, если имитация не преследуется сильно.

V-C Различные стили

В нашей реализации мы показываем, что паттерны походки могут быть изменены с помощью различных параметров синусоиды. Напротив, существующие работы всегда ограничивают стиль изученного движения стилем ссылок. Короче говоря, наш метод может предоставить больше места для настройки модели походки.

Эффективность обучения V-D

В этой статье мы используем очень простые ссылки, очень простые конфигурации и очень простые функции вознаграждения для обучения политик. Обучение каждой политике на обычном настольном компьютере занимало около 5 часов. Тем не менее, время обучения можно сократить до <3 часов, если:

  1. Могут быть предоставлены соответствующие позы для инициализации, как указано в гл. IV-А. Согласно [28] , начальные распределения состояний могут сильно повлиять на эффективность данных.

  2. Точное отслеживание не применяется. Это может еще больше повысить эффективность обучения, но может привести к кумулятивным ошибкам отслеживания. Например, в [7] существует большой разрыв между командой скорости и реальной скоростью.

Vi Заключение и будущая работа

В этой статье мы предлагаем помочь двуногому роботу научиться ходить с разной скоростью, в разных направлениях и разными стилями. Это достигается путем имитации обучения на очень простых эталонах, генерируемых пользовательскими синусоидами. Мы также анализируем в нашей статье, как и почему это может работать с нашими очень простыми конфигурациями и функциями вознаграждения. Надеемся, что эта работа может освободить обучение с подкреплением от трудоемкой настройки либо функций вознаграждения и стратегий обучения, либо контроллеров на основе моделей для имитации. Благодаря высокой эффективности обучения предложенный метод также может быть использован для проверки маневренности двуногого робота, который подвергается итеративному проектированию.

Будущие работы могут быть сосредоточены на проверке и расширении предлагаемого метода на других платформах роботов, а также на переносе изученной политики sim2real. Кроме того, мы ожидаем выразить все периодические движения с помощью комбинации синусоидальных волн и расширить наш метод для решения различных задач.

Ссылки

  • [1] Agility Robotics (2018) (веб-сайт) Внешние ссылки: ссылка Цитируется по: §III-A.
  • [2] Х. Дуан, Дж. Дао, К. Грин, Т. Апгар, А. Ферн и Дж. Херст (2021 г.) Обучение действиям в пространстве задач для двуногого передвижения. В 2021 году Международная конференция IEEE по робототехнике и автоматизации (ICRA), стр. 1276–1282. Цитируется по: §II-B, §IV-Б.
  • [3] Дж. Энглсбергер, К. Отт, М.А. Роа, А. Альбу-Шеффер и Г. Хирцингер (2011) Двуногое управление ходьбой на основе динамики точки захвата. На Международной конференции IEEE/RSJ по интеллектуальным роботам и системам в 2011 г. стр. 4420–4427. Цитируется по: §I.
  • [4] К. Грин, Ю. Годзе, Дж. Дао, Р. Л. Хаттон, А. Ферн и Дж. Херст (2021 г.) Обучение весеннему массовому передвижению: руководство политиками с помощью модели пониженного порядка. IEEE Robotics and Automation Letters 6 (2), стр. 3926–3932. Цитируется по: §II-B, §IV-Б.
  • [5] С. Кадзита, Ф. Канехиро, К. Канеко, К. Фудзивара, К. Харада, К. Ёкои и Х. Хирукава (2003)

    Генерация двуногого шаблона ходьбы с помощью предварительного просмотра точки нулевого момента

    . На Международной конференции IEEE по робототехнике и автоматизации 2003 г. Том. 2, стр. 1620–1626. Цитируется по: §I.
  • [6] Ю. Ли, С. Ким и Дж. Ли (2010) Двуногое управление на основе данных. В документах ACM SIGGRAPH 2010 г. стр. 1–8. Цитируется по: §I.
  • [7] З. Ли, С. Ченг, С. Б. Пэн, П. Аббил, С. Левин, Г. Берсет и К. Шринат (2021) Обучение с подкреплением для надежного параметризованного управления движением двуногих роботов. На Международной конференции IEEE по робототехнике и автоматизации (ICRA), Цитируется по: §I, §II-Б, §IV-Б, пункт 2.
  • [8] В. Маковийчук, Л. Вавжиняк, Ю. Го, М. Лу, К. Стори, М. Маклин, Д. Хеллер, Н. Рудин, А. Олшир, А. Ханда и Г. Стэйт (2021) Isaac gym: высокопроизводительное моделирование физики на базе графического процессора для обучения роботов. Цитируется по: §II-A.
  • [9] К. Нгуен, X. Да, Дж. Гриззл и К. Шринат (2020) Динамическая ходьба по ступеням с библиотекой походок и функциями управления барьером. В Алгоритмических основах робототехники XII, стр. 384–399. Цитируется по: §II-B.
  • [10] XB Peng, P. Abbeel, S. Levine и M. van de Panne (2018) Deepmimic: глубокое обучение с подкреплением физических навыков персонажа на основе примеров. ACM Transactions on Graphics (TOG) 37 (4), стр. 1–14. Цитируется по: §II-B.
  • [11] XB Peng, G. Berseth, K. Yin и M. Van De Panne (2017) Deeploco: динамические навыки передвижения с использованием иерархического глубокого обучения с подкреплением. ACM Transactions on Graphics (TOG) 36 (4), стр. 1–13. Цитируется по: §I, §II-Б.
  • [12] XB Peng, E. Coumans, T. Zhang, T. Lee, J. Tan и S. Levine (2020) Обучение маневренным навыкам передвижения роботов, подражая животным. В робототехнике: наука и системы, Цитируется по: §II-B.
  • [13] XB Пэн и М. ван де Панне (2017) Обучение навыкам передвижения с помощью deeprl: имеет ли значение выбор места действия? В материалах симпозиума ACM SIGGRAPH/Eurographics по компьютерной анимации, стр. 1–13. Цитируется по: §III-A.
  • [14] А. Раффин, А. Хилл, А. Глив, А. Канервисто, М. Эрнест и Н. Дорманн (2021 г.) Stable-baselines3: надежные реализации обучения с подкреплением.

    Journal of Machine Learning Research

    22 (268), стр. 1–8. Внешние ссылки: ссылка Цитируется по: §IV-A.
  • [15] Дж. Реер, Э. А. Кузино, А. Херейд, К. М. Хубики и А. Д. Эймс (2016) Реализация динамического и эффективного двуногого передвижения на твердой мозговой оболочке робота-гуманоида. В 2016 году Международная конференция IEEE по робототехнике и автоматизации (ICRA), стр. 1794–1801. Цитируется по: §I.
  • [16] Д. Родригес и С. Бенке (2021 г.) DeepWalk: всенаправленная двуногая походка с помощью глубокого обучения с подкреплением. На Международной конференции IEEE по робототехнике и автоматизации (ICRA), Цитируется по: §I, §II-А.
  • [17] Н. Рудин, Д. Хеллер, П. Рейст и М. Хаттер (2021 г.) Обучение ходьбе за считанные минуты с помощью массово-параллельного глубокого обучения с подкреплением. На 5-й ежегодной конференции по обучению роботов, Цитируется по: §II-A.
  • [18] Дж. Шульман, П. Мориц, С. Левин, М. Джордан и П. Аббил (2016)

    Многомерное непрерывное управление с использованием обобщенной оценки преимуществ

    . В материалах Международной конференции по представительствам в обучении (ICLR), Цитируется по: §IV-A.
  • [19] Дж. Шульман, Ф. Вольский, П. Дхаривал, А. Рэдфорд и О. Климов (2017) Алгоритмы оптимизации проксимальной политики. Препринт arXiv arXiv: 1707.06347. Цитируется по: §II.
  • [20] Дж. Зикманн, Ю. Годзе, А. Ферн и Дж. Херст (2021 г.) Симуляционное изучение всех распространенных двуногих походок с помощью периодического вознаграждения. В 2021 году Международная конференция IEEE по робототехнике и автоматизации (ICRA), стр. 7309–7315. Цитируется по: §II-A, §II-Б.
  • [21] Дж. Зикманн, К. Грин, Дж. Варила, А. Ферн и Дж. Херст (2021 г.) Слепой двуногий обход лестницы с помощью обучения с подкреплением от симулятора к реальному. Препринт arXiv arXiv: 2105.08328. Цитируется по: §II-A, §II-Б.
  • [22] Дж. Тобин, Р. Фонг, А. Рэй, Дж. Шнайдер, В. Заремба и П. Аббил (2017)

    Рандомизация предметной области для переноса глубоких нейронных сетей из симуляции в реальный мир

    . В 2017 году международная конференция IEEE/RSJ по интеллектуальным роботам и системам (IROS), стр. 23–30. Цитируется по: §II-B.
  • [23] Э. Тодоров, Т. Эрез и Ю. Тасса (2012 г.) Mujoco: физический движок для управления на основе моделей. В 2012 году международная конференция IEEE/RSJ по интеллектуальным роботам и системам, стр. 5026–5033. Цитируется по: §III-A.
  • [24] М. Вукобратович и Б. Боровац (2004 г.) Точка нулевого момента — тридцать пять лет его жизни. Международный журнал гуманоидной робототехники 1 (01), стр.