Полное руководство по гистограммам
Что такое гистограмма?
Гистограмма — это диаграмма, отображающая распределение значений числовой переменной в виде ряда столбцов. Каждая полоса обычно охватывает диапазон числовых значений, называемый ячейкой или классом; высота столбца указывает частоту точек данных со значением в соответствующем бине.
На приведенной выше гистограмме показано частотное распределение времени ответа на запросы, отправленные в вымышленную систему поддержки. Каждая полоса охватывает один час времени, а высота указывает количество билетов в каждом временном диапазоне. Мы видим, что наибольшая частота ответов была в диапазоне 2-3 часов, с более длинным хвостом справа, чем слева. Есть также холм поменьше, пик (режим) которого находится в диапазоне 13-14 часов. Если бы мы смотрели только на числовую статистику, такую как среднее значение и стандартное отклонение, мы могли бы упустить тот факт, что эти два пика внесли свой вклад в общую статистику.
Когда следует использовать гистограмму
Гистограммы удобны для отображения общих характеристик распределения переменных набора данных. Вы можете примерно увидеть, где находятся пики распределения, является ли распределение асимметричным или симметричным, и есть ли какие-либо выбросы.
Чтобы использовать гистограмму, нам просто нужна переменная, которая принимает непрерывные числовые значения. Это означает, что различия между значениями постоянны независимо от их абсолютных значений. Например, даже если оценка за тест может принимать только целочисленные значения от 0 до 100, разрыв одинакового размера имеет одинаковое значение независимо от того, где мы находимся на шкале: разница между 60 и 65 равна той же 5-балльной шкале. размер как разница между 9от 0 до 95.
Информация о количестве бинов и их границах для подсчета точек данных не присуща самим данным. Вместо этого настройка бинов — это отдельное решение, которое мы должны принять при построении гистограммы. То, как мы указываем бины, будет иметь большое влияние на то, как можно интерпретировать гистограмму, как будет видно ниже.
Когда значение находится на границе бина, оно будет последовательно назначено бину справа или слева от него (или в конечные бины, если оно находится в конечных точках). Какая сторона выбрана, зависит от инструмента визуализации; некоторые инструменты имеют возможность переопределить настройки по умолчанию. В этой статье предполагается, что значения на границе бина будут присвоены бину справа.
Пример структуры данных
Один из способов, которым инструменты визуализации могут работать с данными, которые должны быть визуализированы в виде гистограммы, — это сводная форма, как показано выше. Здесь первый столбец указывает границы бина, а второй — количество наблюдений в каждом бине. Кроме того, некоторые инструменты могут просто работать с исходным столбцом неагрегированных данных, а затем применять к данным заданные параметры группирования при создании гистограммы.
Рекомендации по использованию гистограммы
Использовать базовую линию с нулевым значением
Важным аспектом гистограмм является то, что они должны быть построены с базовой линией с нулевым значением. Поскольку частота данных в каждом бине определяется высотой каждого столбца, изменение базовой линии или введение пробела в шкале исказят восприятие распределения данных.
Отсечение 80 точек от вертикальной оси делает распределение показателей производительности намного лучше, чем оно есть на самом деле.Выберите подходящее количество ячеек
Хотя инструменты, которые могут генерировать гистограммы, обычно имеют некоторые алгоритмы по умолчанию для выбора границ бинов, вы, вероятно, захотите поиграть с параметрами биннинга, чтобы выбрать что-то, что репрезентативно для ваших данных. В Википедии есть обширный раздел, посвященный эмпирическим правилам выбора подходящего количества ячеек и их размеров, но, в конечном счете, стоит использовать знание предметной области, а также изрядно поэкспериментировать с различными вариантами, чтобы узнать, что лучше всего подойдет для ваших целей.
Выбор размера ячейки обратно пропорционален количеству ячеек. Чем больше размеры бинов, тем меньше бинов будет для охвата всего диапазона данных. Чем меньше размер корзины, тем больше корзин должно быть. Стоит потратить некоторое время на то, чтобы протестировать различные размеры бинов, чтобы увидеть, как выглядит распределение в каждом из них, а затем выбрать график, который лучше всего представляет данные. Если у вас слишком много бинов, то распределение данных будет выглядеть грубым, и будет сложно отличить сигнал от шума. С другой стороны, при слишком малом количестве бинов гистограмме будет не хватать деталей, необходимых для выделения какой-либо полезной закономерности из данных.
Колонки на левой панели слишком малы, что подразумевает много ложных пиков и впадин. Ячейки на правой панели слишком велики, скрывая любые признаки второго пика.Выберите интерпретируемые границы бинов
Метки и метки обычно должны располагаться на границах бинов, чтобы наилучшим образом сообщить, где лежат границы каждого столбца. Метки не нужно устанавливать для каждого бара, но наличие их между каждыми несколькими барами помогает читателю отслеживать значение. Кроме того, полезно, если метки представляют собой значения с небольшим количеством значащих цифр, чтобы их было легко читать.
Это говорит о том, что бины размера 1, 2, 2,5, 4 или 5 (которые делят 5, 10 и 20 поровну) или их степени десяти являются хорошими размерами бинов для начала, как эмпирическое правило. Это также означает, что бины размером 3, 7 или 9, вероятно, будет труднее читать, и их не следует использовать, если контекст не имеет для них смысла.
Вверху: небрежное разбиение данных на десять бинов от минимума до максимума может привести к очень странным разделениям бинов. Внизу: требуется меньше отметок, когда легко отследить размер корзины.Небольшое предостережение: убедитесь, что вы учитываете типы значений, которые принимает интересующая вас переменная. В случае дробного размера ячейки, такого как 2,5, это может быть проблемой, если ваша переменная принимает только целые значения. Ячейка от 0 до 2,5 имеет возможность собрать три разных значения (0, 1, 2), но следующая ячейка от 2,5 до 5 может собрать только два разных значения (3, 4 — 5 попадут в следующую ячейку). Это означает, что ваша гистограмма может выглядеть неестественно «ухабистой» просто из-за количества значений, которые может принимать каждый бин.
На рисунке выше показано распределение результатов при суммировании результата пяти бросков кубика, повторенных 20 000 раз. Ожидаемая форма колокола выглядит остроконечной или кривобокой, когда выбираются размеры ячеек, которые охватывают различное количество целочисленных результатов.Типичное неправильное использование
Измеряемая переменная не является непрерывной числовой величиной
Как отмечалось во вступительных разделах, гистограмма предназначена для отображения частотного распределения непрерывной числовой переменной. Когда интересующая нас переменная не соответствует этому свойству, вместо этого нам нужно использовать другой тип диаграммы: гистограмму. Переменная, которая принимает категориальные значения, такие как тип пользователя (например, гость, пользователь) или местоположение, явно не является числовым, и поэтому должна использовать гистограмму. Однако существуют определенные типы переменных, которые сложнее классифицировать: те, которые принимают дискретные числовые значения, и те, которые принимают значения, зависящие от времени.
Переменные, принимающие дискретные числовые значения (например, целые числа 1, 2, 3 и т. д.), могут отображаться либо в виде гистограммы, либо в виде гистограммы, в зависимости от контекста. Использование гистограммы будет более вероятным, когда есть много разных значений для построения. Когда диапазон числовых значений велик, тот факт, что значения являются дискретными, как правило, не имеет значения, и хорошей идеей будет непрерывная группировка.
Одна важная вещь, на которую следует обращать внимание, это то, что цифры представляют реальную стоимость. Если числа на самом деле являются кодами категориальной или неупорядоченной переменной, то это признак того, что следует использовать гистограмму. Например, если у вас есть ответы на опрос по шкале от 1 до 5, кодирующие значения от «полностью не согласен» до «полностью согласен», то частотное распределение следует визуализировать в виде гистограммы. Причина в том, что различия между отдельными значениями могут быть непоследовательными: мы на самом деле не знаем, что значимая разница между 1 и 2 («совершенно не согласен» и «не согласен») такая же, как разница между 2 и 3. («не согласен» на «ни согласен, ни не согласен»).
Более сложный случай, когда интересующая нас переменная представляет собой функцию, основанную на времени. Когда значения соответствуют относительным периодам времени (например, 30 секунд, 20 минут), тогда имеет смысл группировать по периодам времени для гистограммы. Однако, когда значения соответствуют абсолютному времени (например, 10 января, 12:15), различие становится размытым. Когда записываются новые точки данных, значения обычно попадают во вновь созданные ячейки, а не в существующий диапазон ячеек. Кроме того, некоторые естественные варианты группировки, например, по месяцам или кварталам, приводят к немного неравным размерам ячеек. По этим причинам нередко можно увидеть другой тип диаграммы, такой как гистограмма или линейная диаграмма.
Использование бинов разного размера
Хотя во всех примерах до сих пор гистограммы демонстрировались с использованием бинов одинакового размера, на самом деле это не является техническим требованием. Когда данных мало, например, когда есть длинный хвост данных, может прийти в голову идея использовать бины большей ширины, чтобы покрыть это пространство. Однако создание гистограммы с бинами разного размера не является ошибкой, но требует значительных изменений в способе создания гистограммы и может вызвать много трудностей при интерпретации.
Техническая особенность гистограмм заключается в том, что общая площадь столбцов представляет собой целое, а площадь, занимаемая каждым столбцом, представляет долю целого, содержащуюся в каждом ячейке. Когда размеры корзин одинаковы, это делает площадь и высоту измеряемой полосы эквивалентными. Однако в гистограмме с переменными размерами ячеек высота больше не может соответствовать общей частоте появления. Это исказило бы представление о том, сколько точек находится в каждом бине, поскольку увеличение размера бина только заставит его выглядеть больше. На центральном графике рисунка ниже ячейки 5-6, 6-7 и 7-10 в конечном итоге выглядят так, как будто они содержат больше точек, чем на самом деле.
Слева: гистограмма с ячейками одинакового размера; В центре: гистограмма с неравными ячейками, но с неправильными единицами вертикальной оси; Справа: гистограмма с неравными бинами с высотой плотности. Вместо этого вертикальная ось должна кодировать частоту плотность на единицу размера бина. Например, на правой панели рисунка выше ячейка 2–2,5 имеет высоту около 0,32. Умножьте на ширину бина, 0,5, и мы можем оценить около 16% данных в этом бине. Высота более широких бинов была уменьшена по сравнению с центральной панелью: обратите внимание, как общая форма выглядит похожей на исходную гистограмму с одинаковыми размерами бинов. Плотность — это непростая концепция для понимания, и такой сюжет, представленный другим, незнакомым с этой концепцией, будет трудно его интерпретировать.
Из-за всего этого лучший совет — просто придерживаться абсолютно одинаковых размеров контейнеров. Наличие пустых интервалов и некоторый повышенный уровень шума в диапазонах с разреженными данными, как правило, стоят увеличения интерпретируемости вашей гистограммы. С другой стороны, если есть неотъемлемые аспекты отображаемой переменной, которые предполагают неравные размеры ячеек, то вместо использования гистограммы с неравномерными ячейками вам может быть лучше использовать гистограмму.
Общие параметры гистограммы
Абсолютная частота по сравнению с относительной частотой
В зависимости от целей вашей визуализации вы можете изменить единицы измерения на вертикальной оси графика, используя абсолютную или относительную частоту. Абсолютная частота — это просто естественное количество вхождений в каждом бине, а относительная частота — это доля вхождений в каждом бине. Выбор единиц оси будет зависеть от того, какие виды сравнений вы хотите выделить в распределении данных.
Преобразуя первый пример в терминах относительной частоты, гораздо проще сложить первые пять тактов, чтобы обнаружить, что примерно на половину заявок отвечают в течение пяти часов.Отображение неизвестных или отсутствующих данных
На самом деле это , а не , особенно распространенный вариант, но его стоит учитывать, когда дело доходит до настройки графиков. Если в строке данных отсутствует значение для интересующей нас переменной, оно часто будет пропущено при подсчете для каждого бина. Если важно показать количество отсутствующих или неизвестных значений, вы можете объединить гистограмму с дополнительной полосой, отображающей частоту этих неизвестных. При построении этого столбца рекомендуется поместить его на параллельную ось основной гистограммы и другого нейтрального цвета, чтобы точки, собранные на этом столбце, не путались с числовыми значениями.
Гистограмма
Как отмечалось выше, если интересующая переменная не является непрерывной и числовой, а дискретной или категориальной, то вместо нее нам понадобится гистограмма. В отличие от гистограммы, столбцы гистограммы обычно имеют небольшой разрыв между собой: это подчеркивает дискретный характер отображаемой переменной.
Линейная диаграмма
Если вы группируете числовые данные, но хотите, чтобы вертикальная ось вашего графика передала что-то другое, кроме информации о частоте, вам следует рассмотреть возможность использования линейной диаграммы. Вертикальное положение точек на линейной диаграмме может отображать значения или статистические сводки второй переменной. Когда линейная диаграмма используется для изображения частотных распределений, таких как гистограмма, это называется полигон частот .
Кривая плотности
Кривая плотности, или оценка плотности ядра (KDE), является альтернативой гистограмме, которая дает каждой точке данных непрерывный вклад в распределение. На гистограмме вы можете представить себе каждую точку данных как выливание жидкости из ее значения в серию цилиндров ниже (контейнеры). В KDE каждая точка данных добавляет небольшой объем вокруг своего истинного значения, которое складывается по точкам данных для создания окончательной кривой. Форма куска объема — это «ядро», и существует безграничный выбор. Из-за огромного количества опций при выборе ядра и его параметров кривые плотности обычно являются областью программных инструментов визуализации.
Толстые черные штрихи обозначают точки данных, которые влияют на гистограмму (слева) и кривую плотности (справа). Обратите внимание, как каждая точка вносит небольшую кривую в форме колокола в общую форму.Коробчатая диаграмма и диаграмма для скрипки
Гистограммы хорошо показывают распределение одной переменной, но проводить сравнения между гистограммами довольно сложно, если мы хотим сравнить эту переменную между различными группами. Для двух групп одним из возможных решений является построение гистограмм двух групп вплотную друг к другу. Специфическая для предметной области версия этого типа сюжета — Пирамида населения , которая отображает возрастное распределение мужчин и женщин в стране или другом регионе в виде последовательных вертикальных гистограмм.
Однако, если у нас есть три или более групп, параллельное решение не будет работать. Одним из решений может быть создание многогранных гистограмм, отображающих по одной для каждой группы в строке или столбце. Другой альтернативой является использование другого типа сюжета, например, коробчатого или скрипичного сюжета. Оба эти типа графиков обычно используются, когда мы хотим сравнить распределение числовой переменной по уровням категориальной переменной. По сравнению с гранеными гистограммами эти графики заменяют точное изображение абсолютной частоты более компактным относительным сравнением распределений.
Инструменты визуализации
Как довольно распространенный тип визуализации, большинство инструментов, способных создавать визуализации, имеют гистограмму в качестве опции. Там, где гистограмма недоступна, гистограмма должна быть доступна в качестве близкой замены. Создание гистограммы может потребовать немного больше работы, чем другие основные типы диаграмм, из-за необходимости протестировать различные варианты группирования, чтобы найти лучший вариант. Однако эти усилия часто того стоят, поскольку хорошая гистограмма может быть очень быстрым способом точно передать общую форму и распределение переменной данных.
Гистограмма — это один из многих типов диаграмм, которые можно использовать для визуализации данных. Узнайте больше из наших статей об основных типах диаграмм, о том, как выбрать тип визуализации данных, или просмотрев полную коллекцию статей в категории диаграмм.
Руководство для начинающих по гребному тренажеру
У гребных тренажеров есть момент. Долгое время гадкие утята тренажерного зала, спрятанные в забытых углах, тренажеры претерпевают изменения — точно так же, как десятилетие назад это сделали домашние велотренажеры.
По данным Ассоциации индустрии спорта и фитнеса, с 2014 по 2021 год количество людей, занимающихся греблей в помещении, увеличилось почти на 20 процентов, и ожидается, что к 2031 году мировой рынок гребных тренажеров превысит 1,8 миллиарда долларов. Некоторые связывают это возрождение с кроссфитом. , которые часто используют гребные тренажеры (также называемые эргометрами или сокращенно эргометрами) в своих ежедневных тренировках.
Воспользовавшись этой новой волной энтузиазма, по всей стране открылись крытые студии гребли, а компании по производству оборудования для фитнеса, такие как Hydrow, запустили высокотехнологичные домашние тренажеры в сочетании с занятиями с гидом, а-ля Peloton. Говоря о Peloton, в сентябре компания объявила, что выпускает гребной тренажер с экранами и классами, похожими на его фирменный велосипед, в качестве третьего предмета своего фирменного оборудования.
Для преданных гребцов такой рост популярности не стал неожиданностью. Гребля — это тренировка всего тела, которая нацелена на мышцы ног, спины, кора и рук. Это также полезно для вашей сердечно-сосудистой системы, потому что оно бросает вызов сердцу разными способами, сказал доктор Аарон Бэггиш, профессор медицины в Лозаннском университете в Швейцарии и директор программы сердечно-сосудистой деятельности в Массачусетской больнице общего профиля. «Что уникально в этом, так это то, что он сочетает в себе два основных стресса, на которые реагирует сердце, а именно давление и объем», — пояснил он.
Гребля часто используется для тренировки выносливости, которая увеличивает объем крови и со временем может привести к увеличению частей сердца, чтобы оно могло перекачивать больше крови. Но движение также включает в себя короткие всплески интенсивных усилий, похожих на силовые тренировки, которые повышают кровяное давление и укрепляют стенки сердца. Большинство преданных своему делу спортсменов демонстрируют только одно изменение в своем сердце или другое, в зависимости от выбранного ими вида спорта. Однако исследование доктора Баггиша показало, что оба типа стресса приносят пользу сердцу гребцов.
Image Басс Андре, член команды по гребле Университета Талсы, демонстрирует правильную форму. Эксперты говорят, что гребля — это не только тренировка всего тела, но и особенно полезна для сердца. Кредит… Мелисса Люкенбо для The New York Timesпару раз в неделю», — сказал он.
Но когда дело доходит до гребли, нужно учиться. Правильная форма имеет решающее значение — не только для предотвращения травм, но и для развития мощного, эффективного гребка и достижения хорошей тренировки.
«В некоторых отношениях гребля кажется очень легкой, но получить от нее максимальную отдачу, стать эффективной довольно сложно», — сказал Акил Абдулла, бывший олимпийский гребец и инструктор Hydrow.
Самое важное, что нужно помнить о гребле, это то, что, хотя кажется, что вы дергаете ручку (или весла) руками, большая часть силы исходит от ваших ног до самого конца. «Гребля — это вид спорта, требующий напряжения, а не тяги», — сказал Нил Бергенрот, тренер по гребле из Талсы, штат Оклахома, у которого есть канал на YouTube, посвященный обучению гребле.
Во время гребного гребка происходит многое, поэтому движение обычно разбивается на четыре этапа: ловля, толчок, финиш и выход.
В положении захвата ваши колени должны быть согнуты, а корпус слегка наклонен вперед. Он знаменует собой конец движения вперед и начало драйва.
Привод — это место, где большая часть мощности приходится на греблю. Отталкивайтесь ногами и поворачивайтесь от бедер.
В финишной позиции , сядьте прямо, отклонив тело назад примерно на 30 градусов и прижав ручку.
При переходе в исходное положение наклонитесь вперед в бедрах, держа спину прямо.
Фиксатор
В положении фиксатора сиденье сдвигается к передней части машины. Ваши колени должны быть выше лодыжек, голени вертикально. Ваше тело слегка наклонено вперед, а руки вытянуты перед ногами.
Привод
В гребле большая часть силы и усилий приходится на драйв. Удерживая корпус в напряжении, оттолкните тренажер ногами, соприкасаясь с подушечкой стопы и пяткой. «Когда вы опускаете пятку, вы можете задействовать заднюю цепь», или мышцы, расположенные вдоль задней части тела, такие как икры, подколенные сухожилия и ягодицы, — говорит Кейси Гальванек, главный тренер Ассоциации гребцов США. Система юниорской сборной. По его словам, это помогает вам создавать больше силы, используя больше мышц.
После того, как вы оттолкнулись примерно наполовину назад, согнув колени примерно на 90 градусов, начните отклоняться назад, поворачиваясь бедрами. Вы должны почувствовать, как ваши широчайшие — основные мышцы спины — начинают напрягаться, когда вы держитесь за ручку. Наконец, отведите локти назад, чтобы прижать рукоять к груди.
Финиш
В конце гребка вы должны сидеть прямо, с напряженным корпусом, ноги прямо перед собой. Ваше тело должно быть наклонено назад примерно на 30 градусов — подумайте об отметке 11 часов на циферблате. Рукоятку подтягивают к телу чуть ниже уровня груди так, чтобы цепь располагалась горизонтально.
Многие эксперты рекомендуют начинать тренировку в конечной позиции, чтобы с самого начала обеспечить правильную осанку.
Восстановление
Во время восстановления вы двигаетесь назад к передней части тренажера, чтобы подготовиться к следующему гребку. Сначала вытяните руки. Затем наклоните свое тело вперед, поворачивая бедра так, чтобы ваше туловище перемещалось от 11 часов до 1 часа на циферблате, и вы наклонялись вперед примерно на 30 градусов. Движение должно исходить от бедер, а не от спины, и пресс должен быть задействован.
«Покачайте или поверните тело тазом вместо того, чтобы округлять пупок», — сказал мистер Гальванек. «Сгорбившись, вы рискуете повредить нижнюю часть спины».
Когда вы наклонитесь вперед, начните сгибать ноги, чтобы приблизиться к передней части тренажера. Во время восстановления думайте «руки, корпус, ноги» и двигайтесь в этой последовательности. Во время движения последовательность обратная: ноги, корпус, руки.
После того, как вы освоили основы гребного движения, пришло время проверить вашу форму. Как и большинство аэробных тренировок, гребля может быть длинной и медленной (для тренировки выносливости) или короткой и быстрой (для интервальной тренировки). Если вы новичок в этом виде спорта, выполняйте движения медленно, чтобы убедиться, что вы используете правильную технику.
Когда вы почувствуете себя более комфортно и уверенно на тренажере, вы сможете приступить к интервальным тренировкам, где вы будете грести более короткими и быстрыми сериями. Например, гребите от двух до пяти минут с частотой гребков от 20 до 28 гребков в минуту с последующим минутным перерывом. Повторите это три-пять раз в течение 10-20-минутной тренировки.
Другой распространенный способ структурирования интервальных тренировок — по расстоянию, которое также должно отображаться на экране. Типичная гребная гонка составляет 2000 метров, и гребцы часто говорят о своем промежуточном времени на 500 метров. Тренировка, рекомендованная г-ном Абдуллой, — это гребля на 500 метров, рассчитанная на две или три минуты. Отдохните от 30 до 60 секунд и сделайте это снова, повторив в общей сложности четыре раза, чтобы добраться до 2000 метров.
Грести на лодке может быть сложнее, чем на тренажере, потому что приходится приспосабливаться к стихиям. Тем не менее, ваша форма должна оставаться неизменной, независимо от того, гребете ли вы по суше или по воде. Кредит… Мелисса Люкенбо для The New York TimesЕсли вы хотите попробовать грести на настоящей воде, посмотрите, есть ли гребной клуб в вашем районе, предлагающий вводные занятия или принимающий новых членов.
Существует два типа гребли на воде: гребля на веслах, когда используются два весла, по одному в каждой руке; и подметание, которое всегда выполняется несколькими людьми в лодке и когда каждый человек гребет одним веслом в обеих руках. Гребля на веслах может выполняться одним, двумя или четырьмя людьми на лодку, а подметание — двумя, четырьмя или восемью людьми на лодку.
Грести на лодке может быть сложнее, чем на машине, потому что вам придется сражаться со стихиями и, в некоторых случаях, работать с товарищами по команде. Тем не менее, ваша техника должна оставаться неизменной независимо от того, гребете ли вы по суше или по воде.