Виды гистограмм: Гистограммы. Что это? Как построить? Как представить данные? Как провести анализ? | Бережливые шесть сигм | Статьи | База знаний

Содержание

Различные виды гистограмм

г ) Распределениес обрывом слева (справа). Среднее значение параметра находится существенно левее (правее) центра диапазона. Такая форма может свидетельствовать о выполненных мероприятиях по«просеиванию» данных (100% контроля) при плохой воспроизводимости процесса с целью уменьшения приближения параметра к НГС (ВГС).

д) Плато (равномерное, близкое к прямоугольному распределению). Частоты попаданий в интервалы почти равны. Возможно, имело место смешивание данных нескольких процессов либо они подчиняются закону равномерного распределения.

е) Двухпиковый (бимодальный тип распределения).В центральной области распределения низкие частоты попадания параметра в интервалы, а по краям наблюдаются два пика. Это означает, что имело место

смешивание двух процессов.

ж) Распределение с дополнительным пиком (засоренное распределение). Данные имели малые включения из распределения другого процесса.

Диаграмма причин и результатов (схема Исикавы)

В 1953 г.профессор Токийского университетаКаору Исикава, обсуждая проблемы качества на одном из японских заводов, сформулировал мнение инженеров в виде диаграммы причин-результатов, показывающей отношение между показателями качества и воздействующими на них факторами. Впоследствии благодаря внешнему виду их стали называть «Fishbone» — рыбий скелет и широко использовать как метод командного штурма при решении различных проблем, решение которых требует выявления причин (источников) этих проблем вплоть до глубинных причин.

Можно использовать позитивные и негативные диаграммы Исикавы

Правила построения диаграмм Исикавы:

  1. Рисуем горизонтальную прямую линию (хребет рыбы) и справа (в ее голове) вписываем сформулированную проблему или желаемую цель.

  2. Генерируем общие факторы, влияющие на проблему, или действия, способствующие достижению цели (крупные кости).

  3. Декомпозируем эти факторы на составляющие, вплоть до «монофакторов», либо сложные действия на более простые, которые может устранить (выполнить) конкретный исполнитель в заданный срок.

  4. Разрабатываем план работ с указанием ответственных за каждый этап.

Анализ Парето

Вильфредо Парето, итальянский экономист (1845-1923 г.г.) сформулировал в 1897 г. закон: 90-95% всех благ в мире принадлежит 7% членов общества, а 5% — остальным.

Американский экономист С.М.Лоренц в 1907 г. подтвердил этот закон.

Доктор Д.М. Джуран применил этот закон в области управления процессами для классификации проблем качества, разделив их на

немногочисленные существенно важные и многочисленные несущественные.

Он предложил формулировку: «Подавляющее число дефектов и связанных с ними потерь возникают из-за относительно небольшого числа причин» и правило «80-20».

Диаграмма Парето, построенная по результатам выявления дефектов в партии изделий

В практике используют 2 вида диаграмм Парето: по результатам деятельности и по причинам.

Диаграммы рассеяния (корреляционные графики)

Коэффициент корреляции

Коэффициент корреляции принимает значения в диапазоне

-1 < r < 1.

Если абсолютное значение r окажетсябольше 1, то это означает, что произошлаошибка при вычислении. При сильной положительной корреляции достигается значениеr, близкое к +1, а при сильной отрицательной корреляции – близкое к -1. При значенииr= 0 корреляция слабая, т.е. взаимосвязи между факторами не наблюдается.

Стратификация – это расслоение данных по слоям (страты — слои), т.е. по материалам, оборудованию, операторам и т.д.

Типы распределений и соответствующие им гистограммы | Бережливые шесть сигм | Статьи | База знаний

Гистограммы помогают наглядно представить некоторые статистики выборки, а также визуально оценить закон распределения. Так как последний зачастую представляет наибольший интерес, визуальной оценке некоторых наиболее часто встречающихся распределений мы и уделим внимание в этой статье.

Для построения гистограмм воспользуемся генератором случайных чисел в программе Minitab. Подробное руководство и урок на одном листе уже опубликованы на нашем сайте, поэтому на самой процедуре получения чисел мы детально останавливаться не будем. Для каждого случая, за исключением отдельных примеров, будем генерировать по 1000 значений. Там, где это возможно, будем оставлять значения параметров по умолчанию. А там, где программа не предлагает таких значений, будем стараться разобрать на примере, какие величины мы могли бы внести.

Статья получилась довольно длинной, поэтому для удобства навигации добавлено содержание. Каждому рассмотренному распределению соответствует отдельный самодостаточный раздел. Это значит, что нет необходимости читать все подряд, но можно обратиться к нужному разделу, чтобы найти информацию об интересующем распределении. Ну а если такой информации не нашлось, обязательно оставьте отзыв в комментариях под публикацией.

Содержание:


Нормальное распределение (Normal distribution) или распределение Гаусса

Начнем, разумеется, с нормального закона распределения. Из всех распределений в проектах шести сигм чаще всего приходится иметь дело именно с ним. Нормальному распределению может подчиняться практически любая переменная, на которую не влияют специальные факторы (например, связывающие или ограничивающие).

В силу того, что на любой процесс влияет огромное количество различных факторов, его результат никогда не принимает одно и тоже значение, но распределяется вокруг некоторого значения – математического ожидания или среднего арифметического значения, если говорить о выборке. Следовательно, генерируя случайный набор чисел, подчиняющихся нормальному закону распределения, программа попросит нас задать среднее значение – Mean, а также Standard deviation – стандартное отклонение или меру рассеивания наблюдений вокруг математического ожидания:

Если построить гистограмму нормального распределения, то говорят, что она напоминает перевернутый колокол:

Примечательно, что какие бы величины параметров (математическое ожидание и стандартное отклонение) мы не задали, форма гистограммы от этого не поменяется. Чего не скажешь о следующем испытуемом.


Распределении Chi-square или χ2 (хи-квадрат)

Попробуйте сгенерировать 2 набора данных, указав разное количество степеней свободы (Degrees of freedom) – k: 1 и 5, к примеру.

Гистограммы частично перекроют друг друга, однако на графике отчетливо видно, что с увеличением числа степеней свободы пик смещается вправо. А если задать число степеней свободы 30 или выше, то гистограмма начнет напоминать нормальное распределение.

Практикам шести сигм довольно часто приходится иметь дело с распределением хи-квадрат. В частности, оно используется в тестах гипотез. Например, для оценки того, насколько хорошо выборка может быть описана распределением Пуассона (Stat \ Basic Statistics \ Goodness-of-Fit Test for Poisson), сопряженности номинальных данных (Stat \ Tables \ Chi-Square Test for Association) и т.д.

Больше о тестировании гипотез в среде Minitab вы можете в Карте выбора теста гипотез.


Распределение Фишера или Снедекора (F-distribution)

Движемся дальше – распределение Фишера или Снедекора (F), форма которого также будет зависеть от двух параметров: числителя и знаменателя числа степеней свободы – Numerator degrees of freedom и Denominator degrees of freedom соответственно.

По сути, это две независимые случайные величины, каждая из которых подчиняется распределению χ2. Чтобы не влезать в дебри статистики и просто оценить их влияние, создайте 4 набора данных, задав следующие параметры:

Гистограммы для полученных таким образом числовых рядов будут выглядеть следующим образом:


Распределение Стьюдента (t-distribution)

Распределение Стьюдента (t) также часто применяется в статистическом анализе, к примеру, для построения доверительных интервалов, в тестах гипотез и т.д. T-критерий – частый “участник” проектов шести сигм.

Внешне гистограмма распределения Стьюдента может напоминать нормальное распределение: она также симметрична и также напоминает перевернутый колокол. Например, гистограмма распределения Стьюдента с числом степеней свободы 50 может иметь следующий вид:

Немного “упитаннее” и чуть короче хвосты, а в остальном полностью напоминает нормальное распределение.


Равномерное распределение (Uniform distribution)

На всех гистограммах выше был ярко выраженный пик. Но бывает и так, что на гистограмме присутствует большое количество пиков или вовсе нет выраженного пика. Иными словами, гистограмма представляет собой “плато”. Такие гистограммы встречаются довольно редко в проектах шести сигм и зачастую свидетельствуют о наличии специальных факторов вариации. Если каждый интервал гистограммы содержит примерно равное количество значений, то такая гистограмма называется однородной или гистограммой равномерного распределения (Uniform):

Для того, чтобы программа сгенерировала такой набор данных, нужно задать всего 2 параметра: начальную (Lower endpoint) и конечную точки (Upper endpoint). В примере выше это 0 и 20 соответственно.


Распределение Бернулли (Bernoulli distribution)

Распределение Бернулли (Bernoulli distribution) – распределение наблюдений, значения которых могут принимать лишь 2 взаимоисключающих значения: 0 или 1, успех или неудача, качественный или некачественный продукт и т.д.

При генерации чисел, программа просит задать лишь один параметр – вероятность события (Event probability),  значение от 0 до 1 (от 0 до 100%):

Вероятность того, что событие не произойдет, соответственно, равно разнице между 1 и вероятностью того, что событие произойдёт. Гистограмма такого распределения, ожидаемо, ничем нас тоже не удивит – 2 колонки, отражающее, сколько раз событие произошло и сколько раз событие не произошло:


Биномиальное распределение (Binomial distribution)

Биномиальное распределение (Binomial distribution) – также частый “участник” проектов шести сигм. Оно описывает вероятность события в серии независимых экспериментов. Например, сколько раз может выпасть число 6, если вы кинете игральную кость 10 раз? Ну или сколько бракованных изделий вы найдете, если возьмете 10 образцов из очень большой партии изделий?

Параметры распределения: количество экспериментов (Number of trials) и вероятность события (Event probability).

А вот и ответ на наши вопросы в графическом виде:

Выходит, что вероятнее всего найти 1 дефектное изделие в выборке или выкинуть шестерку 1 раз.


Геометрическое распределение (Geometric distribution)

Геометрическое распределение (Geometric distribution) – еще одно распределение, описывающее вероятность события, с тем лишь отличием, что мы получаем количество опытов до первого “успеха”. Иными словами, скольким автомобилям в конце линии нужно заглянуть под капот, чтобы найти брак?

Minitab попросит нас задать лишь вероятность – значение от 0 до 1 (от 0 до 100%). Но не спешите нажимать Ok. На сей раз при генерации чисел в диалоговом окне доступна кнопка Options. Давайте нажмем ее и посмотрим, какие возможности нам предлагает программа:

Итак, мы можем выбрать Model the total number of trials (смоделировать количество экспериментов до первого события) или Model only the number of non-events (смоделировать количество “неудач” до первого “успеха”).

Что мы видим на диаграмме? При заданной вероятности (0,1) почти 200 раз из 1000 мы нашли брак, заглянув под капот первого, второго или третьего авто. Если же проверить 10 машин, то общее значение повышается до 720 из 1000. Иными словами, вероятность вырастет до 72%.

Понятно, что до 100% можно добраться, лишь контролируя все автомобили в конце конвейера. Что, по сути, и делается на всех автомобильных заводах. Однако график показывает нам, что за 50 переваливает лишь 5 наблюдений. Это означает, что проведя контроль 49 авто, мы найдем брак с вероятностью 99,5%.


Отрицательное биномиальное распределение (Negative binomial) или распределение Паскаля

Данное распределение моделирует количество экспериментов до получения требуемого количества событий. Проводя параллель с задачей, которую мы разбирали выше, можно сформулировать вопрос так: сколько капотов необходимо открыть, чтобы найти определенное количество бракованных машин.

В отличие от предыдущего распределения – геометрического, – мы ищем количество опытов не до первого события, а до заданного числа событий. Если задать вероятность (Event probability) 0,1 и число требуемых событий (Number of events needed) 1, то получим такую же гистограмму, что и выше. Она покажет, что до первого брака нам нужно взять выборку в 49-50 авто. Но задав (Number of events needed), например, 5, получим совсем другую картину:

Чтобы найти 5 бракованных авто, придется заглянуть под сотню капотов. 117, если быть точным и придерживаться уровня 99,5%.

Говорят: “В каждой шутке есть доля правды”. Вот и из этого шутливого примера с капотами можно сделать 2 вывода:

  1. Хорошо, что современные производители машин производят на уровне 6 сигм и выше.
  2. А что это там в стороне за стоянка, и почему там крутится столько техников?

Гипергеометрическое распределение (Hypergeometric distribution)

Также, как и предыдущее, гипергеометрическое распределение описывает количество событий в серии экспериментов, с тем лишь отличием, что генеральная совокупность ограничена. Можно с уверенностью сказать, что это – любимое распределение сотрудника отдела качества, так как дает ответ на вопрос: какую выборку взять из партии, чтобы найти в ней дефект.

Параметры распределения:

  • Размер популяции – Population size (N) – это наша партия. В начале статьи мы с вами условились, что будем генерировать по 1000 наблюдений. Но чуть ниже я поясню, почему в случае гипергеометрического распределения это было не самым удачным решением.
  • Количество событий в популяции – Event count in population (M) – количество бракованных образцов в партии. Вы его не знаете, но наверняка предполагаете исходя из вероятности или предыдущего опыта с поставщиком.
  • Размер выборки – Sample size (n).

Гистограмма, которую мы получим, покажется нам весьма знакомой:

Если вы промотаете выше, то заметите что это брат-близнец гистограммы биномиального распределения. Так и есть, и в этом нет ничего странного. Распределения очень похожи, и даже примеры, которые мы с вами рассматриваем, одни и те же: партия, выборка, брак…

Это сделано не для того, чтобы вас запутать, а скорее наоборот – показать практическое применение рассматриваемых распределений. Обычно, когда вы берете образец для контроля качества, вы же не возвращаете его, чтобы потом опять выбрать случайным образом следующий образец из целой партии. Следовательно, если вы не нашли дефекта на первом образце, то вероятность нахождения дефекта на втором образце возрастает. Для описания этого подходит гипергеометрическое распределение.

Учебник по статистике или Википедия вам так и скажет: “Моделирует количество удачных выборок без возвращения из конечной совокупности”. Вот только когда вы имеете дело с большими партиями, как например партия в 1000 изделий, оба распределения могут быть с одинаковым успехом применены.

Поэтому, рассматривая биномиальное распределение, мы говорили об “очень большой партии”, а рассматривая гипергеометрическое, просто о партии и о том, что условиться генерировать 1000 значений было не самым удачным решением.

Кстати, возвращаясь к полученной гистограмме гипергеометрического распределения, можно с грустью констатировать, что если выборка в ходе приемочного контроля качества равна 20, наши поставщики могут спать спокойно, а производство – готовиться к новым вызовам.


Дискретное распределение (Discrete distribution)

Следующее распределение в списке – это дискретное (Discrete distribution). Тут следует сделать оговорку, так как это меню в списке Minitab-а предлагает нам сгенерировать некий числовой ряд с заданными величинами и вероятностями их появления в этом ряду. Это не отдельный вид распределения, а лишь общее название для распределений со счетным числом значений. Под эту категорию подпадают уже рассмотренные выше распределения: Бернулли, биномиальное, гипергеометрическое и другие.

Что нам потребуется, чтобы сгенерировать такое распределение? Нам потребуется таблица с данными и вероятностями появления этих данных. Например, для игральной кости это может выглядеть так:

У кубика 6 сторон с числами от 1 до 6. Вероятность выпадения какого-либо из них 1/6 или 0,16667:

Гистограмма для этого набора данных и такого распределения нас не удивит – она будет напоминать гистограмму равномерного распределения:

Задай вы другие величины, их количество и вероятности, гистограмма приняла бы совершенно другой вид, напоминая любое другое распределение или их смесь.


Целочисленное распределение (Integer distribution)

Опять начнем с оговорки, что это не совсем распределение – скорее, синтетический способ генерирования чисел, который предлагает нам Minitab для понимания важных теорий и практик статистического анализа.

Параметры распределения, которые нам потребуется задать: минимальное и максимальное значения. Меню, как вы заметили, очень напоминает то, как мы моделировали данные для равномерного распределения. С тем лишь отличием, что в результате мы получим только целые числа. При равномерном распределении мы могли получить целые и дробные числа.

Разделом выше мы задали величины от 1 до 6 и равные вероятности для них. Для целочисленного распределения будет достаточно задать минимальное значение (Minimum value) равным 1 и максимальное (Maximum value) – равным 6:

Гистограмма, ожидаемо, будет напоминать гистограмму равномерного распределения, а также тот график, что мы получили для дискретного распределения:


Распределение Пуассона (Poisson distribution)

Еще один частый участник проектов шести сигм – распределение Пуассона. С его помощью можно моделировать очень много процессов: количество обращений в банк за день, количество запасов для покрытия еженедельного спроса, количество инцидентов на производстве или смертей в больнице… Сложно переоценить спектр применения и важность этого распределения.

Для моделирования данных программа попросит задать всего один параметр1 – среднее значение (Mean). Давайте представим, что магазин электротоваров продает в среднем 5 пылесосов в день:

Полученная гистограмма даст возможность понять, к примеру, сколько пылесосов должно быть на складе, чтобы удовлетворить спрос с вероятностью 95%:

Чтобы не считать вручную, можно прибегнуть к анализу, который был рассмотрен в заметке Диаграмма распределения вероятностей (Probability Distribution Plot). Ну а продавай вы пылесосы десятками, можно было бы смело обратиться к нормальному распределению – с увеличением среднего распределение Пуассона все больше начинает напоминать нормальное распределение.


Бета-распределение (Beta distribution)

Данное распределение встречается реже в практике шести сигм, однако с его помощью, теоретически, можно моделировать любую случайную величину, значение которой ограничено определенным интервалом. Т.е. если стоит задача понять, когда на сайте появится новый читатель, какой срок согласования документов или любые другие SLA и т.д., то понадобится именно бета-распределение.

Для моделирования данных потребуется задать два параметра: α (альфа или First shape parameter) и β (бета или Second shape parameter). Гистограмма распределения будет зависеть от величины заданных параметров. Для понимания предлагаю сгенерировать наборы данных со следующими параметрами:

В результате получим 5 абсолютно различных гистограмм от параболической и равномерной до одновершинной симметричной и ассиметричной:

Глядя на эти графики, представьте, что α – это новый посетитель сайта SixSigmaOnline.ru, а β – пользователь Facebook. С какой вероятностью еще один человек оторвется от пролистывания темы и возьмется за голову шесть сигм?


Распределение Коши (Cauchy distribution)

Также известно как распределение Лоренца и Брейта-Вигнера. Вы наверняка встречались с этим распределением, проходя курс физики, но в проектах шести сигм это – не частый гость. Мне вот с ходу и не приходит на память проект, в котором я имел бы дело с этим распределением. Тем не менее, в списке Minitab-а это распределение есть – значит, наше дело нехитрое: генерируем данные и строим гистограмму.

У этого распределения нет математического ожидания и дисперсии, но есть коэффициент сдвига (Location) и коэффициент масштаба (Scale). Нам нет необходимости разбираться в статистике до малейших подробностей, поэтому можем условно представить, что коэффициент сдвига, даже если не представляет математическое ожидание, отражает положение пика гистограммы. А коэффициент масштаба – даже если не говорит о дисперсии – отражает размах. Также нет необходимости менять значения по умолчанию:

По сравнению с нормальным распределением, у гистограммы распределения Коши более длинные “хвосты” и острая вершина. К примеру, на графике ниже очень широкая шкала по оси X и заметна асимметрия вследствие того, что некоторые наблюдения значительно удалены от пика. Эксцесс (Kurtosis) – мера островершинности – равен 211 (у нормального распределения эксцесс близок к 0):


Экспоненциальное распределение (Exponential distribution)

Это непрерывное распределение моделирует время между двумя последовательными появлениями одного и того же события. Например, время между появлениями двух покупателей в магазине, метеоритов в небе, автобусов на остановке и даже период полураспада радиоактивных частиц будет случайной величиной с экспоненциальным распределением.

Параметры оставляем без изменений:

  • Scale – коэффициент интенсивности появления событий. С определенным допущением можем провести аналогию с распределением Пуассона и принять этот коэффициент за среднее значение.
  • Threshold – нижняя граница распределения – 0 (время между появлениями двух клиентов в магазине не может быть ниже 0).


Гамма-распределение (Gamma distribution)

Двухпараметрическое семейство абсолютно непрерывных распределений. Они применяются в различных отраслях экономики и техники, теории и практике испытаний надежности. В частности, гамма-распределению могут быть подчинены такие величины, как общий срок службы изделия, время наработки до k-го отказа (k = 1, 2, …, и т.д.). Также, это распределение используется в логистике для описания спроса в моделях управления запасами.

Параметры распределения могут называться по-разному. В Minitab это Shape parameter и Scale parameter. Чтобы оценить их влияние на распределение, сгенерируем 4 набора данных:

Также Minitab предлагает установить нижнюю границу распределения – Threshold, – но работает это так же, как и в случае с экспоненциальным распределением. Поэтому дополнительно рассматривать влияние его значения м не будем.

Судя по полученным гистограммам:

  • Первый параметр отвечает за положение пика.
  • Второй – за “ширину” гистограммы.

Распределение Лапласа (Laplace distribution)

Распределение Лапласа не часто встречается в проектах шести сигм, однако широко применимо в биологии, экономике и финансах. Для получения данных потребуется установить два параметра: Location (коэффициент сдвига) и Scale (коэффициент масштаба). Оставим значения по умолчанию:

Гистограмма распределения весьма напоминает нормальное распределение, только с более острой вершиной:


Распределения экстремумов (Extreme Value Distribution)

В этом разделе мы рассмотрим 2 распределения: распределение минимального значения (Smallest extreme value distribution) и распределение максимального значения (Largest extreme value distribution). Еще к этому семейству относится распределение Вейбулла, но его мы рассмотрим отдельно.

Как следует из названия, эти распределения помогут нам понять экстремумы: минимум и максимум. Отсюда и область применения: там, где предвидеть экстремумы очень важно. А это – анализ надежности критических процессов, финансовых рисков, страхование… Например, распределение минимального значения (Smallest extreme value distribution) может нам помочь понять при какой минимальной температуре система откажет? А распределение максимального значения (Largest extreme value distribution) – наивысшие страховые потери.

Сгенерируем данные для Smallest extreme value distribution, оставив значения параметров Location (коэффициент сдвига – отвечает положению пика) и Scale (коэффициент масштаба – отвечает дисперсии наблюдений) по умолчанию. Затем повторим тот же алгоритм для Largest extreme value distribution, оставив значения параметров по умолчанию:

Гистограммы, соответствующие распределениям:


Логистическое распределение (Logistic distribution)

Логистическая функция распределения по форме похожа на функцию нормального распределения. Её главное предназначение – моделирование данных бинарного типа. Используется, например, в медико-биологических исследованиях для анализа эффекта различных лекарств, ядов и т.д. От нормального распределения логистическое отличается длинными “хвостами” – данными, находящимися в крайних, отдалённых от центра, позициях.

Сгенерируем данные, оставив значения параметров Location (коэффициент сдвига – отвечает положению пика) и Scale (коэффициент масштаба – отвечает дисперсии наблюдений) по умолчанию:

Гистограмма логистического распределения:


Лог-логистическое распределение (Log-logistic distribution)

Лог-логистическое распределение, в отличие от логистического, является трехпараметрическим. Оно полностью повторяет логистическое распределение, однако благодаря третьему параметру – Threshold или нижней границе распределения – позволяет моделировать только часть логистического распределения – данные больше 0.

Сгенерируем данные, оставив значения параметров по умолчанию:

Гистограмма лог-логистического распределения:


Логнормальное распределение (Lognormal distribution)

Частным случаем нормального распределения является логнормальное распределение. Оно является непрерывным унимодальным распределением и имеет положительную асимметрию. Этому распределению с заданной степенью приближения подчиняется, например, размер фракций гравия или града. Аналогичные примеры: длительность часто повторяемого события (время выполнения операции на конвейере) или размер зарплат футболистов одного клуба. Как правило, значительно большее количество игроков имеет среднюю зарплату, но есть игроки-звезды мирового класса, которые зарабатывают значительно выше других игроков (правый хвост гистограммы).

Сгенерируем данные, оставив значения параметров по умолчанию, и построим гистограмму логнормального распределения:


Распределение Симпсона или треугольное распределение (Triangular distribution)

Довольно интересное распределение, которое не часто встретишь в проектах шести сигм. Его можно получить “синтетически”, как мы это сделаем ниже, задав начальную точку (Lower endpoint), моду (Mode), и конечную точку (Upper endpoint):

В таком случае этот упрощенный закон поможет нам помочь понять распределение при отсутствии или ограниченном количестве данных. Например, у нас может не быть достаточных данных для оценки стоимости постройки нового здания. Но мы можем оценить минимум, максимум и наиболее вероятное значение. И раз у нас недостаточно данных, чтобы сформулировать гипотезу об ином распределении, построим гистограмму треугольного распределения:

Мы также можем получить треугольное распределение путем сложения или вычитания двух переменных, подчиняющихся равномерному закону распределения. На отдельном листе я сгенерировал 2 колонки по 1000 наблюдений, подчиняющихся равномерному распределению:

Затем, используя функцию Calc \ Calculator, создал еще одну колонку, значения в которой являются результатом вычитания первой и второй колонок:

Гистограмма полученных таким образом наблюдений также будет напоминать треугольное распределение:

Это свойство позволяет применять треугольное распределение для моделирования сложных законов распределения. К примеру, так можно представить некоторые природные явления, бизнес-процессы, аудио размывание (audio blur)…


Распределение Вейбулла (Weibull distribution)

Распределение Вейбулла может быть применимо для моделирования широкого спектра задач. Однако в проектах шести сигм, это неизменный участник анализов надежности и определения времени до отказа.

Чтобы получить данные, задайте следующие параметры:

  • Shape parameter (k) – коэффициент формы.
  • Scale parameter (λ) – коэффициент масштаба.
  • Threshold parameter – нижняя граница распределения, оставляем значение по умолчанию.

Кстати, иногда говорят о распределении Вейбулла как о двухпараметрическом, а иногда – как о трех. Как вы видите выше, нам требуется задать 3 параметра. Т.е. распределение на самом деле трехпараметрическое. В то же время, задав Threshold равным 0, получаем двухпараметрическое распределение.

Давайте снова сгенерируем несколько наборов данных, чтобы оценить влияние параметров на форму гистограммы:

В результате получим 4 гистограммы, из которых можно заключить, что первый параметр – Shape parameter (коэффициент формы или k) – “двигает” пик, а второй — Scale parameter (коэффициент масштаба или λ) – определяет “ширину” гистограммы:


Многомерное нормальное распределение (Multivariate normal distribution)

Вы могли заметить, что двигаясь по списку доступных в меню Minitab распределений, мы упустили многомерное нормальное распределение. Это было сделано умышленно, так как и с данными, и с графиком нам придется повозиться. Но не стоит переживать. В этом распределении нет ничего сложного.

По сути, мы уже разобрали его частный случай – одномерное нормальное распределение. Просто мы не говорили, что оно одномерное. Многомерное можно представить как результат, зависимый от двух переменных, подчиняющихся нормальному закону распределения.

Давайте сгенерируем две колонки по 1000 наблюдений, удовлетворяющих нормальному закону распределения. Параметры – среднее и стандартное отклонение – в данном случае не имеют значения, хотя мы можем представить, что в одной колонке у нас будет температура (180°C), а в другой давление (760мм рт. ст.).

В меню Graph выберите Marginal Plots и в появившемся окне кликните на иконку With Histograms:

В следующем окне задайте колонки С1 и С2 в качестве переменных X и Y:

Нажав Ok, получим следующий результат:

Каждая точка на графике соответствует результату, который мы получим при определенной величине температуры и давления: где-то пирожки недопекутся, а где-то пригорят.

В проектах шести сигм многомерное нормальное распределение используется крайне редко. Однако некоторые методики анализа (факторный анализ, MANOVA) основываются на предположении, что данные подчиняются многомерному нормальному распределению.

Вот далеко не полный перечень типов существующих распределений и соответствующих им гистограмм. Внешнее отличие построенной вами гистограммы от перевернутого колокола еще совсем не означает, что данные собраны неправильно или что процесс нестабилен. Однако это всегда заставляет исследователя задуматься и постараться найти объяснение такому результату.

Гистограмма — QUORACE

Гистограммы позволяют сделать при контроле качества предварительную оценку закона распределения случайной величины, т.е. понять, как происходит разброс значений, есть ли влияющие факторы и как они влияют на измеряемый результат.
Гистограмма является столбчатым графиком и позволяет наглядно представить характер распределения случайной величины

Построение гистограммы происходит следующим образом
1. Создаётся план исследования, проводятся измерения, результаты заносятся в таблицу. Результатом может быть, как фактическое измеренное значение, например, момент затяжки 20 Н*м, так и отклонение от требуемого значения, например, запись отклонения в 0,05 мм при оценке диаметра изделия.
В Таблице 1 приведён пример для 40 результатов измерений момента силы (Н*м).
Заданный момент силы равен 25,5 Н*м, отклонения ±1,5 Н*м. Он будет рассмотрен для построения гистограмм.
Таблица 1.

2. В полученной выборке находят минимальное и максимальное значение Xmin и Xmax (Таблица 2).
3. Вычисляют разницу R=Xmax-Xmin (Таблица 2).
4. Разницу R разбивают на z равных интервалов (L), где z=√N, N – объём всей выборки (количество измеренных значений параметра) (Таблица 2). Для точного анализа выборка должна быть представительной, т.е. быть достаточной для проведения анализа и его точной интерпретации. Представительной считается выборка от 35 до 100 значений, обычно N=100. Длина интервала L=R/x должна быть больше цены деления шкалы измерительного устройства, которым выполнялись измерения.
Таблица 2.

5. Подсчитываются частоты попадания значений в интервалы, составляется таблица распределения и строится его графическое изображение. При этом частоты значений, оказавшиеся на границе интервалов, поровну распределяют между соседними интервалами (Рис.1)

Рис.1
Имея таблицу распределения значения X(среднее арифметическое) и S2 (стандартное отклонение) можно рассчитать по формулам

Где xi – среднее значение i-го интервала

Или воспользовавшись соответствующими функциями в MS Excel
СРЗНАЧ() для X
СТАНДОТКЛОН.В() или СТАНДОТКЛОН.Г() для S2
Зная X и S2 можно оценить индекс воспроизводимости процесса (Ср), который будет рассмотрен в другой статье.

Исходя из гистограммы, рассмотренной в примере, можно сделать вывод о том, что часть значений находится вне допусков и большинство значений уходят в сторону двух пиков по левую и правую границу допусков, что характерно для выборки, объединяющей результаты двух процессов, когда происходит смешивание двух распределений с далеко отстоящими средними значениями. В данном случае необходимо применить метод стратификации и провести анализ ещё раз. В данном случае можно предположить, что измерения проводились двумя различными ключами, что и дало такой результат. Разделение данных по различным ключам позволит исключить двойные пики в гистограмме.
Таким образом, существуют некоторые основные типы гистограмм исходя из графического представления которых можно сделать выводы о характере популяции.

Существует восемь основных типов гистограмм:

  1. Нормальное распределение. Обычный тип. Форма колокола.

    Симметричная форма с пиком примерно в центре интервала характерна для нормального распределения. Отклонения от данной формы могут указывать на наличие различных причин, влияющих на распределение.
  2. Распределение с двумя пиками.

    В центре интервала низкая частота попадания, зато есть два пика по левую и правую стороны интервала. Подобное распределение говорит о том, что в выборку включены значения, объединяющие различные процессы, например, смешаны результаты контроля двух станков или была произведена различная настройка контролирующего инструмента.
  3. Плато

    При подобном распределении можно говорить о влиянии условий, аналогичных предыдущей гистограмме, отличие в том, что средние значения нескольких распределений отличаются незначительно. Необходимо провести расслоение данных, снизить вариабельность процессов.
  4. Распределение гребенчатого типа.

    Чередующиеся высокие и низки значения обычно указывают на ошибки измерений или ошибки в способе группировки данных, также на систематическую погрешность в способе округления данных. Существуют незначительная вероятность того, что это распределение типа плато. Если значения в таблицу заносятся человеком, то наличие пиков на целых числах может быть обусловлено влиянием человека при округлении значений. Человеку свойственно отдавать предпочтения при записи круглым числам
  5. Положительно или отрицательно скошенное распределение.

    Среднее значение гистограммы локализовано слева или справа от центра размаха. Частоты резко спадают к противоположному от пика концу. Форма ассиметрична. Подобное распределение возможно, когда невозможно получение значений больше или меньше определённой величины, либо при наличии одностороннего поля допуска, также это может быть влияние точности заготовок при их механической обработке.
  6. Усечённое распределение, с обрывом справа или слева.

    Среднее арифметическое гистограммы локализовано далеко слева или справа от центра размаха, частоты резко спадают в противоположном от пика направлении. Подобные распределения встречаются при стопроцентном просеивании изделий из-за плохой воспроизводимости процессов, т.е., например, часть распределения изъята при контроле качества.
  7. Распределение с изолированным пиком.

    На ряду с обычным распределением любого типа по одну сторону от распределения находится маленький пик. Причиной может быть включение данных из другого распределения или появление ошибки измерения. Стоит перепроверить измерения и вычисления, может возможно выделить условия (оборудование, время), которые могут служить причиной образования изолированного пика.
  8. Распределение с пиком на краю.

    Имеется большой пик по одну из сторон размаха. Подобное распределение может быть при объединении всех несоответствий, близких к одному из концов размаха в одну категорию, либо на неаккуратную запись данных.
    Если существуют границы допуска, то следует нанести их на гистограммы. Исходя из положения распределения относительно границ допуска на гистограмме можно делать выводы о необходимости принятия решений.

Есть пять типичных случаев расположения распределения относительно границ допуска

  1. Гистограмма находится в допуске.

    Состояние процесса стабильно, необходимо поддерживать процесс в данном состоянии
  2. Гистограмма находится в допуске, но вплотную к границам.

    Необходимо уменьшить разброс до меньшего значения.
  3. Гистограмма за границами допуска слева (или справа).

    Необходимо сместить среднее значение ближе к центру.
  4. Гистограмма за границами допуска слева и справа.

    Необходимы действия, направленные на снижение вариаций процесса.
  5. Гистограмма за границами допуска слева и справа, пик смещён вправо (или влево).

Необходимо провести действия, аналогичные для 3 и 4 случая одновременно, для снижения вариаций и смещения среднего.


Гистограмма изображения—ArcGIS Pro | Документация

Гистограмма изображения визуально суммирует распределение непрерывной числовой переменной через измерение частоты, при которой определенные значения появляются в изображении. Ось x в гистограмме изображения представляет собой числовую линию, которая показывает диапазон значений пикселов изображения, который был разбит на несколько диапазонов или групп. Для каждой группы показывается столбец, толщина этого столбца представляет плотность числового диапазона в группе, а высота столбца представляет число пикселов, попавших в этот диапазон. Понимание распределения данных – это важный момент в процессе их изучения.

Переменная

Для гистограммы изображения нужна одна непрерывная Числовая переменная по оси x, состоящая из значений пикселов выбранного канала изображения.

Преобразование

Некоторые аналитические методы интерполяции требуют нормального распределения данных. Если данные сдвинуты (распределение несимметрично), то может понадобиться преобразовать данные к нормальному распределению. Гистограммы позволяют вам оценить эффект логарифмического преобразования и преобразования по методу квадратного корня на распределение данных. Для информации вы можете добавить график нормального распределения поверх вашей гистограммы, щелкнув отметку Показать нормальное распределение на панели Свойства диаграммы.

Логарифмическое преобразование

Логарифмическое преобразование часто используется, когда данные смещены в положительном направлении и присутствует мало очень больших значений. Если эти большие значения расположены в наборе данных, логарифмическое преобразование поможет сделать дисперсию более постоянной и привести данные к нормальному распределению.

Например, распределение со смещением в положительную сторону на диаграмме слева трансформировано в нормальное распределение с использованием логарифмического преобразования на диаграмме справа:

Логарифмическое преобразование можно применять только к значениям больше нуля.

Преобразование по методу квадратного корня

Преобразование по методу квадратного корня похоже на логарифмическое тем, что уменьшает правое смещение набора данных.. В отличие от логарифмических преобразований, преобразования по методу квадратного корня могут применяться к нулевым значениям.

Преобразование преобразование по методу квадратного корня можно применять только к значениям больше или равно нулю.

Количество бинов

Количество диапазонов по умолчанию соответствует квадратному корню из общего количества записей в наборе данных. Его можно выровнять, изменив значение Числа бинов на вкладке Данные на панели Диаграма. Изменение количества столбцов позволяют увидеть более или менее детальную структуру ваших данных.

Статистика

Некоторые основные статистические параметры также отображаются на гистограмме. Среднее и медиана отображаются каждое одной линией, по одному стандартному отклонению от среднего (выше и ниже) отображается двумя линиями. Вы можете щелкнуть эти элементы в таблице статистики или легенде диаграммы для включения или выключения их.

Таблица Статистика отображается на вкладке Данные на панели Свойства диаграммы и содержит следующую статистику для выбранных числовых полей:

  • Среднее
  • Медиана
  • Среднеквадратическое отклонение
  • Количество
  • Мин
  • Макс
  • Сумма
  • Значения NULL
  • Асимметрия
  • Эксцесс

Если на слое источнике диаграммы имеется выбранный набор, в таблице статистики будет отображаться один столбец со статистикой по всему набору данных, а другой — только со статистикой выбранного набора.

Если слой источник диаграммы является набором тематических или категорийных данных, а не с полями Переменная Число Value, число ячеек для Суммы вычисляться не будет. Используется по умолчанию. Если вы хотите, чтобы в диаграмме присутствовали вычисления Суммы для числа ячеек, щелкните Переменная и включите опцию Настроить число ячеек.

В таблице статистики имеются элементы управления для включения и выключения на гистограмме линий среднего, медианы и стандартного отклонения, а также для изменения их цвета.

Щелкните правой кнопкой мыши в таблице статистики и выберите Копировать таблицу, Копировать строку или Копировать значение, чтобы скопировать и вставить статистику из Свойств диаграммы в другие окна или приложения.

Оси

Границы по оси Y

Границы по оси Y устанавливаются в соответствии с диапазоном данных по оси Y. Эти значения можно настроить, введя нужные граничные значения по оси. Настройки границ оси можно использовать для сохранения масштаба согласованности диаграммы для сравнения. Щелчок на кнопке сброса вернет граничные значения оси к настройкам по умолчанию.

Числовой формат

Вы можете отформатировать способ отображения числовых значений оси, указав категорию форматирования или задав пользовательский формат. Например, $#,### можно использовать как строку пользовательского формата для отображения денежных значений.

Направляющие

Направляющие или диапазоны могут быть добавлены на диаграммы для ориентировки или как способ выделить важнейшие значения. Чтобы добавить направляющую, перейдите на вкладку Направляющие на панели Свойства диаграммы и нажмите Добавить направляющую. Чтобы нарисовать линию, введите значение, где вы хотите ее добавить. Чтобы задать диапазон, укажите начальное и конечное значения. Дополнительно можно добавить к направляющей текст, указав значение Надпись.

Оформление

Заголовки и описание

Диаграммам и осям присваиваются названия по умолчанию на основе имен переменных и типа диаграммы. Эти значения можно редактировать на вкладке Общие панели Свойства диаграммы. Также для диаграммы можно ввести Описание, которое представляет из себя текстовый блок, появляющийся в нижней части окна диаграммы.

Визуальное форматирование

В активном окне диаграммы становится доступной контекстная лента Формат диаграммы, которая позволяет выполнить визуальное форматирование диаграммы. К параметрам форматирования диаграмм относятся следующие:

  • Изменение размера, цвета и стиля шрифта, используемого для заголовков осей, надписей осей, текста описания и текста легенды
  • Изменение цвета, ширины и типа линий сетки и осей
  • Изменение цвета фона диаграммы

Более подробную информацию о том, как изменить внешний вид вашего графика гистограммы, см. в разделе Изменение внешнего вида диаграммы.


Отзыв по этому разделу?

инструкция и пример создания, виды и типы гистограмм + видео

Один из самых популярных видов диаграмм — это гистограмма в Excel, очень красивая и простая в использовании.

Видео руководство по созданию гистограмм в Excel

Типы гистограмм Excel

Существует 3 типа гистограмм:

  1. С группировкой. Это сравнение данных с использованием вертикальных прямоугольников. Имеет применение тогда, когда порядок не важен или нужно показать количество элементов.
  2. С накоплением. Это отображение общей суммы вклада каждого значения с помощью вертикальных прямоугольников. Применяется для выделения общей суммы по ряду в одной категории.
  3. Нормированная гистограмма с накоплением. Это отображение процентного вклада каждого значения в общую сумму по каждой категории с помощью вертикальных прямоугольников. Применяется для выделения относительной величины каждого ряда данных.

В свою очередь, гистограмма в Excel делится на разновидности:

  1. Объемная. Это сравнение значений по категориям и рядам на трех осях. Применяется, когда категории и ряды одинаково важны.
  2. Цилиндрическая
  3. Коническая.
  4. Пирамидальная.

Пример построения гистограммы в Excel

Для примера можно создать небольшую таблицу Excel, где первым столбцом будет «Производство по годам» столов и стульев на фабрике.

Последующие столбцы — «Год производства», например, с 2001 по 2008 гг. Далее нажмите на поле «Вставка» и команду «Гистограмма», рассмотрите первую с группировкой, выберите ее. Под вашей таблицей появится диаграмма. Переместите на отдельный лист, так она будет иметь более объемный вид.

Когда идет работа с диаграммами Excel, появляются 3 дополнительные вкладки: «Конструктор», «Макет», «Формат»:

  1. «Макет» отвечает за работу внешнего вида. Здесь можно задать название, обозначить имя горизонтальной и вертикальной осей, вставлять рисунок из файла, готовые фигуры, блок-схемы, выноски, надписи, которые можно установить в любом месте страницы. Изменять разметки каждой оси и включать или отключать линии сетки.
  2. «Формат» устанавливает стиль каждого элемента. В этой вкладке основными окнами являются «Формат выделенного фрагмента» (используется для уточнения форматирования) и «Восстановить форматирование стиля» (замена пользовательского выделенного элемента общим стилем оформления, что позволяет привести выделенный элемент в соответствие с общей темой рабочего документа Excel). Можно осуществлять заливку, контур фигуры и применять к выделенной фигуре эффекты оформления, такие, как тень, свечение, отражение или объемное вращение.
  3. «Конструктор» позволяет изменить тип диаграммы или сохранить как шаблон (то есть сохранение макета в качестве шаблона), который можно применить к другим. Можно выполнять взаимную замену данных на осях. Значения, отложенные по оси Х, перемещаются на ось Y и наоборот. Возможно перемещать на другой лист или вкладку книги.

    Гистограммы в Excel пригодятся для наглядного анализа динамики величин по времени

Таким образом, ознакомившись с примером построения гистограммы, вы сможете самостоятельно построить свою диаграмму.

Linux и Android: Стили в gnuplot

В этой части мы увидим, какие виды графиков можно строить с помощью gnuplot. Для того, чтобы задать стиль графика, используется опция with style. Если вы хотите соединить точки данных с помощью линий, задается опция with lines. Для замены точек данных на символы используется опция with points.

Все эти стили легко комбинируются. Например, чтобы построить одновременно график в виде линии и в виде бар, необходимо вводить команду вида:


gnuplot> plot «file.dat» with boxes, «» notitle with lines

Ниже будут показаны типы графиков, которые можно построить меняя опцию style, которая записывается после ключевого слова with.


Линии, точки и символы


lines

Соединяет точки данных линией. Лучше всего подходит для сглаженных кривых.


dots

Отображает значения данных в виде точек. Больше всего подходит для визуализации необработанных данных с большим количеством точек.


points

Для отображения значений вместо точек могут использоваться различные символы. Количество доступных типов символов зависит от используемого терминала, но в любом случае оно не меньше шести. Номер «-1» — это точка. Размер символа можно менять с помощью команды set pointsize.


linespoints

lp

Позволяет отображать на одном графике и символы и линии.

impulses

Рисуются вертикальные линии от каждой точки данных до оси X. По сути это график с барами нулевой толщины.


steps

fsteps

histeps

Три вида гистограмм. Различие заключается в начальных и конечных точках. Gnuplot может построить гистограмму, но не может сам рассчитать данные для гистограммы.

Ниже показаны различия в трех видах диаграмм.

Позиция точки данных показана синим квадратом. При использовании опции steps точка определяется как начальное значение, а с опцией fsteps — как конечное. При использовании опции histeps график представляет собой разновидность графика с барами, где бары соединены вместе.

steps

fstepshisteps

Построение графиков с барами

boxes

Этот график похож на гистограмму, за исключением вертикальных линий. Заливка бара не предусмотрена. Если вам необходимо сделать цветной график, необходимо экспортировать его в какой-либо графический формат и закрасить в любом графическом редакторе.

Ширина каждого бара рассчитывается автоматически, чтобы они шли без разрывов и не накладывались друг на друга. Если необходимо задать определенную ширину бара, используйте опцию set boxwidth width. В этом случае ширина бара будет равна width. Можно задать ширину баров в файле с данными — она будет третьим столбцом (другой способ — использовать опцию using X:Y:Z, где Z — ширина). В приведенных ниже примерах точки данных показаны с помощью символов синего цвета.

Default

Ширина рассчитывается автоматически.


set boxwidth 1

Задана ширина 1.


datafile

Если в файле с данными имеется третий столбец, он используется для задания ширины бара. В приведенном ниже примере заданы следующие значения ширины: 1,2,1,2…


Построение графиков с барами ошибок

yerrorbars

То же, что и «points», но значения Y представляют собой ошибку измерения. Длина бара ошибки задается в файле с данными. Если файл содержит три столбца, третий столбец используется для задания ошибки Y, то есть Y±dY.


xerrorbars

То же, что и yerrorbars, но с горизонтальными барами.


xyerrorbars

Отображаются ошибки как по оси Х, так и по оси Y. Файл с данными должен включать 4 или 6 столбцов.


Отображение векторов

vector

Отображаются вектора. Начало вектора — (X,Y), конец — (X+dX, Y+dY). Файл с данными должен содержать четыре столбца.


Другое (financebars, candlesticks)

Здесь представлены два стиля, использующиеся для построения финансовых графиков. Они отнесены к категории «другое», так как автор статьи очень плохо разбирается в финансах:). Скорее всего они используются для построения графиков изменения стоимости ценных бумаг. Для использования стилей «financebars» и «candlesticks» файл данных должен содержать пять столбцов: дата/время, цена открытия, наименьшая цена, наибольшая цена, цена закрытия.

financebars

Наибольшие и наименьшие цены соединяются вертикальными линиями, а цены открытия и закрытия показаны небольшими горизонтальными отрезками. Длина этих отрезков может быть задана с помощью опции set bar.


candlesticks

Так называемые «японские свечи». Похожи на financebars.

Как строить линейные графики, гистограммы и диаграммы в Matplotlib

В прошлых материалах вы встречали примеры, демонстрирующие архитектуру библиотеки matplotlib. После знакомства с основными графическими элементами для графиков время рассмотреть примеры разных типов графиков, начиная с самых распространенных, таких как линейные графики, гистограммы и круговые диаграммы, и заканчивая более сложными, но все равно часто используемыми.

Поскольку визуализация — основная цель библиотеки, то этот раздел является очень важным. Умение выбрать правильный тип графика является фундаментальным навыком, ведь неправильная репрезентация может привести к тому, что данные, полученные в результате качественного анализа данных, будет интерпретированы неверно.

Для выполнения кода импортируйте pyplot и numpy

import matplotlib.pyplot as plt
import numpy as np

Линейные графики

Линейные графики являются самыми простыми из всех. Такой график — это последовательность точек данных на линии. Каждая точка состоит из пары значений (x, y), которые перенесены на график в соответствии с масштабами осей (x и y).

В качестве примера можно вывести точки, сгенерированные математической функцией. Возьмем такую: y = sin (3 * x) / x

Таким образом для создания последовательности точек данных нужно создать два массива NumPy. Сначала создадим массив со значениями x для оси x. Для определения последовательности увеличивающихся значений используем функцию np.arrange(). Поскольку функция синусоидальная, то значениями должны быть числа кратные π (np.pi). Затем с помощью этой последовательности можно получить значения y, применив для них функцию np.sin() (и все благодаря NumPy).

После этого остается лишь вывести все точки на график с помощью функции plot(). Результатом будет линейный график.

x = np.arange(-2*np.pi,2*np.pi,0.01)
y = np.sin(3*x)/x
plt.plot(x,y)
plt.show()

Этот пример можно расширить для демонстрации семейства функций, например, такого (с разными значениями n):

x = np.arange(-2*np.pi,2*np.pi,0.01)
y = np.sin(3*x)/x
y2 = np.sin(2*x)/x
y3 = np.sin(x)/x
plt.plot(x,y)
plt.plot(x,y2)
plt.plot(x,y3)
plt.show()

Как можно увидеть на изображении, каждой линии автоматически присваивается свой цвет. При этом все графики представлены в одном масштабе. Это значит, что точки данных связаны с одними и теми же осями x и y. Вот почему каждый вызов функции plot() учитывает предыдущие вызовы, так что объект Figure применяет изменения с учетом прошлых команд еще до вывода (для вывода используется show()).

x = np.arange(-2*np.pi,2*np.pi,0.01)
y = np.sin(3*x)/x
y2 = np.sin(2*x)/x
y3 = np.sin(x)/x
plt.plot(x,y,'k--',linewidth=3)
plt.plot(x,y2,'m-.')
plt.plot(x,y3,color='#87a3cc',linestyle='--')
plt.show()

Как уже говорилось в прошлых в разделах, вне зависимости от настроек по умолчанию можно выбрать тип начертания, цвет и так далее. Третьим аргументом функции plot() можно указать коды цветов, типы линий и все этой в одной строке. Также можно использовать два именованных аргумента отдельно: color — для цвета и linestyle — для типа линии.

КодЦвет
bголубой
gзеленый
rкрасный
cсине-зеленый
mпурпурный
yжелтый
kчерный
wбелый

На графике определен диапазон от — 2π до 2π на оси x, но по умолчанию деления обозначены в числовой форме. Поэтому их нужно заменить на множители числа π. Также можно поменять делители на оси y. Для этого используются функции xticks() и yticks(). Им нужно передать список значений. Первый список содержит значения, соответствующие позициям, где деления будут находиться, а второй — их метки. В этом случае будут использоваться LaTeX-выражения, что нужно для корректного отображения π. Важно не забыть добавить знаки $ в начале и конце, а также символ r в качестве префикса.

x = np.arange(-2*np.pi,2*np.pi,0.01)
y = np.sin(3*x)/x
y2 = np.sin(2*x)/x
y3 = np.sin(x)/x
plt.plot(x,y,color='b')
plt.plot(x,y2,color='r')
plt.plot(x,y3,color='g')
plt.xticks([-2*np.pi,-np.pi,0, np.pi, 2*np.pi],
           [r'$-2\pi$',r'$-\pi$',r'$0$',r'$+\pi$',r'$+2\pi$'])
plt.yticks([-1,0,1,2,3],
           [r'$-1$',r'$0$',r'$+1$',r'$+2$',r'$+3$'])
plt.show()

Пока что на всех рассмотренных графиках оси x и y изображались на краях объекта Figure (по границе рамки). Но их же можно провести так, чтобы они пересекались — то есть, получит декартову система координат.

Для этого нужно сперва получить объект Axes с помощью функцию gca. Затем с его помощью можно выбрать любую из четырех сторон, создав область с границами и определив положение каждой: справа, слева, сверху и снизу. Ненужные части обрезаются (справа и снизу), а с помощью функции set_color() задается значение none. Затем стороны, которые соответствуют осям x и y, проходят через начало координат (0, 0) с помощью функции set_position().

x = np.arange(-2*np.pi,2*np.pi,0.01)
y = np.sin(3*x)/x
y2 = np.sin(2*x)/x
y3 = np.sin(x)/x
plt.plot(x,y,color='b')
plt.plot(x,y2,color='r')
plt.plot(x,y3,color='g')
plt.xticks([-2*np.pi,-np.pi,0, np.pi, 2*np.pi],
           [r'$-2\pi$',r'$-\pi$',r'$0$',r'$+\pi$',r'$+2\pi$'])
plt.yticks([-1,0,1,2,3],
           [r'$-1$',r'$0$',r'$+1$',r'$+2$',r'$+3$'])
ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data',0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data',0))
plt.show()

Теперь график будет состоять из двух пересекающихся в центре осей, который представляет собой начало декартовой системы координат.

Также есть возможность указать на определенную точку с помощью дополнительных обозначений и стрелки. Обозначением может выступать LaTeX-выражение, например, формула предела функции sinx/x, стремящейся к 0.

Для этого в matplotlib есть функция annotate(). Ее настройка кажется сложной, но большое количество kwargs обеспечивает требуемый результат. Первый аргумент — строка, представляющая собой LaTeX-выражение, а все остальные — опциональные. Точка, которую нужно отметить на графике представлена в виде списка, включающего ее координаты (x и y), переданные в аргумент xy. Расстояние заметки до точки определено в xytext, а стрелка — с помощью arrowprops.

x = np.arange(-2*np.pi,2*np.pi,0.01)
y = np.sin(3*x)/x
y2 = np.sin(2*x)/x
y3 = np.sin(x)/x
plt.plot(x,y,color='b')
plt.plot(x,y2,color='r')
plt.plot(x,y3,color='g')
plt.xticks([-2*np.pi,-np.pi,0, np.pi, 2*np.pi],
           [r'$-2\pi$',r'$-\pi$',r'$0$',r'$+\pi$',r'$+2\pi$'])
plt.yticks([-1,0,1,2,3],
           [r'$-1$',r'$0$',r'$+1$',r'$+2$',r'$+3$'])
plt.annotate(r'$\lim_{x\to 0}\frac{\sin(x)}{x}= 1$', xy=[0,1],xycoords='data',
             xytext=[30,30],fontsize=16, textcoords='offset points', arrowprops=dict(arrowstyle="->",
             connectionstyle="arc3,rad=.2"))
ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data',0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data',0))
plt.show()

В итоге этот код сгенерирует график с математической формулой предела, представленной точкой, на которую указывает стрелка.

Линейные графики с pandas

Рассмотрим более практический и приближенный к анализу данных пример. С ним будет видно, насколько просто использовать библиотеку matplotlib для объектов Dataframe из библиотеки pandas. Визуализация данных в виде линейного графика — максимально простая задача. Достаточно передать объект в качестве аргумента функции plot() для получения графика с несколькими линиями.

import pandas as pd

data = {'series1':[1,3,4,3,5],
        'series2':[2,4,5,2,4],
        'series3':[3,2,3,1,3]}
df = pd.DataFrame(data)
x = np.arange(5)
plt.axis([0,5,0,7])
plt.plot(x,df)
plt.legend(data, loc=2)
plt.show()

Гистограммы

Гистограмма состоит из примыкающих прямоугольников, расположенных вдоль оси x, которые разбиты на дискретные интервалы, их называют bins. Их площадь пропорциональна частоте конкретного интервала. Такой способ визуализации часто используют в статистике для демонстрации распределения.

Для представления гистограммы в pyplot есть функция hist(). У нее также есть особенности, которых не найти у других функций, отвечающих за создание графиков. hist() не только рисует гистограмму, но также возвращает кортеж значений, представляющих собой результат вычислений гистограммы. Функция hist() может реализовывать вычисление гистограммы, чего достаточно для предоставления набора значений и количества интервалов, на которых их нужно разбить. Наконец hist() отвечает за разделение интервала на множество и вычисление частоты каждого. Результат этой операции не только выводится в графической форме, но и возвращается в виде кортежа.

Для понимания операции лучше всего воспользоваться практическим примером. Сгенерируем набор из 100 случайных чисел от 0 до 100 с помощью random.randint().

pop = np.random.randint(0,100,100)
pop
array([33, 90, 10, 68, 18, 67,  6, 54, 32, 25, 90,  6, 48, 34, 59, 70, 37,
       50, 86,  7, 49, 40, 54, 94, 95, 20, 83, 59, 33,  0, 81, 18, 26, 69,
        2, 42, 51,  7, 42, 90, 94, 63, 14, 14, 71, 25, 85, 99, 40, 62, 29,
       42, 27, 98, 30, 89, 21, 78, 17, 33, 63, 80, 61, 50, 79, 38, 96,  8,
       85, 19, 76, 32, 19, 14, 37, 62, 24, 30, 19, 80, 55,  5, 94, 74, 85,
       59, 65, 17, 80, 11, 81, 84, 81, 46, 82, 66, 46, 78, 29, 40])

Дальше создаем гистограмму из этих данных, передавая аргумент функции hist(). Например, нужно разделить данные на 20 интервалов (значение по умолчанию — 10 интервалов). Для этого используется именованный аргумент bin.

n, bin, patches = plt.hist(pop, bins=20)
plt.show()


Столбчатые диаграммы

Еще один распространенный тип графиков — столбчатые диаграммы. Они похожа на гистограммы, но на оси x тут располагаются не числовые значения, а категории. В matplotlib для реализации столбчатых диаграмм используется функция bin().

index = [0,1,2,3,4]
values = [5,7,3,4,6]
plt.bar(index,values)
plt.show()

Всего нескольких строк кода достаточно для получения такой столбчатой диаграммы.

На последней диаграмме видно, что метки на оси x написаны под каждым столбцом. Поскольку каждый из них относится к отдельной категории, правильнее обозначать их строками. Для этого используется функция xticks(). А для правильного размещения нужно передать список со значениями позиций в качестве первого аргумента в той же функции. Результатом будет такая диаграмма.

index = np.arange(5)
values1 = [5,7,3,4,6]
plt.bar(index, values1)
plt.xticks(index+0.4,['A','B','C','D','E'])
plt.show()

Есть и множество других операций, которые можно выполнить для улучшения диаграммы. Каждая из них выполняется за счет добавления конкретного именованного аргумента в bar(). Например, можно добавить величины стандартного отклонения с помощью аргумента yerr вместе с соответствующими значениями. Часто этот аргумент используется вместе с error_kw, который принимает друге аргументы, отвечающие за представление погрешностей. Два из них — это eColor, который определяет цвета колонок погрешностей и capsize — ширину поперечных линий, обозначающих окончания этих колонок.

Еще один именованный аргумент — alpha. Он определяет степень прозрачности цветной колонки. Его значением может быть число от 0 до 1, где 0 — полностью прозрачный объект.

Также крайне рекомендуется использовать легенду, за которую отвечает аргумент label.

Результат — следующая столбчатая диаграмма с колонками погрешностей.

index = np.arange(5)
values1 = [5,7,3,4,6]
std1 = [0.8,1,0.4,0.9,1.3]
plt.title('A Bar Chart')
plt.bar(index, values1, yerr=std1, error_kw={'ecolor':'0.1','capsize':6},alpha=0.7,label='First')
plt.xticks(index+0.4,['A','B','C','D','E'])
plt.legend(loc=2)
plt.show()

Горизонтальные столбчатые диаграммы

В предыдущем разделе столбчатая диаграмма была вертикальной. Но блоки могут располагаться и горизонтально. Для этого режима есть специальная функция barh(). Аргументы и именованные аргументы, которые использовались для bar() будут работать и здесь. Единственное изменение в том, что поменялись роли осей. Категории теперь представлены на оси y, а числовые значения — на x.

index = np.arange(5)
values1 = [5,7,3,4,6]
std1 = [0.8,1,0.4,0.9,1.3]
plt.title('A Horizontal Bar Chart')
plt.barh(index, values1, xerr=std1, error_kw={'ecolor':'0.1','capsize':6},alpha=0.7,label='First')
plt.yticks(index+0.4,['A','B','C','D','E'])
plt.legend(loc=5)
plt.show()

Многорядные столбчатые диаграммы

Как и линейные графики, столбчатые диаграммы широко используются для одновременного отображения больших наборов данных. Но в случае с многорядными работает особая структура. До сих пор во всех примерах определялись последовательности индексов, каждый из которых соответствует столбцу, относящемуся к оси x. Индексы представляют собой и категории. В таком случае столбцов, которые относятся к одной и той же категории, даже больше.

Один из способов решения этой проблемы — разделение пространства индекса (для удобства его ширина равна 1) на то количество столбцов, которые к нему относятся. Также рекомендуется добавлять пустое пространство, которое будет выступать пропусками между категориями.

index = np.arange(5)
values1 = [5,7,3,4,6]
values2 = [6,6,4,5,7]
values3 = [5,6,5,4,6]
bw = 0.3
plt.axis([0,5,0,8])
plt.title('A Multiseries Bar Chart', fontsize=20)
plt.bar(index, values1, bw, color='b')
plt.bar(index+bw, values2, bw, color='g')
plt.bar(index+2*bw, values3, bw, color='r')
plt.xticks(index+1.5*bw,['A','B','C','D','E'])
plt.show()

В случае с горизонтальными многорядными столбчатыми диаграммами все работает по тому же принципу. Функцию bar() нужно заменить на соответствующую barh(), а также не забыть заменить xticks() на yticks(). И нужно развернуть диапазон значений на осях с помощью функции axis().

index = np.arange(5)
values1 = [5,7,3,4,6]
values2 = [6,6,4,5,7]
values3 = [5,6,5,4,6]
bw = 0.3
plt.axis([0,8,0,5])
plt.title('A Multiseries Bar Chart', fontsize=20)
plt.barh(index, values1, bw, color='b')
plt.barh(index+bw, values2, bw, color='g')
plt.barh(index+2*bw, values3, bw, color='r')
plt.yticks(index+0.4,['A','B','C','D','E'])
plt.show()


Многорядные столбчатые диаграммы с Dataframe из pandas

Как и в случае с линейными графиками matplotlib предоставляет возможность представлять объекты Dataframe с результатами анализа данных в форме столбчатых графиков. В этом случае все происходит даже быстрее и проще. Нужно лишь использовать функцию plot() по отношению к объекту Dataframe и указать внутри именованный аргумент kind, ему требуется присвоить тип графика, который будет выводиться. В данном случае это bar. Без дополнительных настроек результат должен выглядеть как на следующем изображении.

import pandas as pd

index = np.arange(5)
data = {'series1': [1,3,4,3,5],
        'series2': [2,4,5,2,4],
        'series3': [3,2,3,1,3]}
df = pd.DataFrame(data)
df.plot(kind='bar')
plt.show()

Но для еще большего контроля (или просто при необходимости) можно брать части Dataframe в виде массивов NumPy и описывать их так, как в предыдущем примере. Для этого каждый нужно передать в качестве аргумента функциям matplotlib.

К горизонтальной диаграмме применимы те же правила, но нужно не забыть указать значение barh для аргумента kind. Результатом будет горизонтальная столбчатая диаграмма как на следующем изображении.

Многорядные сложенные столбчатые графики

Еще один способ представления многорядного столбчатого графика — сложенная форма, где каждый столбец установлен поверх другого. Это особенно полезно в том случае, когда нужно показать общее значение суммы всех столбцов.

Для превращения обычного многорядного столбчатого графика в сложенный нужно добавить именованный аргумент bottom в каждую функцию bar(). Каждый объект Series должен быть присвоен соответствующему аргументу bottom. Результатом будет сложенный столбчатый график.

series1 = np.array([3,4,5,3])
series2 = np.array([1,2,2,5])
series3 = np.array([2,3,3,4])
index = np.arange(4)
plt.axis([-0.5,3.5,0,15])
plt.title('A Multiseries Stacked Bar Chart')
plt.bar(index,series1,color='r')
plt.bar(index,series2,color='b',bottom=series1)
plt.bar(index,series3,color='g',bottom=(series2+series1))
plt.xticks(index,['Jan18','Feb18','Mar18','Apr18'])
plt.show()

Здесь для создания аналогичного горизонтального графика нужно заменить bar() на barh(), не забыв про остальные параметры. Функцию xticks() необходимо поменять местами с yticks(), потому что метки категорий теперь будут расположены по оси y. После этого будет создан следующий горизонтальный график.

series1 = np.array([3,4,5,3])
series2 = np.array([1,2,2,5])
series3 = np.array([2,3,3,4])
index = np.arange(4)
plt.axis([0,15,-0.5,3.5])
plt.title('A Multiseries Horizontal Stacked Bar Chart')
plt.barh(index,series1,color='r')
plt.barh(index,series2,color='b',left=series1)
plt.barh(index,series3,color='g',left=(series2+series1))
plt.yticks(index,['Jan18','Feb18','Mar18','Apr18'])
plt.show()

До сих пор объекты Series разделялись только по цветам. Но можно использовать, например, разную штриховку. Для этого сперва необходимо сделать цвет столбца белым и использовать именованный аргумент hatch для определения типа штриховки. Все они выполнены с помощью символов (|, /, -, \, *), соответствующих стилю столбца. Чем чаще он повторяется, тем теснее будут расположены линии. Так, /// — более плотный вариант чем //, а этот, в свою очередь, плотнее /.

series1 = np.array([3,4,5,3])
series2 = np.array([1,2,2,5])
series3 = np.array([2,3,3,4])
index = np.arange(4)
plt.axis([0,15,-0.5,3.5])
plt.title('A Multiseries Horizontal Stacked Bar Chart')
plt.barh(index,series1,color='w',hatch='xx')
plt.barh(index,series2,color='w',hatch='///',left=series1)
plt.barh(index,series3,color='w',hatch='\\\\\\',left=(series2+series1))
plt.yticks(index,['Jan18','Feb18','Mar18','Apr18'])
plt.show()

Сложенные столбчатые графики с Dataframe из padans

В случае со сложенными столбчатыми графиками очень легко представлять значения объектов Dataframe с помощью функции plot(). Нужно лишь добавить в качестве аргумента stacked со значением True.

import pandas as pd

data = {'series1': [1,3,4,3,5],
        'series2': [2,4,5,2,4],
        'series3': [3,2,3,1,3]}
df = pd.DataFrame(data)
df.plot(kind='bar',stacked=True)
plt.show()

Другие представления столбчатых графиков

Еще один удобный тип представления данных в столбчатом графике — с использованием двух Series из одних и тех же категорий, где они сравниваются путем размещения друг напротив друга вдоль оси y. Для этого нужно разместить значения y одного из графиков в отрицательной форме. Также в этом примере показано, как поменять внутренний цвет другим способом. Это делается с помощью задания значения для аргумента facecolor.

Также вы увидите, как добавить значение y с меткой в конце каждого столбца. Это поможет улучшить читаемость всего графика. Это делается с помощью цикла for, в котором функция text() показывает значение y. Настроить положение метки можно с помощью именованных аргументов ha и va, которые контролируют горизонтальное и вертикальное выравнивание соответственно. Результатом будет следующий график.

x0 = np.arange(8)
y1 = np.array([1,3,4,5,4,3,2,1])
y2 = np.array([1,2,5,4,3,3,2,1])
plt.ylim(-7,7)
plt.bar(x0,y1,0.9, facecolor='g')
plt.bar(x0,-y2,0.9,facecolor='b')
plt.xticks(())
plt.grid(True)
for x, y in zip(x0, y1):
    plt.text(x, y + 0.05, '%d' % y, ha='center', va = 'bottom')
for x, y in zip(x0, y2):
    plt.text(x, -y - 0.05, '%d' % y, ha='center', va = 'top')
plt.show()

Круговая диаграмма

Еще один способ представления данных — круговая диаграмма, которую можно получить с помощью функции pie().

Даже для нее нужно передать основной аргумент, представляющий собой список значений. Пусть это будут проценты (где максимально значение — 100), но это может быть любое значение. А уже сама функция определит, сколько будет занимать каждое значение.

Также в случае с этими графиками есть другие особенности, которые определяются именованными аргументами. Например, если нужно задать последовательность цветов, используется аргумент colors. В таком случае придется присвоить список строк, каждая из которых будет содержать название цвета. Еще одна возможность — добавление меток каждой доле. Для этого есть labels, которой присваивает список строк с метками в последовательности.

А чтобы диаграмма была идеально круглой, необходимо в конце добавить функцию axix() со строкой equal в качестве аргумента. Результатом будет такая диаграмма.

labels = ['Nokia','Samsung','Apple','Lumia']
values = [10,30,45,15]
colors = ['yellow','green','red','blue']
plt.pie(values,labels=labels,colors=colors)
plt.axis('equal')
plt.show()

Чтобы сделать диаграмму более сложной, можно «вытащить» одну из частей. Обычно это делается с целью акцентировать на ней внимание. В этом графике, например, для выделения Nokia. Для этого используется аргумент explode. Он представляет собой всего лишь последовательность чисел с плавающей точкой от 0 до 1, где 1 — положение целиком вне диаграмма, а 0 — полностью внутри. Значение между соответствуют среднему градусу извлечения.


Заголовок добавляется с помощью функции title(). Также можно настроить угол поворота с помощью аргумента startangle, который принимает значение между 0 и 360, обозначающее угол поворота (0 – значение по умолчанию). Следующий график показывает все изменения.

labels = ['Nokia','Samsung','Apple','Lumia']
values = [10,30,45,15]
colors = ['yellow','green','red','blue']
explode = [0.3,0,0,0]
plt.title('A Pie Chart')
plt.pie(values,labels=labels,colors=colors,explode=explode,startangle=180)
plt.axis('equal')
plt.show()

Но и это не все, что может быть на диаграмме. У нее нет осей, поэтому сложно передать точное разделение. Чтобы решить эту проблему, можно использовать autopct, который добавляет в центр каждой части текст с соответствующим значением.

Чтобы сделать диаграмму еще более привлекательной визуально, можно добавить тень с помощью shadow со значением True. Результат — следующее изображение.

labels = ['Nokia','Samsung','Apple','Lumia']
values = [10,30,45,15]
colors = ['yellow','green','red','blue']
explode = [0.3,0,0,0]
plt.title('A Pie Chart')
plt.pie(values,labels=labels,colors=colors,explode=explode,shadow=True,autopct='%1.1f%%',startangle=180)
plt.axis('equal')
plt.show()

Круговые диаграммы с Dataframe из pandas

Даже в случае с круговыми диаграммами можно передавать значения из Dataframe. Однако каждая диаграмма будет представлять собой один Series, поэтому в примере изобразим только один объект, выделив его через df['series1'].

Указать тип графика можно с помощью аргумента kind в функции plot(), который в этом случае получит значение pie. Также поскольку он должен быть идеально круглым, обязательно задать figsize. Получится следующая диаграмма.

import pandas as pd

data = {'series1': [1,3,4,3,5],
        'series2': [2,4,5,2,4],
        'series3': [3,2,3,1,3]}
df = pd.DataFrame(data)
df['series1'].plot(kind='pie', figsize=(6,6))
plt.show()

Как описать форму гистограмм (с примерами)


Гистограмма — это тип диаграммы, которая позволяет визуализировать распределение значений в наборе данных.

По оси X отображаются значения в наборе данных, а по оси Y — частота каждого значения.

В зависимости от значений в наборе данных гистограмма может принимать различные формы.

В следующих примерах показано, как описывать различные гистограммы.

1. Колоколообразный

Гистограмма имеет форму колокола, если она напоминает кривую «колокола» и имеет один единственный пик в середине распределения. Наиболее распространенным примером такого распределения в реальной жизни является нормальное распределение.

2. Униформа

Гистограмма считается «однородной», если каждое значение в наборе данных встречается примерно одинаковое количество раз. Этот тип гистограммы часто выглядит как прямоугольник без четких пиков.

3. Бимодальный

Гистограмма называется «бимодальной», если она имеет два отдельных пика. Мы часто говорим, что этот тип распределения имеет несколько режимов, то есть несколько значений чаще всего встречаются в наборе данных.

Связанный:  Что такое бимодальное распределение?

4. Мультимодальные перевозки

Гистограмма называется мультимодальной, если она имеет более двух отдельных пиков.

Связанный:  Что такое мультимодальная доставка?

5.Перекос влево

Гистограмма остается перекошенной, если у нее есть «хвост» в левой части распределения. Иногда этот тип распределения также называют «отрицательно» асимметричным.

Связанный:  5 примеров распределений с отрицательным перекосом

6. Наклон вправо

Гистограмма скошена вправо, если у нее есть «хвост» в правой части распределения. Иногда этот тип распределения также называют «положительно» асимметричным.

Связанный:  5 примеров распределения с положительной асимметрией

7. Случайный

Форма распределения может быть описана как «случайная», если в данных вообще нет четкой закономерности.

Дополнительные ресурсы

В следующих руководствах содержится дополнительная информация о том, как описывать дистрибутивы.

Левостороннее и правостороннее распределение
Что такое симметричное распределение?
Что такое гистограмма относительной частоты?
Как оценить среднее значение и медиану любой гистограммы

типов гистограмм | Информация и обучение

Информация и обучение.| SPC и статистические методы для улучшения процессов.

Когда вы строите гистограмму, вы обычно ожидаете получить кривую в форме колокола. В таких ситуациях большинство измерений, записанных в ходе анализируемого процесса, будут располагаться в центре. Дальше от центра будет записываться все меньше и меньше измерений. Это распределение настолько распространено, что, когда распределение не соответствует такому «нормальному распределению», вам нужно спросить, почему данные не распределяются нормально? Какие типы гистограмм часто встречаются?

SPC и статистические методы для улучшения процессов.
Информационная и обучающая презентация >>>

Бимодальная гистограмма.
Также можно назвать мультимодальным. Этот тип гистограммы имеет два или более пика. В бимодальном или мультимодальном распределении возникают два или более кластера с более высокими частотными числами. Это происходит, когда данные поступают из двух или более дистрибутивов, например, если вы используете два разных станка на одной производственной линии, два источника одного и того же сырья, разные смены и т. д..

Чтобы полностью понять и интерпретировать бимодальную гистограмму, необходимо определить источники двух (или более) распределений, а затем построить отдельные гистограммы.

Также может возникнуть бимодальная гистограмма, когда данные для гистограммы берутся за определенный период времени. В этой ситуации в процессе могло возникнуть изменение, которое вызвало изменение среднего значения данных, что привело к двум пикам данных. В такой ситуации процесс следует исследовать в течение периода времени, связанного со сбором данных, чтобы определить, что могло измениться в процессе, например, были ли данные собраны в течение двух смен с разными операторами процесса.Могли ли измениться условия окружающей среды (теплый день или холодный день), использовались ли различные элементы испытательного оборудования для записи измерений и т. д.

 

Типы гистограмм — гистограммы с отсутствующими наборами данных.
Если набор данных кажется отсутствующим, рецензент должен спросить, есть ли конкретная причина, например, предубеждение при сборе данных. Возможно, данные поступают из контрольной точки, где незначительное изменение приводит к результату «Годен/Отклонен», и есть тенденция к «Годену», поэтому данные отсутствуют сразу за пределами предела отказа, и выше, чем обычно, наблюдается частота данных. внутри спецификации Pass limit.

SPC и статистические методы для улучшения процессов.
Информационная и обучающая презентация >>>

Гистограмма с положительным и отрицательным перекосом.
Есть ли сортировка данных? Предпринимаются ли попытки уменьшить измеренные значения на гистограмме с положительной асимметрией? Имеются ли на отрицательно скошенной гистограмме противоположные эффекты увеличения измеренных значений?

Искаженные данные часто возникают из-за нижних или верхних границ данных.То есть данные, у которых есть нижняя граница, часто искажены вправо, а данные, которые имеют верхнюю границу, часто искажены влево.

Другая возможная причина — ранние этапы нового процесса или продукта, когда наблюдается высокий уровень сбоев на ранних стадиях, которые со временем уменьшаются. Альтернативой является процесс, измеряемый во времени, где существует высокий уровень надежности внутри процесса, однако, приближаясь к ситуациям «конца жизни», начинают возникать сбои. Эти два сценария могут привести к положительному и отрицательному перекосу гистограмм.

SPC и статистические методы для улучшения процессов.
Информационная и обучающая презентация >>>

Типы гистограмм – однородная гистограмма.
Равномерная гистограмма может быть распределением с диапазоном мод, т.е. мультимодальным. В этой ситуации может быть ряд независимых влияний на построенную гистограмму.

Такое распределение может быть отражением неточности расчета ширины ячеек.Рецензенту необходимо просмотреть данные и оценить, повлияют ли различные размеры ячеек на гистограмму.

Распределение может демонстрировать, что существуют равные вероятности появления данных в каждой ячейке, например, при «бросании костей» или лотерейной ситуации будут равные вероятности. Гистограмма может показывать, что вероятности действительно равны.

Равномерная гистограмма может указывать на то, что процесс не находится под контролем, т.е. инструмент на станке изнашивается, что приводит к тому, что процесс со временем выходит за рамки спецификации.Проведенные измерения могут продемонстрировать, что одни и те же результаты процесса возникают всегда, когда меняются входные данные.

 

Гистограммы с выбросом.
Выбросы могут возникать из-за ряда факторов, таких как неточное считывание, ошибка ввода данных или другой подобный тип ошибки, эффект запуска, отказ оборудования, изменение ввода, т.е. скачок напряжения и т. д.

Выброс может возникнуть из-за группировки данных, т. е. в верхней части спектра измерений может быть категория «все остальные данные».В этой ситуации в эту категорию может быть включено слишком много точек данных. Решением может быть пересмотр ширины ячеек.

Необходимо исследовать выбросы, поскольку они могут представлять уникальные группы условий или периодические изменения в производительности процесса.

SPC и статистические методы для улучшения процессов.
Информационная и обучающая презентация >>>

Типы гистограмм – Гребенчатая гистограмма.
В гребенчатом распределении ячейки чередуются между короткими и длинными, каждая со своей кривой нормального распределения.Этот эффект может возникнуть, когда данные округляются, т. е. показания меньше «0,5» округляются до «0», показания выше «0,5» округляются до «1». Во всех ситуациях с непрерывными данными будет элемент округления либо лицом, выполняющим измерение, либо автоматически элементами испытательного оборудования, где округление будет присуще тестовому программному обеспечению. Решение состоит в том, чтобы убедиться, что границы ячеек установлены надлежащим образом, чтобы устранить этот эффект.

Информация и обучение.

SPC и статистические методы для улучшения процессов.

  • Возможности процесса. Снижение изменчивости. Статистическое управление процессами.
  • Предварительный контроль. Исследования R&R.
  • Показатели производительности процесса Cp, Cpk, Cpm, коэффициент производительности.
  • Показатели производительности Pp и Ppk.
  • Таблицы управления переменными.
  • Таблицы атрибутов.
  • Диаграммы Парето.
  • Индивидуальные – X Графики.
  • Гистограммы / анализ возможностей процесса.
  • Точечная диаграмма.
  • И т. д. … И т. д. …
  • Информация и обучающая презентация >>>

Определение, типы, характеристики, детали и работа

Гистограмма представляет собой представление числовых данных, не точное, а приблизительное. Карл Пирсон был первым, кто представил идею гистограммы. Чтобы создать гистограмму, первым шагом является бинирование, которое также называется бинированием данных, или группированием или дискретным бинированием.На этом этапе данные предварительно обрабатываются и используются для уменьшения влияния незначительных ошибок наблюдения, он делит весь диапазон значений на последовательность интервалов, а затем подсчитывает количество значений, попадающих в каждый из интервалов.

Вкратце, гистограмма помогает суммировать непрерывные данные. И, следовательно, учащимся важно узнать об одном и том же, потому что это помогает учащимся понимать и интерпретировать различные типы данных. Но прежде всего важно знать о гистограмме в целом.

Таким образом, Веданту предоставляет изучающим математику полное объяснение гистограммы вместе с ее определением, типами, характеристиками, частями и работами в простой и ясной форме, понятной всем изучающим.

Значение гистограммы

Значение гистограммы может быть сформулировано как графическое представление, которое сжимает ряд данных в простую интерпретацию числовых данных путем их группировки в логические диапазоны разной высоты, которые также известны как интервалы.В основном, он суммирует дискретные или непрерывные данные. Мы также можем назвать это графиком частотного распределения, поскольку он похож на график, который позволяет вам обнаружить лежащее в основе частотное распределение.

Определение гистограммы может быть предложено как инструмент, визуализирующий распределение данных на непрерывном интервале или за определенный период времени. Это помогает нам получить оценку того, где сосредоточены значения, каковы крайности, есть ли разрыв или необычные значения. В некоторой степени гистограмма также дает нам краткое представление о распределении вероятностей.Гистограмма очень похожа на вертикальную гистограмму, но разница между ними заключается в том, что между столбцами гистограммы нет промежутка, в отличие от гистограммы.

Части гистограммы.

Ниже приведены основные части гистограммы.

  • Заголовок: Заголовок — это первое и главное, что описывает всю информацию, которая представлена ​​в гистограмме.

  • Ось X: Интервалы, в которые попадает измерение, показаны в интервалах оси X.

  • Ось Y: значения, полученные в пределах интервалов, установленных по оси X, отображаются на оси Y.

  • Полосы: Полосы используются для отображения значения данных. А чтобы узнать общее количество раз, когда значения встречались в интервале, полезна высота столбца, а охваченный интервал показан шириной столбца. И, следовательно, очевидно, что гистограмма, у которой все ячейки равны, должна иметь одинаковую ширину на всех столбцах.

Как работает гистограмма

В статистике Гистограммы, по большей части, широко используются, потому что они показывают, сколько переменных определенного типа встречается в определенном диапазоне. Другими словами, это помогает отображать данные или числа в графическом формате и, следовательно, значительно облегчает нам понимание и интерпретацию данных.

Гистограммы могут работать и служить многим различным целям, например, для переписи населения. Гистограмма может использоваться для отображения диапазона людей в возрасте от eh до определенного возраста, например, сколько людей находится в стране в возрасте от 10 до 20 лет. и Т. Д.Гистограммы полезны во многих различных операциях.

Кроме того, если вы хотите узнать о гистограмме и гистограмме, поскольку чаще всего их путают друг с другом, вам может оказаться полезной эта ссылка: Гистограммы и гистограмма — определение, типы, использование и ключевые различия (vedantu .com)

Характеристики гистограммы

  1. Гистограмма используется для отображения непрерывных данных в виде категорий.

  2. На гистограмме нет промежутков между столбцами, в отличие от гистограммы.

  3. Ширина ящиков одинаковая.

Именно площадь, а не высота столбцов

В гистограмме именно площадь, а не высота столбца указывает частоту появления каждого бина. Высота столбца не указывает, сколько вхождений оценок имеется в каждом отдельном бине. Произведение высоты и ширины ячейки всегда указывает на частоту появления в этой ячейке.

Как построить график гистограммы частот

Чтобы построить график гистограммы из непрерывной переменной, необходимо выполнить несколько шагов.Они приведены ниже;

  • Шаг 1) Во-первых, нам нужно разделить данные на интервалы классов, которые также известны как интервалы и частоты.

  • Шаг 2) На этом шаге мы должны нарисовать гистограмму с осью X и осью Y. Затем запишите интервалы классов по оси X и частоты по оси Y.

  • Шаг 3) Нарисуйте вертикальные прямоугольники, используя оси X и оси Y.

Разница между барной графиком и гистограммой

бар диаграмма

Распределение неретенных переменных

Да

9031 8


Гистограмма

Указывает

Сравнение дискретных переменных

представляет

количественные данные

категорические данные

Пробелы

Нет пространств между барами

Пространства входят между Bars

Элементы

Элементы сгруппированы вместе

Элементы сделаны индивидуально

Reorkoring Bars

NO

Да

Ширина полосы

Не обязательно должна быть одинаковой

Должна быть одинаковой

Гистограмму можно представить по-разному.Некоторые из них также приведены ниже с примером гистограммы.

Типы гистограмм

Нормальное распределение:

В нормальном распределении точки по обе стороны от среднего одинаковы.

Бимодальное распределение:

В бимодальном распределении данные отдельно анализируются как нормальное распределение. Поэтому они представлены как два разных пика.

Распределение с асимметрией вправо:

Распределение с асимметрией вправо, также известное как распределение с положительной асимметрией, когда большое количество значений данных встречается в левой части, тогда как меньшее количество значений данных встречается на правой стороне. Распределение с перекосом вправо возникает, когда данные в левой части гистограммы имеют нижнюю границу диапазона, например, 0.

Распределение с перекосом влево:

Распределение с перекосом влево также известен как распределение с отрицательной асимметрией.В распределении с асимметрией влево большое количество значений данных появляется с правой стороны, тогда как меньшее количество значений данных появляется с левой стороны. Распределение с перекосом вправо имеет место, когда данные имеют нижнюю границу диапазона в правой части гистограммы, например, 100.

Случайное распределение: гистограмме распределения и, таким образом, имеет несколько пиков. Причиной этого может быть то, что свойства данных были объединены.

Приведенная выше таблица научит вас не только различным типам гистограмм, но и тому, как их рисовать.

Распространенные формы дистрибутивов — MathBootCamps

При построении или чтении гистограммы существуют определенные общие шаблоны, которые появляются достаточно часто, чтобы им были присвоены специальные имена. Иногда вы увидите этот шаблон, называемый просто формой гистограммы или формой распределения (ссылаясь на набор данных).Хотя одну и ту же форму/шаблон можно увидеть на многих графиках, таких как блочная диаграмма или шаблонная диаграмма, часто ее проще всего увидеть на гистограмме. В приведенных ниже примерах мы рассмотрим каждую из этих форм и некоторые из их важных свойств.

реклама

Колоколообразный / симметричный

Гистограммы, имеющие форму колокола/симметричные, имеют один четкий центр, вокруг которого сгруппирована большая часть данных. По мере удаления от этого центра ценностей становится все меньше и меньше.

На приведенной выше гистограмме этот центр равен примерно 10. Обратите внимание, что самые высокие столбцы находятся вокруг этого значения. Высота столбцов — это частота или количество значений данных в классе. Для значений, намного меньших или больших, чем 10, существует не так много значений данных.

Эта форма часто встречается в повседневной жизни. Например, вес и рост (когда вы смотрите на пол по отдельности) часто следуют этому шаблону. Большинство людей находятся в пределах определенного значения типичного значения с небольшими крайностями в любом направлении.

Перекос влево

В распределениях с асимметрией влево большая часть данных сгруппирована вокруг большего значения, и по мере того, как вы приближаетесь к меньшим значениям, в наборе данных появляется все меньше и меньше. На картинке хвост уходит влево . Вы можете увидеть это на гистограмме ниже, где большая часть данных (более высокая частота) составляет около 24 или около того. По мере того, как вы переходите к меньшим числам, частота становится все меньше и меньше. Это означает, что наблюдений становится все меньше и меньше.

Простой пример данных, которые имеют асимметричное левое распределение, — это результаты простого теста. Большинство студентов справятся хорошо, и по мере того, как вы будете получать более низкие баллы, будет все меньше и меньше студентов с такими баллами.

Правый перекос

Точно так же, как вы видели с асимметричным влево распределением, распределения с асимметрией вправо имеют хвост, но на этот раз он смещен вправо. Это означает, что данные обычно группируются вокруг небольшого значения, и по мере того, как вы ищете все большие и большие значения, их становится все меньше и меньше.

Глядя на приведенную выше гистограмму, мы видим, что большая часть данных сосредоточена вокруг 7 или около того, а больших значений данных становится все меньше и меньше. Если бы результаты тестов были искажены правильно, это было бы нехорошо! Это означало бы, что большинство студентов справились плохо, а хорошо – лишь немногие!

Бимодальный

Гистограмму бимодальной формы можно представить как имеющую два пика. Вместо одного четкого центра, где много наблюдений, их два. Часто это означает, что вы смотрите на две разные группы и должны присмотреться повнимательнее, чтобы увидеть, сможете ли вы их разделить.

В показанном выше примере есть пик около 42 или около того и пик около 58 или около того. Это почти как если бы две симметричные/колоколообразные гистограммы были сдвинуты вместе. В реальной жизни вы можете увидеть это, если посмотрите на набор данных о росте людей, и он включает как мужчин, так и женщин. Был бы пик около типичного роста мужчины и пик вокруг типичного роста женщины.

реклама

Униформа

Данные, которые следуют единообразному шаблону, имеют примерно одинаковое количество значений в каждой группе или классе (представлено полосой).

Приведенная выше гистограмма имеет очень однородную структуру, поскольку все столбцы имеют почти одинаковую высоту. Этот тип паттерна проявляется в некоторых типах вероятностных экспериментов. Например, если вы возьмете шестигранный кубик и бросите его много раз (например, 100+), вы получите примерно однородный рисунок.

Вы обнаружите, что форма распределения важна для понимания набора данных и выбора наилучшей меры центра, такой как среднее значение или медиана, для представления данных.Вот почему один из первых шагов анализа набора данных — всегда отображать ваши данные!

Подпишитесь на нашу рассылку!

Мы всегда публикуем новые бесплатные уроки и добавляем дополнительные учебные пособия, руководства по калькуляторам и наборы задач.

Подпишитесь, чтобы время от времени получать электронные письма (раз в пару или три недели), чтобы узнавать о новинках!

Родственные

Примеры, типы + [Учебник по Excel]

Одним из основных недостатков различных методов визуализации данных является то, что их становится все труднее читать с большими наборами данных.Совершенно иначе обстоит дело с гистограммами, которые в основном используются для визуализации больших наборов дискретных и непрерывных данных.

Гистограммы обеспечивают визуальное представление количественных данных, используя высоту аккуратно соединенных прямоугольных столбцов, чтобы указать частоту точек в интервале класса. Этот график можно построить вручную, нарисовав его прямой линейкой, или в цифровом виде с помощью Excel.

Построить гистограмму в цифровом виде очень просто. Поэтому в этой статье мы подробно расскажем о том, что такое гистограмма и как мы можем создать ее в цифровом виде с помощью Excel.

Что такое гистограмма?

График гистограммы — это график, который используется для визуализации частоты дискретных и непрерывных данных с помощью прямоугольных столбцов. Прямоугольные столбцы показывают количество точек данных, попадающих в указанный интервал класса.

Также известная как гистограмма, интервалы классов (или ячейки) не всегда имеют одинаковый размер по горизонтальной оси. При построении диаграммы гистограммы первое, что нужно сделать после сбора данных, — это определить ячейки или интервалы классов.

Данные должны быть сгруппированы по этому интервалу, тогда будет браться частота данных, попадающих в эти группы. Поскольку интервалы классов обычно представляют собой непрерывный диапазон значений, в отличие от гистограмм, прямоугольные части не разнесены (т. е. они касаются друг друга).

Особенности гистограммы

График гистограммы — это популярный графический инструмент, обеспечивающий визуальное представление распределения данных. Чтобы идентифицировать диаграмму гистограммы, вот некоторые качества, на которые вам, возможно, придется обратить внимание.

Наименование

Название гистограммы дает представление о данных, отображаемых на графике. Он суммирует информацию, отображаемую на гистограмме.

Имея заголовок на гистограмме, третья сторона может легко изобразить, о чем идет речь на графике, не углубляясь в чтение самого графика. На приведенном выше рисунке заголовок гистограммы — Histogram.

Оси

Гистограмма имеет две оси: вертикальную и горизонтальную.Вертикальная ось на диаграмме гистограммы указывает частоту, а горизонтальная ось указывает интервалы классов или бины.

Эти 2 оси обычно помечены тем, что они представляют, что придает больше смысла названию графика гистограммы. Горизонтальная ось (x) показывает шкалу значений, в которой измеряется интервал класса.

Каждая из этих осей обычно имеет метку, описывающую тип данных, отображаемых на каждой оси. В этом случае горизонтальная метка — Bin , а вертикальная метка — Frequency

.

Стержни

Полосы являются основной частью гистограммы, которая в основном визуализирует набор данных.Полосы на гистограмме имеют прямоугольную форму и показывают, сколько раз значения попадают в каждый интервал класса.

Высота столбцов показывает частоту, а ширина столбцов указывает интервал. Графики гистограмм с равномерными интервалами классов обычно имеют одинаковую ширину.

Шкала

Масштаб гистограммы — это набор чисел, используемый для измерения или количественной оценки набора данных на графике. Это часть того, что определяет ширину и высоту каждого прямоугольного столбца на гистограмме.

Это то, что описывает структуру каждой единицы по горизонтальной и вертикальной осям. На рисунке 1 единица по горизонтальной оси эквивалентна 20, а 2 единицы по вертикальной оси эквивалентны 2.

Гистограммы

Гистограммы — это графики, сформированные путем соединения верхних средних точек прямоугольных полос на существующей диаграмме гистограммы. Также известные как полигоны частот, они обычно используются при визуализации набора данных непрерывных переменных.

Другими словами, мы можем сказать, что гистограммы представляют собой линейные графики, нарисованные на гистограмме, где точка середины вершины прямоугольных столбцов является точками данных.

Не все гистограммы имеют гистограф. Однако при добавлении к диаграмме гистограммы это очень полезно для предоставления дополнительной информации о наборе данных.

Типы гистограмм

Графики гистограмм классифицируются по разным типам в зависимости от распределения прямоугольных столбцов на графике.То есть форма столбцов и вся структура графика.

Различные распределения гистограмм выделены ниже:

Нормальное распределение

Говорят, что гистограмма имеет нормальное распределение, если она имеет форму колокола. Как следует из названия, это нормальная или типичная структура, которую, как ожидается, примет распределение гистограммы, даже если она не является «нормальной».

В некоторых случаях можно сказать, что график гистограммы имеет нормальное распределение, просто взглянув на него.Однако другие распределения подобны нормальному распределению, поэтому необходимо выполнить статистические расчеты, прежде чем можно будет сказать, что распределение является нормальным.

Бимодальное распределение

Бимодальное распределение — это результат объединения двух разных процессов в одном наборе данных. Это распределение содержит два разных нормально распределенных графа.

Например, данные, собранные из двух разделов одного класса (например, класса 1А и класса 1В), могут быть бимодальными.Похожий на спину двугорбого верблюда, его также называют двугорбым распределением.

Неравномерное распределение

Перекошенное распределение — это асимметричный график с нецентральным пиком, стремящимся к границе графика (или от хвоста). Есть два типа асимметричных распределений, а именно; распределения с правым и левым наклоном.

В правостороннем распределении хвост графика находится справа. Это также известно как положительно асимметричное распределение.

С другой стороны, распределение с асимметрией влево имеет хвост с левой стороны и также известно как распределение с асимметрией с отрицательной асимметрией.

Случайное распределение

Распределение этого типа не имеет определенного шаблона и дает несколько пиков. Следовательно, это также упоминается как мультимодальное распределение.

Случайное распределение обычно создается при объединении набора данных, содержащего переменные с разными свойствами. В этом случае данные должны быть отсортированы и отдельно проанализированы.

Распределение крайних пиков

Распределение краевых пиков очень похоже на нормальное распределение, с тем отличием, что первое имеет большой пик на одном из хвостов.

Этот вид распределения обычно формируется из-за ошибки в построении графика гистограммы.

Распределитель гребенки

Как следует из названия, столбцы в гребенчатом распределении имеют структуру , подобную гребенке .Эти полосы чередуются между высокими и короткими, что делает график похожим на расческу.

Гребенчатое распределение обычно создается из-за ошибок округления в наборе данных.

Усеченное распределение

Усеченное распределение создается, когда хвост нормального распределения обрезается на результирующей диаграмме гистограммы. Отрезание хвоста иногда придает ему форму сердца, в результате чего его называют распределением с вырезом в виде сердца.

Примеры гистограмм

Пример 1: Компания ABC пытается сократить время ожидания клиентов в очередях для повышения удовлетворенности клиентов. Для этого они взяли случайного клиента и опросили его о том, сколько времени ему пришлось ждать в очереди за последние 10 дней.

Приведенная ниже таблица является результатом этого интервью. Создайте диаграмму гистограммы, используя эти данные. Отсюда определить, к какому распределению относится график

Решение: Как показано ниже, мы создали гистограмму с 4 интервалами и 4 частотами.Горизонтальная ось показывает диапазон времени ожидания, а вертикальная ось показывает среднее количество клиентов, испытывающих каждый интервал времени ожидания.

Полученная гистограмма имеет рандомизированное распределение.

Пример 2:  Филантроп хочет пожертвовать товары менее привилегированному сообществу. Для того, чтобы определить количество и вид предметов для пожертвования, в сообществе был проведен опрос.

Цель данного исследования – выяснить возрастную демографию жителей общины.После проведения этого опроса он был визуализирован на гистограмме для удобства анализа, как показано ниже.

Учитывая, что Число людей , указанное на графике, измеряется сотнями, определите численность населения в каждой возрастной группе, а затем используйте полученный результат, чтобы выяснить, в какой из этих групп населения больше всего населения.

Решение: Поскольку количество людей, указанное на гистограмме, исчисляется сотнями, то количество людей, относящихся к каждой возрастной группе, равно:

0-20: 4*100 = 400 человек

20-40: 7*100 = 700 человек

40-60: 2*100 = 200 человек

Ясно, что группа с наибольшим количеством населения – это возрастная группа 20-40 лет.Это означает, что большинство жителей этого сообщества в возрасте от 20 до 40 лет. 

Использование гистограммы
  • Идентификация режима в наборе данных

Без сложных математических вычислений можно легко определить наиболее распространенный результат процесса в наборе данных. Визуализируя собранные данные на гистограмме, результат с наибольшей частотой будет легко выделяться как пик графика.

  • Идентификация структуры данных

При чтении гистограммы можно легко определить тенденции в данных. Это может быть полезно для прогнозирования, оптимизации процессов и выявления возможных проблем.

  • Обнаружение отклонений в данных

Вы можете легко обнаружить отклонения в данных при визуализации с помощью гистограммы по сравнению с некоторыми другими методами визуализации данных. Это очень полезно в тех случаях, когда вы собираете данные с течением времени.

Немедленное отклонение в данных, отклонение заметно на графике гистограммы. Это легко поможет вам проверить процесс сбора данных и внести исправления, если отклонение вызвано человеческим фактором.

Гистограмма в зависимости от гистограммы t

Хотя гистограммы и гистограммы обладают очень похожими структурами и характеристиками, они имеют ряд различий. Эти различия помогут нам распознать эти диаграммы, когда мы столкнемся с ними.

Поэтому в этом разделе мы рассмотрим сходства и различия между гистограммами и гистограммами.

Различия

Прямоугольные столбцы гистограммы разнесены, а прямоугольные столбцы гистограммы соединены вместе. Кроме того, горизонтальные метки на гистограмме обычно представляют собой дискретные или номинальные данные.

Оси гистограмм, напротив, помечены бинами или интервалами классов набора данных.

При анализе данных гистограммы используются для измерения частоты категорийных данных, а гистограммы измеряют порядковые и количественные (интервалы и отношения) данные. Хотя вертикальная ось обоих графиков является дискретной, горизонтальная ось гистограммы является категориальной, а ось гистограммы — числовой.

Прямоугольные столбцы на гистограмме обычно располагаются в порядке убывания высоты. С другой стороны, гистограммы имеют прямоугольные столбцы, упорядоченные в соответствии с их положением в интервале классов.

Хотя интервалы классов расположены в порядке возрастания, это не означает, что прямоугольные столбцы обязательно будут расположены одинаково. Это связано с частотой каждого интервала, которая случайным образом меняется в зависимости от набора данных.

Аналоги

И гистограммы, и гистограммы имеют заголовок, оси, масштаб и прямоугольные столбцы. Просто взглянув на оба графика, они очень похожи друг на друга. В основном это связано с тем, что они оба используют прямоугольные столбцы для визуализации данных.

Гистограммы и гистограммы используются для определения режима или частоты элементов в наборе данных. Высота прямоугольных полос соответствует частоте определенного элемента в наборе данных.

Самый простой способ прочитать эти два графика — следовать простому неофициальному правилу, которое гласит: «Чем выше полоса, тем выше частота, и наоборот».

График гистограммы в Excel

Чтобы построить гистограмму с помощью Excel, выполните несколько простых шагов:

  • Шаг 1:  Введите данные в книгу Excel, как показано на рисунке ниже.

Входные данные — это набор случайных величин, которые мы хотим визуализировать с помощью Excel. Диапазон значений — это диапазон значений, которые вы хотите отобразить на горизонтальной оси. Это то, что определяет ширину прямоугольных полос и масштаб горизонтальной оси.

  • Шаг 2: Перейдите к Данные>Анализ|Анализ данных . Если вы не можете найти вкладку Data Analysis , это означает, что вы не установили плагин Analysis Toolpak.  Чтобы установить плагин, выберите Файл > Параметры . Появится диалоговое окно, подобное приведенному ниже.

Нажмите на Analysis Toolpak, , затем на кнопку Go . Появится другое диалоговое окно, похожее на диаграмму ниже.

Отметьте Пакет инструментов анализа и нажмите OK , как показано выше. Вкладка Data Analysis теперь будет отображаться в меню Analysis .

  • Шаг 3: После нажатия на Data Analysis появится диалоговое окно, подобное показанному ниже.

Щелкните Гистограмма , а затем OK , чтобы перейти к следующему шагу.

  • Шаг 4: Введите диапазон ввода и диапазон ячеек, затем отметьте необходимые параметры, как показано на диаграмме ниже. Нажмите OK , и вы получите свою гистограмму.
  • Шаг 5: На приведенной ниже диаграмме наша сгенерированная гистограмма больше похожа на гистограмму с пробелами между столбцами.

Отредактируйте зазор между прямоугольными столбцами, выделив все столбцы, затем перейдите к Формат ряда данных > Параметры ряда .Устраните dap, уменьшив Gap Width до 0%, как показано ниже.

Отделите столбцы друг от друга, добавив к столбцам цвет границы.

  • Шаг 6: . Отредактируйте бины или интервалы классов, щелкнув правой кнопкой мыши график и выбрав Select Data Series. Появится приглашение, подобное приведенному ниже.

Нажмите Изменить в метках горизонтальной оси (категории), чтобы изменить маркировку бункера.

Нажмите OK и у вас есть гистограмма.

Просто взглянув на симметрию этого графика, мы можем заключить, что он имеет случайное распределение.

Недостатки гистограммы
  • Может использоваться только для визуализации непрерывных данных. Поскольку графики, как правило, склеены между собой, использовать гистограмму для визуализации дискретных данных будет некорректно. Это можно сделать только с помощью гистограммы.
  • Поскольку данные сгруппированы по разным категориям, гистограммы не могут считывать точные значения.Вы не можете определить конкретные точки данных на графике, просто прочитав гистограмму.
  • Его нельзя использовать для сравнения двух наборов данных.

Заключение

Гистограмма — отличный инструмент визуализации для изучения изменений больших наборов данных. Это один из наиболее часто используемых методов визуализации данных в статистическом анализе.

Гистограммы являются одним из семи основных инструментов контроля качества из-за их простоты и способности решать большинство проблем, связанных с качеством.Аналитики по контролю качества изучают различные аспекты гистограммы, в том числе распределение, ширину и высоту прямоугольных столбцов.

Хотя обычно говорят, что высота гистограммы указывает на частоту появления в ячейке, это не относится ко всем случаям. В случаях, когда гистограмма не имеет одинаковых интервалов, частота интервала определяется площадью прямоугольных столбцов.

Гистограммы и их использование

Гистограмма очень похожа на столбчатую диаграмму.Эта диаграмма представляет собой комбинацию линейного графика и вертикальной гистограммы. Данные здесь отображаются с помощью прямоугольников одинакового размера. Гистограмма используется для отображения распределения информации или данных за непрерывный период времени. Площадь прямоугольных полос пропорциональна частоте переменной.

Гистограммы могут иметь внешний вид, похожий на гистограммы, но в отличие от них используются для отображения частоты появления переменных в непрерывных данных. Эти непрерывные данные делятся на классы, называемые бинами.Используя эти корзины, можно легко определить точки большинства и меньшинства. Кроме того, при рисовании гистограммы следует следить за тем, чтобы интервалы не были слишком тонкими, что может повлиять на поток распределения частот, или слишком толстыми, что затруднит просмотр изменений в данных.

Возьмем пример клиентов, ожидающих в банке.

Источник изображения: гистограмма

Вышеприведенная таблица дает нам данные опроса клиентов банка относительно их соответствующего времени ожидания.Этот лист данных построен в виде гистограммы с 5-секундными интервалами. Результирующий график показан ниже.

Источник изображения: гистограмма исследования

Из этого графика мы можем очень хорошо сказать, что клиенты ждали в большинстве случаев от 35 до 50 секунд. Как видите, гистограммы непрерывны и не имеют пропусков, однако, если для конкретной точки нет доступного значения частоты, могут возникать пропуски. Эти пробелы легко обнаружить, и они служат еще одним преимуществом гистограммы.

 

В базовом типе гистограммы независимая переменная откладывается по оси x, а зависимая переменная — по оси y. Прямоугольные полосы окрашены или заштрихованы для обозначения различных категорий. Давайте посмотрим на пример того же. Предположим, учитель анализирует итоговые экзаменационные оценки своих учеников. Каждый диапазон меток обозначается своим цветом.

Источник изображения: гистограмма

С помощью этой гистограммы можно получить несколько результатов о способностях преподавателя и интеллекте ученика.

Гистограммы полезны не только для определения минимальной точки данных, максимальной точки данных и медианы. Но он также используется для определения стандартной медианы данных. Диапазон диаграммы слева направо, который также называют шириной класса диаграммы, можно узнать с помощью гистограммы.

Распределения гистограмм

Существует множество способов распределения гистограммы. Вот несколько типов дистрибутивов, которые мы собираемся изучить.

  1. Нормальное распределение
  2. Бимодальное распределение
  3. Распределение с перекосом вправо
  4. Распределение с перекосом влево
  5. Равномерное распределение
  6. Случайное распределение

Нормальное распределение гистограммы

При таком типе распределения данных гистограмма образует перевернутую V-образную фигуру.Точки данных, встречающиеся на одной стороне, аналогичны точкам данных, происходящим на другой стороне. Иллюстрация этой колоколообразной или ступенчатой ​​конструкции с одной вершиной приведена ниже.

Источник изображения: нормальное распределение гистограммы

Бимодальное распределение гистограммы

Этот тип распределения гистограммы состоит из двух нормальных типов распределения. Это указывает на то, что данные собираются из двух разных систем. В случае возникновения такого распределения данные должны быть проанализированы отдельно для обоих пиков.

Источник изображения: бимодальное распределение гистограммы

Правостороннее распределение гистограммы

В этом типе распределения гистограммы большие значения появляются слева, чем справа, поэтому этот график имеет наклон вправо. Этот тип графика также называется распределением с положительной асимметрией.

Источник: Правостороннее распределение гистограммы

Левонаправленное распределение гистограммы

Этот тип гистограммы наклонен влево.В отличие от распределения с правым перекосом, здесь большие значения данных обнаруживаются с правой стороны, чем с левой. Этот тип распределения гистограммы также называют распределением с отрицательной асимметрией.

Источник изображения: левостороннее распределение гистограммы

Случайное распределение гистограммы

Как следует из названия, распределение этой гистограммы является случайным, и здесь видно много пиков. Учитывая форму графика, можно сказать, что данные были собраны из разных источников или разных групп.Этот тип графика обычно возникает при наличии нескольких систем.

Источник изображения: случайное распределение гистограммы

Равномерное распределение гистограммы

В этом типе распределения гистограмм все пики оказываются почти одинакового размера, что дает мало информации об источнике. Если такая закономерность формируется, это может быть связано с меньшим количеством систем.

Источник изображения: Равномерное распределение гистограммы

Плюсы гистограммы
  • Гистограммы помогают графически отображать большие объемы данных, которые трудно представить в табличной форме.
  • Это упрощает отображение данных различного типа и частоты.
  • Полезно для визуализации распределения данных.
  • С помощью гистограммы можно найти медиану, распределение и вариации данных.
  • Гистограмма сообщает нам об асимметрии отображаемых данных.
  • Эти диаграммы также помогают прогнозировать будущую производительность процесса.
  • Это упрощает расчет производительности процесса.
  • Гистограммы очень последовательны, так как интервалы распределены одинаково,
  • Таблицы данных можно легко преобразовать в гистограммы.
  • Гистограммы полезны при расчете стандартного отклонения данных.
  • Диапазон диаграммы можно найти с помощью этого графика.
  • Гистограммы относятся к числу удобных для чтения диаграмм. Его легко читать и понимать.
  • Гистограммы часто строятся для облегчения принятия решений.
  • Эти графики подходят для использования, когда доступные данные находятся в очень больших диапазонах.Например, при опросе студентов колледжа, которые паркуют транспорт вне территории кампуса.

Минусы гистограммы
  • При построении гистограммы можно использовать только непрерывные данные.
  • Эта форма диаграммы не очень подходит для сравнения двух типов данных.
  • Точное значение данных не используется для построения графика, так как данные всегда группируются или классифицируются.
  • Если не нанесено на график частотное распределение, точные входные данные гистограммы не могут быть извлечены из графика.
  • Гистограммы — это диаграммы, которыми можно легко манипулировать для достижения желаемого результата.
  • Иногда разница во времени в данных не учитывается при построении гистограммы.
  • Они очень неудобны при сравнении множества разных категорий данных вместе.

Это были некоторые факты о гистограммах и их функциях. Надеюсь, это помогло вам понять, какие данные подходят для построения гистограммы.

Их примеры, типы и приложения

Все мы видели и слышали о гистограммах и различных способах их интерпретации и создания.Но почему мы готовы тратить так много времени на набор брусков или выпрямленных линий, как это называют некоторые люди.

Возьмем, к примеру, книжный набор детсадовца. Вы когда-нибудь задумывались, что в стишках и книгах, которые раздают детям до 5 лет, больше изображений, чем письменного содержания? Если не раньше, то вы должны думать об этом сейчас.

Причина в способности человеческого разума фиксировать картинку быстрее, чем кусок письменной информации.И интересный факт заключается в том, что даже взрослые умы связаны этими психологическими данными, и именно поэтому гистограммы приобрели такое большое значение в этом мире сегодня.

Учитывая эффективность этого факта, теперь они являются частью статистической жизни для интерпретации данных, и именно поэтому мы подготовили окончательное руководство о том, как сделать гистограмму, как создать их в Excel и примеры гистограмм, чтобы понять вид данных может представлять с его свойствами.

Хотите узнать, как стать экспертом по данным
?

Загрузите подробную брошюру и получите бесплатный доступ к интерактивному демо-классу с отраслевым экспертом

Дата: 15 января 2022 г. (суббота) Время: с 11:00 до 12:00 (IST/GMT +5:30)

Что такое гистограмма?

Прежде чем перейти к их использованию, давайте на минутку разберемся, что на самом деле означает этот термин.Итак, сначала первые уроки,

«Гистограмма не является гистограммой».

Согласно определению, это графическое представление распределения числовых данных. Это кажется довольно простым, не так ли? Тем не менее, в этой строке заключено много информации, и мы поможем вам понять каждую ее часть.

Для этого давайте используем несколько простых слов, чтобы понять определение. Итак, в общем случае гистограмма — это график, который содержит информацию в виде вертикальных столбцов или столбцов.Он сообщает нам, сколько раз конкретный набор данных появлялся в выбранном диапазоне. Этот диапазон называется бином.

Понимание частей гистограммы

Гистограмма состоит из 5 основных частей, которые важно понимать, чтобы прочитать или создать ее. Они:

1. Название

Название гистограммы является наиболее значимой ее частью. Это первый параметр, дающий представление о том, о чем говорят представленные данные. Например, если заголовок гистограммы «гистограмма месячной зарплаты», это дает аудитории намек на то, что репрезентация находится между месячной зарплатой и сотрудниками компании.

2. Ось X

Как мы говорили до сих пор о графическом представлении данных, оно обычно выполняется на 2D-графике с осью X, расположенной на горизонтальном уровне. Ось X содержит бины или диапазон для данных. В случае примера гистограммы месячной заработной платы диапазон заработной платы, такой как 1000-2000, будет представлен на оси X.

3. Ось Y

Эта ось сообщает читателю о частоте бинов на другой оси. Например, если один из диапазонов зарплат по оси X составляет 1000–2000, и 5 сотрудников получают эту зарплату, то 5 — это частота этого бина, представленного по оси Y.

4. Бары

Когда все частоты отмечены на оси Y против соответствующего бина на оси X, формируется столбец с данными. Чем выше полоса, тем выше частота для корзины. Однако ширина столбца также является фактором, который следует учитывать, поскольку гистограммы отражают площадь, охватываемую графиком, а не только высоту столбца.

5. Единицы

Единицы, указанные на каждой из осей, делают представление чисел логичным для интерпретации для аудитории.Например, в случае гистограммы месячной заработной платы мы говорили о размере бина 1000-2000, но не обсуждали его единицы. Означает ли эта сумма от одной тысячи рупий до двух тысяч рупий или от одной тысячи пайсов до двух тысяч пайсов? Таким образом, если единицы не указаны, цифры могут показаться абсурдными по сравнению с реальными сценариями.

Продолжайте читать, чтобы узнать больше о гистограммах и о том, как сделать гистограмму.

Как читать гистограммы

Свойства гистограммы

Прежде чем пытаться создать гистограмму или научиться делать гистограмму, важно знать основные правила ее создания.Хотя они нигде не определены, но просмотр тех, которые были разработаны с учетом многолетнего опыта работы с гистограммами, облегчит их понимание.

(i) Количество классов или бинов: бины, которые являются диапазоном по оси X гистограммы, также называются классом, и каждый класс также имеет одинаковое распределение данных. На гистограмме может быть столько интервалов, сколько требуется, но должно быть минимальное и максимальное значение. Если их не учитывать заранее, то графическое представление теряет свою ценность.

(ii) Ширина бинов: теперь, когда мы знаем максимум и минимум нашей гистограммы, не менее важно научиться распределять их, чтобы сохранить удобочитаемость данных.

Это означает, что каждый диапазон, ячейка или класс гистограммы должны быть одинаковыми. Распределение чисел между максимумом и минимумом должно быть равным, чтобы соответствовать цели графического представления с равным весом-возрастом.

Скажем, для примера гистограммы месячной заработной платы минимальная заработная плата может составлять 5000 индийских рупий, а максимальная — 40 000 индийских рупий.Теперь, чтобы распределить их поровну, мы можем брать такие классы, как 5000–10 000 индийских рупий, 10 001–15 000 индийских рупий и так далее до 40 000 индийских рупий.

Как сделать гистограмму с примерами гистограмм?

Учитывая всю эту информацию о представлении данных, давайте убедимся, что вы уверены в том, как сделать гистограмму по мере необходимости с помощью этих шагов и примера гистограммы месячной заработной платы.

Шаг 1: Нарисуйте горизонтальную линию, являющуюся осью x на гистограмме.

Шаг 2: Определите минимальное и максимальное значение, которое будет представлено, а также его распределение. Для примера гистограммы месячной зарплаты минимальная зарплата составляет 5000 индийских рупий, а максимальная — 40 000 индийских рупий. Установленный диапазон распределения составляет 5000, а это означает, что количество ячеек будет равно 9.

Шаг 3: Отметьте единицу измерения по оси X, чтобы обеспечить удобочитаемость.

Шаг 4: Нарисуйте вертикальную линию, которая будет осью Y гистограммы.

Шаг 5: Отметьте также числа на оси Y. Они также могут быть в диапазоне 1-10, 10-20 или быть числами на вертикальной линии, например, 1, 2, 3 и т. д. в зависимости от данных. Для гистограммы ежемесячной заработной платы мы отметим числа от 1 до 10, учитывая, что в компании всего 10 сотрудников.

Шаг 6: Также отметьте единицы измерения по оси Y. В данном случае это будет несколько человек.

Шаг 7: Отметьте данные для каждого бина вертикально на высоте, которая соответствует частоте на оси Y.Скажем, для корзины заработной платы от 20 001 до 25 000 5 человек получают эту сумму. Затем отметьте точку на высоте 5 над выбранным диапазоном, чтобы сформировать вертикальную черту.

Хотя вы, возможно, не готовите такую ​​гистограмму каждый раз с ручкой, бумагой и масштабом, чтобы рисовать линии и отмечать значения, тем не менее, это будет базовый процесс создания гистограммы с максимальной эффективностью.

Рисование гистограмм в Excel

Теперь, когда вы понимаете, как построить гистограмму и какие факторы учитываются при подготовке гистограммы, с определенным набором данных можно легко собрать 50 человек с помощью описанных выше шагов.Однако в реальном мире каждый день приходится обрабатывать тысячи и миллионы данных.

А для проецирования этих данных с максимальной точностью инструменты Microsoft Excel являются одним из лучших и самых простых способов их создания. Итак, вот шаги и методы создания гистограммы в Excel.

Для этого предположим, что у нас есть не менее 50 строк данных, которые будут представлены в виде гистограмм в Excel, готовых с нами. Обязательными столбцами в Excel будут список чисел, их частота и размер ячейки.Обратите внимание, что размер ячейки будет постоянным для представления данных после принятия решения.

Как сделать гистограмму с помощью инструмента анализа данных в Excel?

Этот инструмент доступен в виде надстройки для создания гистограммы в Excel, если вы используете Microsoft Excel 2013 или более ранней версии.

После того, как вы добавите этот инструмент в Excel из Интернета, он будет доступен на вкладке ДАННЫЕ под названием «Анализ данных». После этого выполните шаги, чтобы получить информацию в виде гистограммы, а затем проанализировать ее в Excel.Мы сделаем это с помощью примера гистограммы, в которой оценки 50 учащихся собираются по предмету в сравнении с их бросками.

Шаг 1: Введите данные для 50 учащихся в 2 строки с заголовками: номер списка и оценки.

Шаг 2: Определите ячейку или интервал и заполните этот столбец.

Шаг 3: Теперь щелкните вкладку «Анализ данных» и выберите «Гистограмма» из списка параметров.

Шаг 4: Появится новое диалоговое окно с такими полями, как Диапазон ввода, Диапазон ячеек, Метка и Диапазон вывода.

Шаг 5: Введите значения в каждом поле. Для диапазона ввода введите номер первой ячейки и адрес последней ячейки столбца частоты. В выбранном примере это будут оценки, полученные учащимися, а адрес ячейки будет выглядеть как B23. Он отображается в верхнем левом углу листа Excel после выбора любой ячейки.

Шаг 6: Введите первый и последний адрес столбца ячейки в поле ввода диапазона ячеек.

Шаг 7: Установите флажок «метка» и введите заголовки гистограммы.

Шаг 8: Поле ввода «выходной диапазон» будет содержать адрес ячейки, где Excel создаст таблицу частот для ваших данных.

Шаг 9: Установите флажок «Вывод диаграммы» в нижней части окна и нажмите «ОК». Ваша гистограмма появится на листе Excel.

Выполнив все описанные выше шаги, гордитесь тем, что теперь вы знаете, как построить гистограмму с помощью инструмента анализа данных в Excel.

Как сделать гистограмму в Excel 2016

Если вы использовали одну из последних версий Excel от Microsoft и хотите научиться анализировать данные в Excel, выполните следующие действия, чтобы создать гистограмму для ваших данных.

Вам не нужно добавлять какую-либо надстройку для более поздних версий Microsoft Excel, потому что параметр гистограммы был встроен, учитывая его спрос и популярность. Итак, вот необходимые шаги:

Шаг 1: Создайте набор данных

Шаг 2: Выберите весь набор данных и щелкните вкладку «ВСТАВИТЬ».

Шаг 3: Затем перейдите в раздел «Диаграмма», нажмите «Вставить статическую диаграмму» и выберите «Гистограмма».

Вот и все.Ваша гистограмма появится на экране по мере необходимости.

Типы гистограмм

Помимо того факта, что вы хотите, чтобы ваши данные были представлены в более удобном для чтения формате, таком как гистограмма, действительно существует несколько его видов для улучшения этого представления.

Хотя гистограмма по-прежнему будет содержать те же данные, столбцы и формат 2D, ее ориентация заметна.

Некоторые из наиболее известных типов гистограмм:

Гистограмма нормального распределения

В гистограмме этого типа есть средняя точка данных, представленных на оси X, а остальные данные в равной степени расположены по обе стороны от этой точки.Такое распределение часто образует на гистограмме колоколообразную структуру.

Гистограмма нормального распределения

Гистограмма бимодального распределения

На такой гистограмме видны два пика, а не один. Наиболее распространенное наблюдение для этого распределения похоже на наличие в наборе данных двух одинаковых или близких частот, образующих структуру двойного колокола на одной и той же гистограмме. На изображении ниже показана гистограмма бимодального распределения.

Гистограмма бимодального распределения

Если вам интересно, как сделать гистограмму с бимодальным распределением или в каких случаях она подойдет, то возьмите этот пример.

Для примера гистограммы месячной заработной платы возможно, что для двух разных диапазонов заработной платы, скажем, от 15 001 до 20 000 и от 30 001 до 35 000, в каждом диапазоне есть 3 сотрудника и, следовательно, создается гистограмма бимодального распределения.

Гистограмма распределения с перекосом вправо

Это распределение также называют распределением с положительной асимметрией. На самом деле происходит то, что набор данных имеет диапазон значений, которые падают к левой стороне гистограммы, а не к более широкому распределению.Ниже показан пример гистограммы распределения с перекосом вправо.

Гистограмма распределения с перекосом вправо

Гистограмма распределения с перекосом влево

Это распределение также называют распределением с отрицательной асимметрией. В этом сценарии большая часть набора данных приходится на правую часть гистограммы, как показано ниже.

Гистограмма распределения с перекосом влево

Гистограмма случайного распределения

В этом типе гистограммы не присутствует ни одна из двух модальностей, но несколько модальностей в настоящее время придают гистограмме случайную структуру, подобную той, что показана на изображении ниже.

Гистограмма случайного распределения

Действительно, нужно многому научиться, выполняя все эти шаги на листе Excel и узнавая о каждом решающем факторе, результирующей гистограмме и ее интерпретации.

И чем больше вы узнаете о гистограмме, ее функциях и примерах гистограмм, тем больше вы узнаете о Microsoft Excel и инструментах. Так что продолжайте учиться, и мы будем здесь, чтобы убедиться, что вы получите всю необходимую информацию, чтобы получить ожидаемый тип гистограммы.

Итак, если вы также планируете вывести свою карьеру в области анализа данных на новый уровень, вам следует записаться на сертифицированный курс по анализу данных.

Виды гистограмм: Гистограммы. Что это? Как построить? Как представить данные? Как провести анализ? | Бережливые шесть сигм | Статьи | База знаний

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Пролистать наверх