Основы статистического анализа данных. Статистические методы

Статистические методы анализа данных принято делить на две большие группы: одномерные методы статистического анализа и многомерные методы.

Одномерные методы анализа - это методы, которые применяют в случаях, если существует единый измеритель для оценки каждого элемента выборки, либо если этих измерителей несколько, каждая переменная анализируется отдельно от всех остальных . В центре внимания данных методов находится анализ средних значений и показателей вариации переменных.

Классификация одномерных методов осуществляется по характеру исходных данных (метрические или неметрические), а также по количеству и типу выборок. Так, выборки делят на зависимые (парные) - это выборки, сформированные из одной генеральной совокупности и независимые выборки - это выборки, сформированные из различных генеральных совокупностей. На практике независимыми считают выборки, сформированные из различных страт (в случае использования стратифицированной или квотной выборки), например, мужчин и женщин или групп респондентов с различным уровнем дохода.

К одномерным методам анализа данных относят:

· Методы проверки гипотез (z-критерий, t-критерий, F-критерий, χ2-критерий и т.п.).

Более подробно проверку гипотез смотри: Гмурман В. Е. Теория вероятностей и математическая статистика.

· Методы анализа статистических рядов распределения.

· Однофакторный дисперсионный анализ.

· Другие методы.

Многомерные методы анализа - это методы, которые применяют в случаях, если для оценки каждого элемента выборки используется два или больше измерителя и эти переменные анализируются одновременно . В центре внимания данной группы методов уже находятся анализ взаимосвязей, связей и сходства между переменными.

Выделяют следующие многомерные методы:

1) Методы выявления зависимости между переменными – это методы, в которых одна или несколько переменных являются зависимыми, а другие независимыми. К этой группе относят:

· корреляционно-регрессионный анализ;

· дисперсионный и ковариационный анализ;

· дискриминантный анализ;

· совместный анализ.

2) Методы выявления взаимозависимости между переменными – это методы, позволяющие группировать данные на основе сходства. В данных методах нет деления переменных на зависимые и независимые. К этой группе относят:

· кластерный анализ;

· факторный анализ;

· многомерное шкалирование.

Выбор методов анализа данных осуществляется на основе:

· цели, задач, рабочих гипотез маркетингового исследования;

· типа маркетингового исследования (поисковое или итоговое; описательное или причинно-следственное);

· типа собранных данных - метрические и неметрические переменные;

· шкал, используемых в исследовании;

· объема и метода выборки;

· метода сбора данных;

· области применения и ограничений статистических методов анализа данных.

По сути все предшествующие этапы маркетингового исследования предопределяют выбор стратегии анализа данных. Немалую роль при этом играет опыт и квалификация самого исследователя. В заключении отметим, что сложные многомерные методы статистического анализа данных используются не всегда. Очень часто исследователь ограничивается лишь предварительным (базовым) анализом данных и его графической интерпретацией.

Конечно же, необходимо помнить, что анализ данных маркетингового исследования - это не последний его этап, за ним следует разработка практических рекомендаций и формирование отчета исследования.

Достаточно подробно изложены в отечественной литературе. В практике российских предприятий, между тем, используются только некоторые из них. Рассмотрим далее некоторые методы статистической обработки.

Общие сведения

В практике отечественных предприятий распространены преимущественно статистические методы контроля . Если говорить о регулировании технологического процесса, то оно отмечается крайне редко. Применение статистических методов предусматривает, что на предприятии формируется группа из специалистов, которые имеют соответствующую квалификацию.

Значение

Согласно требованиям ИСО сер. 9000, поставщику необходимо определить необходимость в статистических методах, которые применяются в процессе разработки, регулирования и проверки возможностей производственного процесса и характеристики изделий. Используемые приемы базируются на теории вероятностей и математических расчетах. Статистические методы анализа данных могут внедряться на любом этапе жизненного цикла изделия. Они обеспечивают оценку и учет степени неоднородности продукции либо вариабельности ее свойств относительно установленных номиналов или требуемых значений, а также изменчивости процесса ее создания. Статистические методы - это приемы, посредством которых можно с заданной точностью и достоверностью судить о состоянии явлений, которые исследуются. Они позволяют спрогнозировать те или иные проблемы, выработать оптимальные решения на основе изученной фактической информации, тенденциях и закономерностях.

Направления использования

Основные области, в которых широко распространены статистические методы, - это :


Практика развитых стран

Статистические методы - это база, обеспечивающая создание продукции с высокими потребительскими характеристиками. Эти приемы широко используются в промышленно развитых государствах. Статистические методы - это, по сути, гаранты получения потребителями продукции, соответствующей установленным требованиям. Эффект их использования доказан практикой промышленных предприятий Японии. Именно они способствовали достижению высочайшего производственного уровня в этой стране. Многолетний опыт зарубежных стран показывает, насколько эффективны эти приемы. В частности, известно, что компания Hewlelt Packard, применяя статистические методы, смогла снизить в одном из случаев количество брака за месяц с 9 000 до 45 ед.

Сложности внедрения

В отечественной практике существует ряд препятствий, не позволяющих использовать статистические методы изучения показателей. Сложности возникают вследствие:


Разработка программы

Необходимо сказать, что определение потребности в тех или иных статистических методах в сфере качества, выбор, освоение конкретных приемов является довольно сложной и длительной работой для любого отечественного предприятия. Для эффективного ее осуществления целесообразно разработать специальную долговременную программу. В ней следует предусмотреть формирование службы, в задачи которой будет входить организация и методическое руководство применения статистических методов. В рамках программы нужно предусмотреть оснащение соответствующими техническими средствами, обучение специалистов, определить состав производственных задач, которые должны решаться с помощью выбранных приемов. Освоение рекомендуется начать с использования самых простых подходов. К примеру, можно использовать известные элементарные производством. Впоследствии целесообразно перейти к другим приемам. Например, это может быть анализ дисперсии, выборочная обработка информации, регулирование процессов, планирование факторного исследования и экспериментов и пр.

Классификация

К статистическим методам экономического анализа относятся разные приемы. Стоит сказать, их насчитывается довольно много. Однако ведущий специалист в сфере менеджмента качества в Японии К. Исикава рекомендует использовать семь основных методов:

  1. Диаграммы Парето.
  2. Группировка сведений по общим признакам.
  3. Контрольные карты.
  4. Причинно-следственные диаграммы.
  5. Гистограммы.
  6. Контрольные листки.
  7. Диаграммы разброса.

Руководствуясь собственным опытом в сфере менеджмента, Исикава утверждает, что 95% всех вопросов и проблем на предприятии можно решить, используя эти семь подходов.

Диаграмма Парето

Этот базируется на определенном соотношении. Оно было названо "принципом Парето". В соответствии с ним, из 20% причин появляется 80% следствий. в наглядной и понятной форме показывает относительное влияние каждого обстоятельства на общую проблему в убывающем порядке. Это воздействие можно исследовать на количестве потерь, дефектов, спровоцированных каждой причиной. Относительное влияние иллюстрируется с помощью столбиков, накопленное воздействие факторов посредством кумулятивной прямой.

Причинно-следственная диаграмма

На ней исследуемую проблему условно изображают в форме горизонтальной прямой стрелки, а условия и факторы, косвенно либо прямо влияющие на нее, - в виде наклонных. При построении следует учитывать даже незначительные на первый взгляд обстоятельства. Это обуславливается тем, что на практике достаточно часто бывают случаи, в которых решение задачи обеспечивается исключением нескольких, кажущихся несущественными, факторов. Причины, которые влияют на основные обстоятельства (первого и следующих порядков) изображают на диаграмме горизонтальными короткими стрелками. Детализированная схема будет иметь форму скелета рыбы.

Группировка сведений

Этот экономико-статистический метод используется для упорядочения множества показателей, которые были получены при оценке и измерении одного или нескольких параметров объекта. Как правило, такая информация представлена в форме неупорядоченной последовательности значений. Это могут быть линейные размеры заготовки, температура плавления, твердость материала, количество дефектов и так далее. На основе такой системы сложно делать выводы о свойствах изделия либо процессах его создания. Упорядочивание осуществляется с помощью линейных графиков. Они наглядно показывают изменения наблюдаемых параметров в течение определенного периода.

Контрольный листок

Как правило, он представлен в виде таблицы распределения частот вхождения измеряемых величин параметров объекта в соответствующие промежутки. Контрольные листки составляются в зависимости от поставленной цели исследования. Диапазон значений показателей разделяется на одинаковые интервалы. Их число выбирают обычно равное квадратному корню из количества выполненных измерений. Бланк должен быть простым, чтобы исключить проблемы при заполнении, прочтении, проверке.

Гистограмма

Она представлена в форме ступенчатого многоугольника. Он наглядно иллюстрирует распределение показателей измерений. Диапазон установленных величин разбивается на равные промежутки, которые откладывают по оси абсцисс. К каждому интервалу строится прямоугольник. Его высота равна частоте вхождения величины в данный промежуток.

Диаграммы разброса

Они используются при проверке гипотезы о взаимосвязи двух переменных величин. Модель строится следующим образом. На оси абсцисс откладывают величину одного параметра, ординат - другого показателя. В результате на графике появляется точка. Данные действия повторяются для всех значений переменных. При наличии взаимосвязи поле корреляции вытянуто, и направление не будет совпадать с направленностью оси ординат. Если зависимость отсутствует, оно параллельно одной из осей или будет иметь форму круга.

Контрольные карты

Они используются при оценке процесса в течение конкретного периода. Формирование контрольных карт базируется на следующих положениях:

  1. Все процессы отклоняются от заданных параметров с течением времени.
  2. Нестабильный ход явления не изменяются случайно. Неслучайными выступают отклонения, выходящие за границы предполагаемых пределов.
  3. Отдельные изменения могут быть спрогнозированы.
  4. Стабильный процесс может случайно отклоняться и в предполагаемых границах.

Использование в практике российских предприятий

Следует сказать, что отечественный и зарубежный опыт показывает, что наиболее эффективным статистическим методом оценки стабильности и точности оборудования и технологических процессов выступает составление контрольных карт. Этот способ используется также при регулировании производственных потенциальных мощностей. При построении карт необходимо правильно выбрать исследуемый параметр. Рекомендуется отдавать предпочтение тем показателям, которые непосредственно относятся к назначению изделия, могут быть легко измерены и на которые можно оказать воздействие посредством регулирования процесса. Если такой выбор затруднителен или не оправдан, можно выполнить оценку величин, коррелированных (взаимосвязанных) с контролируемым параметром.

Нюансы

Если измерение показателей с точностью, требуемой для составления карт по количественному критерию, экономически или технически невозможно, используют альтернативный признак. С ним связаны такие термины, как "брак" и "дефект". Под последним понимают каждое обособленное несоответствие изделия установленным требованиям. Браком называют продукцию, предоставление которой не допускается потребителям, в связи с наличием в ней дефектов.

Особенности

У каждого типа карт есть своя специфика. Ее необходимо принимать во внимание при их выборе для конкретного случая. Карты по количественному критерию считаются более чувствительными к изменениям процесса, чем те, в которых используется альтернативный признак. Однако при этом первые более трудоемки. Их используют для:

  1. Отладки процесса.
  2. Оценки возможностей внедрения технологии.
  3. Проверки точности работы оборудования.
  4. Определения допусков.
  5. Сопоставления нескольких допустимых способов создания продукта.

Дополнительно

Если разладка процесса отличается смещением контролируемого параметра, необходимо использовать Х-карты. Если имеет место увеличение рассеяния значений, выбирать нужно R или S-модели. Необходимо, однако, учитывать ряд особенностей. В частности, использование S-карт позволит точнее и быстрее установить разладку процесса, чем R-модели при одинаковых Вместе с тем, построение последних не требует выполнения сложных расчетов.

Заключение

В экономике позволяют исследовать факторы, которые обнаруживаются в ходе качественной оценки, в пространстве и динамике. С их помощью можно выполнять прогнозные расчеты. К статистическим методам экономическая анализа не относят способы оценки причинно-следственных связей хозяйственных процессов и событий, выявления перспективных и неиспользованных резервов повышения результативности деятельности. Другими словами, в число рассмотренных подходов не включаются факторные приемы.

ТОЛЬЯТТИНСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

АВТОМЕХАНИЧЕСКИЙ ИНСТИТУТ

Кафедра Технология машиностроения

СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА КАЧЕСТВА

Методическое пособие для студентов машиностроительных специальностей

Тольятти 2003


В методическом пособии представлен обзор методов статистического обеспечения качества. Подробно рассмотрено применение 7 традиционных японских методов анализа качества. Включены материалы, рассматривающие идею статистического приемочного контроля. В отдельной главе изложен необходимый для понимания статистических методов математический аппарат.


СПИСОК ОБОЗНАЧЕНИЙ

ВВЕДЕНИЕ

2. МЕТОДЫ КОНТРОЛЯ КАЧЕСТВА

2.1 Контрольные листки

2.2 Диаграммы Парето

2.2.2 Анализ диаграмм Парето

2.3 Диаграммы Исикавы

2.4 Гистограммы

2.4.1 Построение гистограммы

2.4.2 Анализ гистограмм

2.5 Диаграммы рассеивания

2.6 Контрольные карты

2.6.3 Анализ контрольных карт

2.7 Расслоение

3.2 Pacчeт индексов воспроизводимости

4.2 Использование диаграмм Парето

5.2 Числовые характеристики случайных величин

5.3 Типовые теоретические распределения случайных величин


СПИСОК ОБОЗНАЧЕНИЙ

ВГД - верхняя граница поля допуска:

НГД - нижняя граница поля допуска;

ВКГ - верхняя контрольная граница на контрольной карте;

НКГ - нижняя контрольная граница на контрольной карте;

Ср, Срк - индексы воспроизводимости:

n-объем выборки;

Р(А) - вероятность случайного события А;

R - размах (длина интервала, в который попадают все значения наблюдаемого параметра);

s - стандартное отклонение;

 - среднее квадратичное отклонение;

х- выборочное среднее (среднее арифметическое всех значений наблюдаемого параметра);

х - медиана.


ВВЕДЕНИЕ

Статистические методы - важный инструмент повышения качества в любом современном производстве, тем более производстве серийном. Все ведущие автомобильные компании применяют статистические методы практически на всех стадиях жизненного цикла, как для анализа и контроля качества производственных процессов и произведенной продукции, так и для разработок новых технологий и принятия правильных управленческих решений.

В настоящее время в международном стандарте ИСО 9001 одним из элементов Системы качества является элемент «Статистические методы», а в комплекс международных стандартов QS-9000 входит руководство «Статистическое управление процессами».

Настоящее пособие содержит описание основных приемов и методов статистического управления качеством.

Глава 1 посвящена общим вопросам статистического управления процессами. В главах 2 и 3 рассматриваются статистические методы контроля качества процесса производства (так называемые «семь простых японских методов качества») и вытекающие из них возможные управляющие воздействия. В главе 4 применение методов анализа качества производственных процессов иллюстрируется на конкретных примерах, характерных для производственной деятельности АО «АВТОВАЗ». В главе 5 изложен необходимый минимум математического аппарата для понимания статистических методов.


1. СТАТИСТИЧЕСКОЕ УПРАВЛЕНИЕ ПРОЦЕССАМИ

Процесс - это совокупность взаимосвязанных ресурсов и деятельности, которая преобразует входящие элементы в выходящие . В результате процесса происходит преобразование исходных элементов (материалов, информации), которое увеличивает их ценность за счет применения квалифицированного труда и знаний.

В автомобилестроении под процессом понимается создание и эксплуатация автомобиля. Здесь элементами является сочетание поставщиков (входные материалы), производителей, оборудования, методов, окружающей среды, потребителей.

В заводских производственных условиях распространен термин технологический процесс как процесс изготовления некоторого продукта при наличии определенных ресурсов с наблюдаемым (контролируемым) результатом деятельности.

Способность некоторого объекта удовлетворять потребительским запросам покупателей связывается с понятием качество. Различают качество процессов и качество продукции. Качество продукции обусловлено эффективностью изучения спроса, проектирования, изготовления, сопровождения в эксплуатации.

Качество процесса определяется тем, насколько потребительские свойства продукта удовлетворяются на заводском уровне требованиями конструкторской и технологической документации.

Эффективность процесса оценивается как высокое качество выпускаемой продукции и обеспечивается с помощью системы управления.

Система управления процессом строится как замкнутая система с использованием принципа обратной связи. Само управление процессом основывается на активном анализе информации о продукции.

Информация о продукции - показатели качества изделий, а также параметры, описывающие условия протекания процесса (такие как, температура, цикличность и т.д.); собирается на основе анализа фактического качества изготовленной продукции. Если эта информация собрана и правильно интерпретирована, то она может показать, нуждается ли процесс я корректировке или нет.

Реализация управления процессом осуществляется с помощью различных мероприятий, распадающихся на две группы по признаку функциональной направленности.

Мероприятия, направленные на продукцию - мероприятия, нацеленные на поиск дефектов в уже изготовленной продукции. Если в процессе производства не выдерживаются технологические условия, то всегда будет существовать необходимость сортировать продукцию, исправлять несоответствия в изделиях. Это будет продолжаться до тех пор, пока не будут приняты необходимые меры по улучшению процесса. Мероприятия по выявлению и устранению брака ориентированы нa npошлоe.

Мероприятия, направленные на улучшение процесса - мероприятия, связанные со структурной перестройкой процесса, направлены на улучшение процесса (то есть позволяют избежать брака). Такими мероприятиями являются, например, обучение сотрудников, изменения в сырье, переналадка оборудования или даже изменение технологии. Важно, что эти мероприятия ориентированы в будущее.

Очевидно, что контроль качества в производстве, за которым следуют только мероприятия по продукции, является плохой заменой для мероприятий по действительному улучшению качества процесса.

При производстве любой продукции качество готового изделия зависит от множества самых различных факторов. Например, на размеры обрабатываемой детали оказывают влияние свойства и состояние:

a) станка (износ подшипника, износ элементов позиционирования),

b) инструмента (прочность, износ),

c) материала (твердость).

d) персонала (эффективность обучения),

e) рабочей среды (температура, бесперебойное электропитание) и т.п.

В результате, даже в условиях автоматизированного производства невозможно получить два абсолютно одинаковых изделия.

Отличия в конечных результатах процесса называют изменчивостью. Изменчивость в качестве готового продукта связывается с изменчивостью в процессе производства, которая обуславливает появление дефектных (несоответствующих) изделий даже при отлаженном производственном процессе. Выявление факторов, влияющих на качество, и уменьшение изменчивости процесса позволяет повысить качество выпускаемых изделий и уменьшить количество брака.

Следует распознавать два вида источников изменчивости:

Обычные причины изменчивости,

Особые причины изменчивости.

Обычные причины изменчивости представляют собой стабильную систему случайных факторов. В этом случае результаты процесса статистически предсказуемы.

Приведем примеры группы факторов случайного характера:

Случайные разбросы характеристик материалов, полуфабрикатов и комплектующих изделий;

Случайные разбросы параметров технологических процессов (окружающая среда и рабочее тело);

Случайные разбросы характеристик и параметров средств технологического оснащения, измерительных приборов, режущего и мерительного инструмента, стендового испытательного оборудования и т.д.;

Случайные неблагоприятные сочетания допусков в размерных технологических цепочках при изготовлении продукции и т.д.

Изменчивость, обусловленная факторами случайного характера, может быть уменьшена путем проведения соответствующих организационно-технических мероприятий на основе исследования результатов их статистического анализа и описания их проявления статистическими закономерностями.

Особые причины изменчивости представляют собой неслучайные факторы, нарушающие стабильный ход процесса.

Приведем примеры группы факторов неслучайного характера:

Применение материалов, полуфабрикатов и комплектующих изделий, не предусмотренных технологическими процессами, в том числе с просроченными сроками годности;

Несоблюдение установленных нормативно-технической документацией приемов, методов и режимов обработки изделий и их испытаний;

Использование не аттестованных во время средств контроля и средств технологического оснащения с просроченными сроками годности;

Неудовлетворительное состояние средств технологического оснащения, ремонтной базы, испытательного оборудования и т.д.:

Отсутствие закрепления конкретных видов работ (операций) за определенными исполнителями:

Неполное завершение предыдущих операций:

Несоблюдение последовательности выполнения работ (операций), заданных по технологическим маршрутным картам:


2. МЕТОДЫ КОНТРОЛЯ КАЧЕСТВА

Стремясь наиболее эффективно использовать статистические методы управления качеством, японские специалисты разработали такие процедуры, которые достаточно просты для применения, то есть не требуют специальных знаний, но в то же время дают результаты, позволяющие профессионалам оперативно анализировать и совершенствовать производственный процесс.

Совокупность используемых методов получила название «семь простых методов контроля качества» и содержит:

Контрольные листки,

Диаграммы Парето,

Диаграммы Исикавы.

Гистограммы,

Диаграммы рассеивания,

Контрольные карты,

Расслоение (стратификация).

Рассмотрим каждый из этих методов.

2.1 Контрольные листки

Анализ любого вида деятельности возможен только на основании имеющейся информации, поэтому применение каждого из методов контроля качества должно начинаться со сбора необходимых данных. Прежде всего, необходимо четко сформулировать цель сбора интересующих нас сведений (контроль и регулирование производственного процесса; анализ отклонений от установленных требований; контроль продукции). Затем продумывают, какие типы данных нужно собрать, их характер, частоту и способы измерения, надежность получаемых результатов и т.п. Так как для анализа данных используются различные статистические методы, то в процессе сбора информации следует позаботиться об упорядочении получаемых результатов, чтобы облегчить их последующую обработку. Результаты наблюдений удобнее всего заносить в контрольные листки.

Контрольный листок - это бумажный бланк для первичного сбора информации.

Контрольный листок предназначен для фиксации контролируемых параметров:

Облегчения процесса сбора данных;

Автоматического упорядочивания сбора данных для упрощения дальнейшей обработки.

Основные требования, предъявляемые к контрольному листку:

Простота фиксации результатов наблюдений;

Наглядность полученных результатов;

Полнота данных.

Для достижения этих требований необходимо заранее продумать форму контрольных листков и постоянно совершенствовать эту форму с учетом замечаний и пожеланий тех, кто заполняет контрольные листки. Следует стремиться к тому, чтобы при фиксации результатов требовалось производить минимум записей, например, просто делать отметки в нужных графах. Хорошо, когда в результате автоматически получается гистограмма (см. раздел 2.4) или диаграмма рассеивания (раздел 2.5). Но при этом контрольный листок должен содержать максимум исходной информации (не просто диаметр валика, а станок, на котором изготавливалась деталь, смена, время, обрабатываемая партия и т.п.)

Так как полученная информация необходима для последующего анализа причин дефектов, связанных как с несовершенством технологического процесса, так и с различными другими факторами, то следует требовать очень тщательного заполнения всех граф контрольного листка. Пренебрежение какими-либо данными, например, о номере партии или времени измерения исследуемого параметра, может потребовать последующего дополнительного сбора информации, что усложнит работу.

Примеры контрольных листков приведены на рисунках 2.1.1. - 2.1.4.

На рис. 2.1.1 показан контрольный листок для регистрации распределения измеряемого параметра в ходе производственного процесса. В данном случае фиксируются изменения в размерах некоторой детали, подвергающейся механической обработке, причем в чертеже был указан размер 8.300 0,008. При заполнении контрольного листка после каждого замера в соответствующей клеточке ставился крест. В результате к концу измерений на контрольном листке оказалась готовая гистограмма.

На рис. 2.1.2. показан контрольный листок для регистрации видов несоответствий, используемый при приемочном контроле некоторой детали. Здесь фиксируются определенные несоответствия, выявляемые контролером и в конце рабочего дня можно быстро подсчитать число и разновидности обнаруженных несоответствий. Такой контрольный листок удобен для последующего построения диаграммы Парето, но он не дает возмож¬ности расслоения данных, то есть разбивки их на группы, например, по времени или месту изготовления детали.

Если предполагается последующий дополнительный анализ информации, лучше использовать листок, приведенный на рисунке 2.1.3. На этом листке регистрируются несоответствия в деталях (вал КПП), изготовленных на станках 003.716.33 и 003.718.33 фирмы FISCHER с учетом станков, рабочих, дней изготовления и типов дефектов. Здесь сразу видно, что больше всего брака допускает рабочий В, а самым неудачным днем оказалась среда. Последующее исследование показало, что в среду смазывающе-охлаждающая жидкость была низкого качества.

Для выявления причин несоответствий бывает удобно не просто фиксировать количество и виды несоответствий, но и отслеживать место их локализации. Пример соответствующего контрольного листка приведен на рисунке 2.1.4. При контроле отливок фиксируются не только наличие, но и месторасположение раковин. В результате анализа такого контрольного листка проще выявлять возможные причины возникновения исследуемого дефекта.

2.2 Диаграммы Парето

При производстве продукции неминуемо приходится сталкиваться с потерями (некачественные изделия и затраты, связанные с их производством). В большинстве случаев подавляющее число несоответствий и связанных с ними потерь возникает из-за относительно небольшого числа причин. Этот постулат положен в основу анализа Парето, который предназначен для разделения проблем качества на немногочисленные существенно важные и многочисленные несущественные.

Для определения немногочисленных существенно важных факторов строят диаграммы Парето.

Диаграмма Парето - это графическое представление степени важности причин или факторов, влияющих на исследуемую проблему.

Диаграммы Парето бывают двух видов:

1) Диаграмма Парето по результатам деятельности помогает выявить главную проблему и отражает нежелательные результаты деятельности

В сфере качества: дефекты, поломки, ошибки, отказы, рекламации, ремонты, возвраты продукции;

В сфере себестоимости: объем потерь, затраты;

В сфере поставок: нехватка запасов, ошибки в составлении счетов, срывы сроков поставок:

В сфере безопасности: несчастные случаи, аварии.

2) Диаграмма Парето по причинам отражает причины проблем, возникающих в ходе производства, и помогает выявить главную

По кадрам: смена, бригада, возраст, опыт работы, квалификация, индивидуальные характеристики работника;

По оборудованию: станки, агрегаты, инструментальная оснастка, модели, штампы, технология;

По сырью: изготовитель, вид сырья, поставщик, партия:

По методам работы: условия производства, приемы работы, последовательность операций.

2.2.1 Метод построения диаграммы Парето

1) Определить проблему, которую надо исследовать.

2) Выделить факторы, которые могут повлиять на сформулированную проблему.

3) Перечислить данные, которые надо собрать.

4) Установить метод и период сбора данных. Примечание. На этом этапе полезно привлекать экспертов, в том числе наиболее опытных работников, сталкивающихся с данной проблемой

Этап 2: Разработать контрольные листки для регистрации данных с перечнем видов собираемой информации.

Примечание Результаты деятельности желательно пpедставлять в денежном выражении, так как затраты являются важным критерием измерении и управлении

Этап 3: Заполнить листы регистрации данных, собрать всю полученную информацию и подсчитать итоги.

Этап 4: Составить общую таблицу данных, в которой отразить все проверяемые признаки (факторы), итоги по каждому признаку отдельно, накопленную сумму, проценты к общему итогу для каждого признака и накопленные проценты.

Пример 2.2.1.

Типы Число Накопленная % числа дефект Накопленный

дефектов дефектов сумма тов к общей процент

Деформация

Царапины Раковины 104

Трещины Пятна 10

Разрыв Прочие 4

При этом исследуемые признаки (факторы) располагают в порядке получившейся значимости, есть по убыванию общего числа зарегистрированных данных, но группу "прочие" всегда записывают в последнюю строку.

Этап 5: Построить столбиковую диаграмму, ориентируясь на левую вертикальную ось (то есть над интервалом, соответствующим признаку А, изобразить прямоугольник (столбик), высота которого равна числу появления этого признака).

Этап 6: На вертикалях, соответствующих правым концам каждого интервала, нанести точки накопленных сумм процентов, ориентируясь на правую шкалу. Соединить эти точки отрезками прямых. Полученная ломаная называется кривой Парето (кумулятивной кривой).

Этап 7: Нанести на диаграмму все необходимые надписи (название, наименование контролируемого изделия, имя составителя диаграммы, период сбора информации, объект исследования и место его проведения, общее число объектов контроля, а также разметку числовых значений на осях и расшифровку кодовых обозначений).

Диаграмма Парето, соответствующая примеру 2.2.1, приведена на рисунке 2.2.1.

2.2.2 Анализ диаграмм Парето

Значимость фактора определяется частотой его регистрации, наибольшая частота указывает наиболее существенный фактор. Поэтому на диаграмме Парето высоты столбцов указывают степень влияния каждого фактора на всю проблему в целом, а кривая Парето позволяет оценить изменение результата при устранении нескольких наиболее существенных факторов.

После выявления проблемы путем составления диаграммы Парето по результатам полезно составить диаграмму Парето но причинам. Тогда появляется возможность определить причины возникновения проблемы и. следовательно, наметить пути устранения выявленной главной причины. Таким образом, выделяется наиболее эффективный путь решения проблемы.

Следует заметить, однако, что если какой-либо нежелательный фактор можно устранить сразу с помощью простого решения, это надо сделать немедленно (каким бы незначительным этот фактор ни был). При этом из рассмотрения исключается несущественный фактор, который просто перестает воздействовать.

Если группа "прочие" факторы составляет большой процент, то надо попытаться использовать какой-либо другой способ классификации (группировки) признаков. При этом может возникнуть необходимость в дополнительных исследованиях. Этого не следует бояться. Вообще для выявления сути проблемы имеет смысл строить много различных диаграмм Парето, исследуя самые разные факторы и способы их взаимодействия. Только в этом случае становится понятно, какие из факторов наиболее существенны и каковы возможные пути их преобразования.

2.3 Диаграммы Исикавы

Результат процесса зависит от многочисленных факторов, причем некоторые из них могут влиять на другие, то есть быть связанными отношениями "причина - результат". Знание структуры этих отношений, то есть выявление цепочки причин и результатов, позволяет успешно решать проблемы управления, в том числе и проблемы управления качеством. Для удобства анализа структуры причин и результатов используют диаграммы Исикавы - диаграммы причин и результатов.

В области контроля качества диаграмма Исикавы - это диаграмма, которая показывает отношение между показателем качества и воздействующими на него факторами.

Диаграмму причин и результатов иногда называют диаграммой "рыбий скелет" в силу ее специфического вида (см. рис. 2.3.1). Исследуя определенный показатель качества, стремятся сформулировать главные причины, влияющие на этот показатель. Затем выделяют вторичные факторы, влияющие на главные причины, а также более мелкие причины, воздействующие на вторичные факторы, и т. д. Таким образом, для составления диаграммы Исикавы надо проранжировать факторы по их значимости и установить структуру взаимовлияний.

Диаграмма причин и результатов графически отображает установленные связи следующим образом: посередине листа проводится горизонтальная прямая ("хребет"), оканчивающаяся прямоугольником, в котором указан рассматриваемый показатель качества. Главные причины, влияющие на данный показатель, записываются выше и ниже прямой и соединяются с хребтом стрелками. Вторичные причины записывают между прямой и соответствующей главной причиной и соединяют с этой причиной стрелками. Затем на диаграмме показывают факторы, влияющие на вторичные причины. Чтобы диаграмма была пригодна для дальнейшего использования, на ней необходимо указать всю сопутствующую информацию (название, наименование изделия, процесса или группы процессов, участников процесса и т. п.).

После того, как все факторы, влияющие на данный показатель качества, оказались отраженными на диаграмме, нетрудно установить степень их важности. Наиболее значимые, оказывающие самое сильное воздействие, следует отметить, с тем, чтобы именно им уделить наибольшее внимание при последующей работе.

Часто диаграммы Исикавы используют для систематизации списка причин. В этом случае при исследовании определенного показателя качества стараются найти максимальное число причин, влияющих на этот показатель, а уже затем располагают их в диаграмму причин - результатов, связывая все факторы в единую иерархическую структуру.

При построении диаграмм Исикавы важно как можно точнее сформулировать показатель, тогда диаграмма будет более конкретной. Чтобы силу связей причина - результат можно было оценить объективно, желательно формулировать показатель качества и влияющие на него факторы так, что бы их можно было измерить, то есть оценить численно. В некоторых случаях для этого приходится вводить числовые параметры, характеризующие исследуемый показатель. Например, качество окраски будет характеризоваться количеством непрокрашенных мест, либо толщиной красочного слоя, либо сорностью.

После выявления наиболее важных причин надо постараться найти те факторы, по которым можно принять меры. Если по обнаруженной причине нельзя предпринять никаких действий, проблема неразрешима, и поэтому следует попытаться разбить ее на подпричины. Использование диаграммы помогает обнаружить элементы, которые нужно проверить, устранить или модифицировать, а также те элементы, которые надо добавить. Если стремиться усовершенствовать диаграмму, то можно не только лучше разобраться в исследуемом процессе, но и найти пути улучшения технологии изготовления изделия.

2.4 Гистограммы

Большинство факторов, оказывающих влияние на производственный процесс, не остаются неизменными. Поэтому числовые данные, собранные в результате наблюдения, не могут быть одинаковыми, но обязательно подчиняются определенным закономерностям, называемым распределением (см. гл. 6).

Если измерять контролируемый параметр непрерывно, можно построить его график плотности распределения (см. раздел 6.3). Однако на практике проводят измерения только в определенные промежутки времени и не всех изделий, а только некоторых. Поэтому по результатам измерений строят обычно гистограмму - ступенчатую фигуру, контуры которой дают приблизительное представление о графике плотности, то есть о характере распределения изучаемого параметра.

Гистограмма - это столбиковая диаграмма, служащая для графического представления имеющейся количественной информации.

Обычно основой для построения гистограммы служит интервальная таблица частот, в которой весь диапазон измеренных значений случайной величины разбит на некоторое число интервалов, и для каждого интервала указано количество значений, попавших на данный интервал (частота).

2.4.1 Построение гистограммы

Отметить на оси абсцисс максимальное и минимальное значения случайной величины и границы интервалов - точки a1, ..., an, . Для удобства расчетов и последующего анализа можно немного расширить диапазон значений случайной величины, например, до границ поля допуска.

Длина каждого интервала h = (an+1 – an) / k .

Над каждым интервалом построить прямоугольник высотой n/h (его площадь н,). Получившаяся ступенчатая фигура называется гистограммой частот. При этом площадь гистограммы частот равна объему выборки n:

Отрезок назовем основанием гистограммы.

Аналогично строится и гистограмма относительных частот - ступенча¬тая фигура, состоящая из прямоугольников, площади которых равны n/h , то есть общая площадь гистограммы относительных частот равна 1.

2.4.2 Анализ гистограмм

При построении гистограмм могут встретиться следующие случаи (рис. 2.4.)-2.4.7):

1) Обычный тип (симметричный или колоколообразный). Наивысшая частота оказывается в середине основания гистограммы (и постепенно снижается к обоим концам). Форма симметрична (рис. 2.4.1). Такая гистограмма по внешнему виду приближается к нормальной (гауссовской) кривой, и можно предполагать, что ни один из факторов, влияющих на исследуемый процесс, не преобладает над другими.

Примечание. Эта форма встречается чаще всего. В этом случае среднее значение случайной величины (применительно к технологической операции - это показатель уровня настроенности) близко к середине основания гистограммы, а степень ее рассеяния относительно среднего значения (для технологических операций - это показатель точности) характеризуется крутизной снижения столбцов

2) Гребенка (мультимодальный тип). Классы через один имеют более низкие частоты (рис. 2.4.2).

Примечание. Такая форма встречается, кода число единичных наблюдении, попадающих в класс, колеблется от класса к классу или когда действует определенное пра¬вило округления данных Возможно требуется осуществить расслоение данных, то есть определить дополнительные признаки для группировки наблюдаемых значений

3) положительно скошенное распределение (отрицательно скошенное распределение). Среднее значение гистограммы локализуется справа (сле¬ва) от середины основания гистограммы. Частоты довольно резко спадают

при движении влево (вправо) и, наоборот, медленно вправо (влево). Форма асимметрична (рис. 2.4.3).

Примечание. Такая форма встречается, когда нижняя (верхняя) граница регулируется либо теоретически, либо по значению допуска или когда левое (правое) значение недостижимо. В этом случае также можно предполагать, что на процесс оказывает преобладающее влияние какой-либо фактор, в частности, подобная форма встречается, когда имеет место замедленный (ускоренный) износ режущего инструмента.

Подобная гистограмма характерна также для распределения Рэлея (раздел 6.3), которое характеризует форму либо несимметричность изделия.

4) Распределение с обрывом слева (распределение с обрывом справа). Среднее арифметическое гистограммы локализуется далеко слева (справа) от середины основания. Частоты резко спадают при движении влево (вправо) и, наоборот, медленно вправо (влево). Форма асимметрична (рис. 2.4.4).

Примечание. Это одна из тех форм, которые часто встречаются при 100 %-ном просеивании изделий из-за плохой воспроизводимости процесса, а также когда проявляется резко выраженная положительная (отрицательная) асимметрия.

5) Плато (равномерное и прямоугольное распределения). Частоты в разных классах образуют плато, поскольку все классы имеют более или менее одинаковые ожидаемые частоты (рис. 2.4.5).

Примечание. Такая форма встречается в смеси нескольких распределений, имеющих различные средние, но может также указывать на какой-либо преобладающий фактор, например, равномерный износ режущего инструмента.

6) Двухпиковый тип (бимодальный тип). В окрестностях середины основания частота низкая, зато есть по пику с каждой стороны (рис. 2.4.6).

Примечание. Такая форма встречается, когда смешиваются два распределения с далеко отстоящими средними значениями, то есть имеет смысл провести расслоение данных. Такую же форму гистограммы можно наблюдать и в случае, когда какой-либо преобладающий фактор меняет свои характеристики, например, если режущий инструмент имеет сначала ускоренный, а затем замедленный износ.

7) Распределение с изолированный пиком. Наряду с распределением обычного типа появляется маленький изолированный пик (рис. 2.4.7)

Примечание. Такая форма появляется при наличии малых включений данных из другого распределения или ошибки измерения. При получении подобной гистограммы следует прежде всего проверить достоверность данных, а в том случае, когда результаты измерений не вызывают сомнения, продумать обоснованность выбранного способа разбиения наблюдаемых значений на интервалы

2.4.3 Оценка процесса по гистограммам

При использовании гистограмм для оценки качества процесса на шкале значений наблюдаемого параметра отмечают нижнюю и верхнюю границы поля допуска (поля спецификации) и через эти точки проводят две прямые параллельные столбцам гистограммы.

Если вся гистограмма оказывается внутри границ поля допуска (рис. 2.4.8), процесс статистически устойчив и не требует никакого вмешательства.

Если левая и правая границы гистограммы совпадают с границами поля допуска (рис. 2.4.9), то желательно уменьшить разброс процесса, так как любое воздействие может привести к появлению изделий, не удовлетворяющих допуску.

Если часть столбцов гистограммы оказывается за границами поля допуска (рис. 2.4.10 - 2.4.12), то необходимо провести регулировку процесса так, чтобы сместить среднее ближе к центру поля допуска (рис. 2.4.10,2.4.12) или уменьшить вариации, чтобы добиться меньшего разброса (рис. 2.4.11, 2.4.12).

2.5 Диаграммы рассеивания

Часто приходится выяснять, существует ли зависимость между двумя различными параметрами процесса. Например, зависят ли изменения в диаметре отверстия от изменений скорости вращения сверла.

Обычно предполагается, что исследуемые параметры отражают характеристики качества и влияющие на них факторы. Чтобы понять, есть ли какая-либо связь между рассматриваемыми параметрами, используют диаграммы рассеивания.

Диаграмма рассеивания - это графическое представление пар исследуемых данных в виде множества точек на координатной плоскости.

Диаграмма рассеивания дает возможность выдвинуть гипотезу о наличии или отсутствии корреляционной связи (см. раздел 6.5) между двумя случайными величинами. При этом изучаются обычно величины, описывающие

Характеристику качества и влияющий на нее фактор;

Две различные характеристики качества;

Два фактора, влияющие на одну характеристику качества.

2.5.1 Построение диаграммы рассеивания (поля корреляции)

1) Собрать парные данные (х,у) об изучаемых случайных величинах. Для удобства эти данные записывают в виде таблицы. Желательно, чтобы число наблюдений было не меньше 30, так как в противном случае результаты корреляционного и регрессионного анализа (см. раздел 6.5) недостаточно достоверны.

2) Ввести на плоскости систему координат Оху, причем шкалы на горизонтальной и вертикальной осях подбираются таким образом, чтобы обе длины рабочих частей получились примерно одинаковыми. В этом случае диаграмма рассеивания более удобна для визуального анализа.

3) Каждую пару данных отметить на координатной плоскости точкой с координатами (х,у). Если какие-либо пары повторяются, то соответствующие им точки надо либо ставить рядом, либо использовать условные обозначения, например, концентрические кружки.

4) Сделать поясняющие надписи, то есть название диаграммы; интервал времени, который отражается на диаграмме; число пар данных; названия и единицы измерения для каждой оси; данные о составителе диаграммы.

2.5.2 Анализ диаграммы рассеивания

Если на диаграмме рассеивания есть далеко отстоящие точки (выбросы), необходимо исследовать причины их появления (ошибки измерения или записи данных, либо изменения в условиях работы). При этом можно получить неожиданную, но иногда весьма полезную информацию, однако из последующего корреляционного анализа эти точки обычно исключают.

Если точки расположены хаотично (рис. 2.5.3), то полагают, что между рассматриваемыми случайными величинами нет корреляции.

Если точки группируются таким образом, что явно выражена некоторая тенденция (рис. 2.5.1, 2.5.2), то говорят о положительной (рис. 2.5.1) или отрицательной (рис. 2.5.2) корреляции.

Если точки расположены так, что можно предположить нелинейную зависимость (рис. 2.5.4), то бывает полезно осуществить расслоение (стратификацию) данных, то есть разделение данных по какому-либо дополнительному признаку. (Например, при исследовании зависимости равномерности окраски от марки применяемого красителя можно отдельно учесть степень загрузки резервуара для краски)

Так как всегда может оказаться, что требуется провести расслоение или осуществить группировку собранных данных каким-либо иным способом, то необходимо очень тщательно подходить к исходной информации. Кроме того, становиться понятным требование полноты поясняющих надписей на диаграмме рассеивания. Любые выводы, сделанные на основании диаграммы рассеивания, должны сопровождаться подробным перечислением условий сбора данных и составления этой диаграммы.

Во всех случаях после визуального анализа диаграммы рассеивания необходимо вычислить коэффициент корреляции по формулам (6.6.1) -(6.6.4). Это позволит подтвердить или опровергнуть выдвинутую гипотезу о наличии либо отсутствии корреляционной связи и установить силу этой связи.

Если диаграмма рассеивания позволяет предположить линейную корреляцию между изучаемыми величинами, то строятся линии регрессии, уравнения которых получают по формулам (6.6.7) - (6.6.9).

Прямые регрессии наносят обычно на диаграмму рассеивания, что позволяет более наглядно представить себе тенденцию влияния одной случайной величины на другую. При проведении регрессионного анализа предварительное построение диаграммы рассеивания является необходимым этапом, так как анализ этой диаграммы позволяет выдвинуть гипотезу о линейной или нелинейной зависимости, о степени доверия к обрабатываемым результатам измерений и даже о надежности методики проведения экспериментов.

Например, при обработке четырех различных множеств исходных данных, приведенных на рисунке 2.5.5, формулы (6.6.7) - (6.6.9) дают одинаковые прямые регрессии. Однако по диаграммам рассеивания можно предположить, что в случае а) действительно имеет место линейная корреляция; в случае b) - нелинейная зависимость, в случае с) есть одна выпавшая точка, в случае d) наблюдается «странная» группировка точек. Отсюда следует, что в случае с) надо повторить измерения либо обосновать возможность пренебрежения этим результатом; в случае d) необходимо получить дополнительные данные.

2.6 Контрольные карты

2.6.1 Виды контрольных карт и область их применения

Поскольку всякий процесс испытывает большое число незначительных случайных воздействий, то результаты измерений, полученные в ходе нормального течения процесса, непостоянны, то есть всякий процесс имеет некоторую изменчивость (разброс).

Считается, что процесс находится в статистически управляемом состоянии, если в нем отсутствуют систематические сдвиги. В этом состоянии можно предсказывать ход процесса. Но как только на процесс станут воздействовать неслучайные (особые) причины, он станет статистически неуправляемым, а результат процесса окажется непредсказуем. Если процесс выведен из статистически управляемого состояния, то требуется определенное вмешательство, чтобы сделать его снова статистически управляемым.

Чтобы судить о состоянии процесса, осуществляют отбор единиц продукции и измеряют контролируемые параметры. Совокупность отобранных объектов (наблюдаемых значений) образуют выборку (см. раздел 6.1.).

Для сравнения информации о текущем состоянии процесса, полученной по выборке, с контрольными границами, являющимися пределами собственного разброса, применяют контрольные карты.

Контрольная карта - это графическое представление характеристики процесса, состоящее из центральной линии, контрольных границ и конкретных значений имеющихся статистических данных, позволяющее оценить степень статистической управляемости процесса.

Существует много разных типов контрольных карт в зависимости от природы данных, вида статистической обработки данных и методов принятия решений.

В зависимости от сферы применения выделяют три основных вида контрольных карт (рис. 2.6.1):

Контрольные карты Шухарта и аналогичные им, позволяющие оценить, находится ли процесс в статистически управляемом состоянии;

Приемочные контрольные карты, предназначенные для определения критерия приемки процесса;

Адаптивные контрольные карты, с помощью которых регулируют процесс посредством планирования его тренда (тенденции изменения процесса с течением времени) и проведения упреждающей корректировки на основании прогнозов.

Данные для контрольных карт разделяют на "количественные" и «качественные».

Количественные данные - это результаты наблюдений, проводимых с помощью измерения и записи числовых значений данного показателя (при этом используется непрерывная шкала значений).

Качественные (альтернативные) данные - это результаты наблюдений наличия (или отсутствия) определенного признака. Обычно подсчитывают, сколько элементов выборки имеют данный признак (например, сколько деталей из контролируемой партии имеют внешние дефекты). Иногда считают число таких признаков, имеющихся в выборке определенного объема (например, количество различных дефектов, отмеченных в одном изделии).

В зависимости от видов данных и методов их статистической обработки выделяют различные типы контрольных карт, основные из которых представлены на рис. 2.6.2.

При использовании количественных данных применяют контрольные карты двух видов:

Контрольные карты расположения, характеризующие меру расположения (центр) изучаемых данных, например, выборочное среднее х или медиану У;

Контрольные карты разброса, характеризующие меру разброса (рассеяния) отдельных выборочных данных в выборке или подгруппе, например, размах R или выборочное стандартное отклонение s.

Для анализа и управления процессами, показатели качества которых являются непрерывными величинами (длина, вес, концентрация, температура и т.п.), обычно используют парные контрольные карты, например, карту для выборочного среднего значения и карту размаха: х - карту и R -карту.

Контрольные карты по качественному признаку используют, когда качество процесса оценивают по количеству несоответствий.

Если учитывается количество несоответствующих единиц продукции в выборке, то применяют пр-карту (для выборок постоянного объема) или р-карту (для выборок меняющегося объема; в этом случае подсчитывают долю несоответствующих единиц); если учитывается количество несоответствий в исследуемом изделии либо процессе, то обычно применяют с-карту и и- карту.

Для выбора подходящей контрольной карты по альтернативному признаку удобно использовать таблицу 2.6.1.

Таблица 2.6.1.

Число на единицу выборки (объем выборки переменный*) Общее число в выборке (объем выборки постоянный)

Несоответствующие единицы Р "Р

Несоответствия и с

*0бъемы выборок отличаются не более чем в 1.6 раз

В контрольных картах для количественных данных предполагают, что имеет место нормальное распределение. Параметры этого распределения используют для установления контрольных границ, которые обычно фиксируются на уровне ±3s от центральной линии (здесь х - выборочное среднее изучаемых данных).

В контрольных картах для альтернативных данных используют либо биномиальное (пр-карты, р-карты), либо пуассоновское распределения (с-карты, м-карты).

2.6.2 Построение контрольных карт

Для первоначального построения X- и R - карт вычисляют средние значения и размах для каждой выборки R

X=(x1+x2+….Xn)/n (2.6.1)

R=Xmax-Xmin (2.6.2) Затем вычисляют среднее процесса и средний размах процесса

Xcp=(Xi+X2+...+Xk)/k (2.6.3)

Rcp=(R1+R2+...+Rk)/k (2.6.4)

где x, Ri, - среднее и размах i-ой (i=l,...,k) выборки. Эти величины определяют положение центральных линий на Х- карте и R - карте соответственно.

Положение верхних (ВКГ) и нижних (НКГ) контрольных границ для размахов и средних рассчитывается по формулам:

ВКГr=DrRср (2.6.5)

НКГr= D1,R,p ; (2.6.6) BKГ x =x+A2,Rcp ; (2.6.7)

НКГ x=x-A2Rср (2.6.8)

где –А2,D1,D4-константы, зависящие от объема выборки и приведенные в таблице 2.6.2.

n 2 3 4 5 6 7 8 9 10

D4 3.27 2.57 2.28 2.11 2.00 1.92 1.86 1.82 1.78

Di * *. * * * 0.08 0.14 0.18 0.22

A2 1.88 1.02 0.73 0.58 0.48 0.42 0.37 0.34 0.31

Для объемов выборки меньше 7 значение D„ а также и значение НКГ являются отрицательными. В таких случаях не строится.

После этого подготавливают бланки контрольных карт, на которых слева наносят вертикальную ось со шкалой возможных значений измеряемого параметра (x или R) сплошную горизонтальную линию, соответствующую значению вычисленному по формулам 2.6.3 или 2.6.4 и горизонтальные контрольные границы, рассчитанные по формулам (2.6.5 - 2.6.8). Если при расчете нижняя контрольная граница получается отрицательной, ее обычно не рассматривают, то есть не указывают на соответствующей карте. На подготовленных таким образом бланках точками отмечают значения изучаемой характеристики (показателя качества), получаемые в результате наблюдений. Примеры контрольных карт приведены на рис. 2.6.3. Для удобства последующего анализа обычно х- карту и R - карту строят одну под другой с одинаковым масштабом горизонтальных осей.

Если показатель качества представлен числом несоответствующих изделий или процентов (долей) несоответствий применяют пр - карты (для выборок постоянного объема) или р - карты (для выборок меняющегося объема). Эти карты основаны на биномиальном распределении (см. раздел 6.3), которое определяется всего одним параметром р, поэтому здесь нет необходимости строить пару карт. На бланке р - карты отмечают горизонтальную ось с номерами рассматриваемых подгрупп и вертикальную ось, где указаны возможные процентные значения несоответствий, встречающихся в подгруппах (или количество несоответствующих изделий - для пр - карты). Вычисляют среднее значение доли несоответствий р (или среднее число несоответствующих изделий п ~р) и отмечают его сплошной горизонтальной линией.

Если анализ и управление процессом ведутся по несоответствиям, но при этом величина р мала, то применяют с - карты (карты числа несоответствий) или u=с/п - карты (карты числа несоответствий, приходящихся на единицу продукции).

2.6.3 Анализ контрольных карт

Управляемое состояние процесса - состояние, когда процесс стабилен, а его среднее и разброс не меняются. Определить, вышел ли процесс из данного состояния, можно по контрольным картам на основании следующих критериев:

1) Выход за контрольные пределы. На карте есть точки, лежащие вне контрольных границ (рис 2.6.5).

2) Серия. Несколько (7 и более) точек подряд оказываются по одну сторону от центральной линии (число таких точек называется длиной серии); либо 10 из 11 последовательных точек находятся по одну сторону от центра(рис2.6.6).

3) Тренд. Точки образуют непрерывно повышающуюся или понижающуюся кривую (рис.2.6.7).

4) Приближение к контрольным пределам. Есть точки, которые приближаются к контрольным границам, причем 2 или более точек оказываются на расстоянии более 2о от центральной линии (рис.2.6.8).

5) Приближение к центральной линии. Большинство точек оказывается внутри центральной трети полосы между контрольными границами (рис.2.6.9).

6) Периодичность Кривая повторяет структуру «то подъем, то спад» с примерно одинаковыми интервалами времени (рис.2.6.10).

Порядок исследования контрольных x- карты и R - карты задается следующим алгоритмом:

Если встретилась одна из ситуаций, которая указывает на опасность выхода процесса из управляемого состояния (рис. 2.6.5 - 2.6.10), то необходимо

Проверить координаты «опасных точек»;

Проверить расчет границ;

Провести анализ измерительной системы;

Проверить достоверность данных измерений;

и, наконец,

Приступить к поиску особых причин (то есть каких-либо неслучайных воздействий на процесс) с целью их устранения.

В ситуациях 4-6 (рис. 2.6.8 - 2.6.10) бывает полезно построить гистограмму и провести расслоение процесса на подгруппы.

Пример 2.6.1. Для контроля процесса обработки внешнего вала коробки передач (модель 2108) на токарном одношпиндельном станке (фирмы FISCHER) замерялся контрольный параметр (линейный размер) обработанных деталей (см. рис. 4.1.1). По спецификации процесс должен иметь следующие характеристики:

Линейный размер 274.5 ± 0.1

Верхний предел допуска 274.6

Нижний предел допуска 274.4

По результатам измерений 80 изделий были построены х- карта и R-карта (рис. 2.6.11) со следующ

х = 274.464; ВКГх = 274.493; НКГх = 274.435;

R =0.016; ВКГR= 0.05; HKFR отрицательна, поэтому на рисунке не указана Х-карта

При анализе R- карты видно, что на участке 3-9 наблюдается понижающий тренд, на участке 11 -24 - повышающий тренд, много точек, вышедших за контрольные границы (9-15,17,27,30,36), а точки 9-10 находятся на границе поля допуска. Таким образом, во-первых, процесс не является статистически устойчивым. В силу того, что границы поля допуска в данном случае шире контрольных границ, может сложиться впечатление, что на участке 25 - 36 процесс является стабильным, однако выход за контрольные границы свидетельствует о наличии особых (неслучайных) воздействий. Необходимо провести технологический анализ условий протекания процесса обработки. Так, например, понижающий тренд может быть обусловлен образованием наклепа на инструменте, либо влиянием температурных деформаций в кинематике и гидравлике станка.

Приближение к центральной линии на R - карте может свидетельствовать о систематическом (неслучайном) торцевом биении базового центра, равном Rp=0.016.

В результате анализа контрольных карт можно сделать вывод о том, что в данном случае технологическая точность не обеспечивается, технологический процесс требует доработки.

2.6.4 Использование контрольных карт для оценки корреляции

Если требуется установить, имеется ли корреляционная зависимость между двумя исследуемыми параметрами Х и Y, вместо построения диаграммы рассеивания можно использовать контрольные карты.

Значения параметров Х и Y замеряют в одни и те же моменты времени и строят R- карту и X- карту. Центральная линия на этих картах соответствует значению медианы, т.е. Количество точек на обеих картах одинаково.

Затем на каждой из этих карт точки, находящиеся выше центральной линии, отмечают знаком «-», точки ниже центральной линии - знаком «-», точки, попавшие на центральную линию, - знаком «О». После этого составляют таблицу знаков, соответствующих каждой паре (X,Y). К этой таблице добавляют еще одну строку, в которой ставится «код» пары по следующим правилам:

Х + - 0 + - 0 +-

Y + - 0 - + +- 0

Код (X,Y) + + + - - 0 0

В последней строке таблицы подсчитывают число «+» - М(+); число «-» - N(-); число «О» - М(0), а также общее число кодов - К.

Если min > kmin то корреляционной зависимости нет, если min М - положительная (прямая) корреляция, при Р < М - отрицательная (обратная) корреляция.

Таблица 2.6.3.

11 37-39 12 40-41

2.7 Расслоение

При анализе состояния процесса с помощью контрольных карт или гистограмм может оказаться, что требуются какие-либо управляющие воздействия с целью устранения причин статистической неустойчивости процесса. Однако, если на процесс оказывают влияние несколько различных факторов, то бывает полезно рассмотреть действие каждого из этих факторов отдельно. Например, если сборка изделия производится на нескольких поточных линиях, то имеет смысл сгруппировать данные по соответствующим линиям и строить контрольные карты (или гистограммы) для каждой группы данных отдельно.

Расслоение - это разделение и группировка исследуемых данных в соответствии с различными факторами.

Обычно при исследовании производственной проблемы производят группировку данных по следующим признакам:

Раздельно по каждому станку;

По различным типам исходного сырья;

По дневной и ночной смене;

По различным бригадам и т.д.

При проведении расслоения по станкам обычно с каждого станка осуществляют выборку (объемом не менее 30 деталей), по полученным данным строят для каждого станка гистограмму, затем сравнивают эти гистограммы и выявляют станок, продукция которого имеет повышенную дефектность.

Пример 2.7.1. Обработка валиков происходит на двух шлифовальных станках. Технологический процесс должен быть настроен на диаметр 8.5 ±.0.25 (мм). По результатам контрольных замеров валиков после шли¬фовки была получена гистограмма, изображенная на рис. 2.7.1. Так как эта гистограмма имеет явно выраженный двухпиковый тип (см. раздел 2.4.2), было проведено расслоение, то есть рассмотрение данных по каждому станку отдельно. В результате получены гистограммы, представленные на рис. 2.7.2, 2.7.3. Таким образом было обнаружено, что на первом станке среднее значение и разброс меньше, чем на втором. Из рис. 2.7.2 и 2.7.3 видно, что на втором станке необходима переналадка, так как процесс вышел за правую границу поля допуска. Здесь нужно провести настройку на центр поля допуска и постараться уменьшить разброс. На втором станке результаты удовлетворительные, но при настройке желательно сместить среднее ближе к центру поля допуска.

Расслоение применяют и при оценке качества процесса производства с помощью контрольных карт. Так, в случае изготовления продукции на многошпиндельном станке производят расслоение по каждому шпинделю. Для каждого шпинделя строят х- карту или х- карту; по ним отслеживают изменение настройки во времени, выявляют правильность настройки каждого шпинделя, строят кривые распределения и делают заключение. См. также пример 4.1.2.


3. ОЦЕНКА ВОСПРОИЗВОДИМОСТИ ПРОЦЕССА

3.1 Понятие воспроизводимости процесса

Целью системы управления процессом является принятие экономически верных решений, связанных с выработкой оптимальных воздействий. Это требует введения критериев, позволяющих количественно оценить полезность мероприятий.

На рис. 3.1.а процесс находится в статистически неуправляемом состоянии (последовательным временным отсчетам соответствуют распределения случайной величины с различными параметрами). В результате организационных мероприятий (устранение особых причин) процесс приведен в статистически управляемое состояние (рис. 3.1.b). Однако продукция не соответствует запросам потребителя, так как часть изделий лежит вне поля допуска. Положение процесса, показанное на рис. 3.1.с должно удовлетворить и производителя, и потребителя: процесс статистически управляем и находится в поле допуска.

Количественно охарактеризовать качество производства в общем случае возможно путем расчета с помощью формул для вычисления вероятности процента несоответствий, оказавшихся вне поля допуска.

Достаточно часто в производстве наблюдаются процессы, статистические свойства которых соответствуют нормальному закону распределения случайных величин.

Однако на практике для оценки качества производства пользуются понятием воспроизводимость. Так как 99,7% значений нормальной случайной величины попадает в интервал 6σ, то доля несоответствующих изделий тесно связана с взаимным расположением этого интервала и поля допуска. Коэффициенты, характеризующие это расположение, называются индексами воспроизводимости.

Воспроизводимость процесса определяется как полный размах присущей стабильному процессу изменчивости, оцениваемой как интервал, длиной шесть стандартных отклонений (6s). Количественно привязка данного понятия к конкретным условиям настройки процесса (разброс и центрированность относительно поля допуска) оценивается индексами воспроизводимости Ср, Cpk.

При интерпретации воспроизводимости процесса с помощью указанных индексов примем следующие предположения:

Индивидуальные измерения соответствуют нормальному распределению;

Процесс статистически управляем;

Конструкторской целью является центр поля допуска (здесь рассматривается вариант двустороннего симметричного допуска).

3.2 Расчет индексов воспроизводимости

Определим структуру индексов и порядок их вычисления.

Индекс воспроизводимости Ср показывает, как соотносятся ширина поля допуска и изменчивость статистически устойчивого процесса, то есть, можно ли ожидать, что разброс контролируемого параметра окажется в границах поля допуска.

Индекс Ср равен отношению ширины поля допуска к полному размаху присущей стабильному процессу изменчивости.

Введем обозначения:

НГД - нижняя граница поля допуска,

ВГД - верхняя граница поля допуска,

Д - ширина поля допуска.

Вычисление индекса воспроизводимости Ср проводится по формуле:

Ср = Д/6σ. Здесь А = ВГД - НГД.

Иллюстрация введенных обозначений показана на рис. 3.3.

Случай 1 (базовый). Показан на рис. 3.3.а. В фиксированное поле допуска укладывается 6s процесса, т.е. Д = 6s (Ср = 1). При этом настроенный на центр поля допуска процесс содержит 0,27% несоответствий.

Случай 2 (рис. З.З.Ь). Пусть 6s, < Д. Тогда Ср > 1 и число несоответствий окажется весьма малым.

Случай 3 (рис. З.З.Ь). Пусть 6s, > Д, соответственно С < 1. Изменчивость процесса велика и число несоответствий превзойдет порог 0,27%.

а)С,=1; Ь)Ср<1,Ср>1

Итак, при зафиксированном поле допуска эффективность действий по управлению процессом, направленных на снижение изменчивости (уменьшение s), ясно и понятно характеризуется ростом индекса Ср. Считаются общепринятыми следующие оценки процесса с помощью Ср:1) Ср < 1 - неудовлетворительно,

2) 1,00 < Ср < 1,33 - удовлетворительно,

3) Ср > 1,33- хорошо.

Индекс воспроизводимости Срк характеризует настроенность процесса на центр поля допуска.

Индекс равен отношению разности между средним процесса и ближайшим пределом поля допуска к половине присущей стабильному процессу изменчивости.

Введем обозначения:

Dвгд=ВГД-(Хср)ср

Dнгд=(Хср)ср-НГД

Dmin=min(Dвгд,Dнгд)

Zвгд=Dвгд/s

Zнгд=Dнгд/s

Zmin=min(Zвгд,Zнгд)

Тогда индекс воспроизводимости Срк вычисляется по формуле:

Заметим, что для одностороннего поля допуска формулы определения индекса сходны, но при этом Zmin равно Zвгд или Zнгд в зависимости от случая расположения границы поля допуска.

Промежуточный расчет величин Z при вычислении Срk удобен тем, что позволяет при необходимости оперативно оценить по таблицам стандартного нормального распределения количество единиц продукции, которые могут оказаться вне поля допуска.

Простейший анализ формулы для вычисления Cpk, показывает, что при постоянном стандартном отклонении процесса качество процесса улучшается с ростом индекса. Между тем для управления процессом недостаточна оценка только одного этого индекса.

На рис. 3.4 показаны варианты расположения управляемого процесса в поле симметричного допуска.

Введем в рассмотрение параметр , связывающий отклонение центра настройки процесса от центра поля допуска и характеризующий этим эффективность управления настройкой. Согласно схеме на рис. 3.4

Управление процессом должно быть направлено на уменьшение 5. При этом число несоответствующих изделий уменьшится, качество процесса улучшится, достигая оптимального значения при =0.

Индексы Ср и Cpк удобно рассмотреть совместно, учитывая их связь с помощью отношения Cpк=Cp--D/3s. Из выражения видно:

Величина Срk не превосходит величины Ср

При d == О получим Cpk = Ср

Область возможных значений Срk лежит ниже прямой Срk = Ср. Отсюда следуют простые рассуждения. При оптимальной настроенности процесса на середину допуска число экземпляров несоответствующей продукции связывается с величиной Ср и не может быть уменьшено.

Таким образом, общий алгоритм управления процессом при заданном поле допуска реализуется в виде итерационного процесса, состоящего из последовательно реализуемых шагов, удовлетворяющих направлению:

s → 0, Cpk -> Ср.


4. ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ АНАЛИЗА ПРОИЗВОДСТВЕННЫХ ПРОЦЕССОВ

Рассмотрим применение вышеизложенных статистических методов контроля качества производственных процессов на нескольких примерах.

4.1 Контроль технологической точности

Пример 4.1.1. Производится контроль технологической точности станка после среднего ремонта.

Тип станка: токарный одношпиндельный станок (фирмы FICSHER).

Вид обработки детали: обработка внешнего диаметра вала коробки передач (модель 2108).

Эскиз, поясняющий схему обработки: см. рис. 4.1.1.

Диаметр 25.3;

Допуск на обработку 0.1;

Верхний предел допуска 25.35;

Нижний предел допуска 25.25.

Первичное представление результатов: таблица, содержащая массив данных, полученных в результате измерения 70 обработанных деталей.

Результаты замеров:

25.297 25.300 25.279 25.282 25.294 25.300 25.301 25.304 25.282 25.292 25.292 25.298 25.294 25.300 25.284 25.290 25.285 25.290 25.284 25.290 25.286 25.292 25.288 25.296 25.290 25.300 25.298 25.303 25.292 25.300 25.289 25.300 25.282 25.288 25.290 25.294 25.287 25.292 25.283 25.288 25.290 25.294 25.280 25.288 25.279 25.282 25.300 25.301 25.274 25.285 25.290 25.280 25.292 25.294 25.300 25.290 25.296 25.280 25.283 25.278 25.288 25.280 25.288 25.284 25.296 25.280 25.290 25.288 25.302 25.284

n=70; max= 25.304; min = 25.274; R=0.03.

Вторичное представление результатов: интервальная таблица частот (в верхней строке указаны левые границы интервалов, в нижней строке - количество деталей, диаметр которых попадает в данный интервал):

25.272 25.276 25.280 25.284 25.288 25.292 25.296 25.300 25.304 25.308
0 2 11 9 9 15 9 12 3 0

Расчет статистических характеристик процесса:

х = 25.2902; σ = 0.0073; поле рассеяния" 0.0469. Контрольная Х-карта: см. рис. 4.1.3: НКГ = 25.268; ВКГ = 25.312.

Расчет индексов воспроизводимости: Ср=2.13.

Поле рассеяния значений согласно СТП 37.101.9504 3-96 принимается равным w = k x s,

где х, - результат измерений. s - стандартное отклонение.

k - поправочный коэффициент зависящий от объема выборки причем его величина такова, что поле рассеяния оказывается в большинстве случаев несколько шире, чем 6s

Контрольная х-карта диаметра обработанных деталей, расположение гистограммы показывают, что процесс статистически управляем; это же подтверждает и значение индекса воспроизводимости Ср =2.13, свидетельствующее о практическом отсутствии несоответствий при обработке продукции;

Контрольная х-карта и расположение гистограммы относительно поля допуска показывают, что процесс смещен от центра поля допуска в направлении нижнего предела допуска, следовательно, есть возможность улучшения процесса с помощью смещения наладки на 0.0098 к середине поля допуска.

Выводы: вероятный брак равен 0%; технологическая точность обеспечивается; требуется смещение наладки, равное 0.0098.

Заключение: станок в работу утверждается с условием подналадки. Примечание. Так как контрольная карта не показывает критической ситуации, можно обойтись без подналадки. Содержательный анализ технологического процесса показывает, что в результате износа инструмента произойдет требуемая коррекция размера.

Пример 4.1.2. Производится контроль технологической точности станка с целью аудита.

Тип станка: специальный круглошлифовальный однокамневый станок (фирмы TOYOТA).

Вид обработки детали: обработка внешних диаметров шатунных шеек коленвала (модель 2108).

Эскиз, поясняющий схему обработки: см. рис.4.1.4.

Особенности протекания технологического процесса с точки зрения особых причин: стабильный участок работы.

Конкретные числовые характеристики технологического процесса (по спецификации):

Ход (шатунной шейки коленвала) 71 мм;

Допуск на обработку 0.15 мм;

Верхний предел допуска 71.05;

Нижний предел допуска 70.90.

Первичное представление результатов: таблица, содержащая общий массив данных, полученных в результате 80 замеров четырех шатунных шеек по параметру хода.

Результаты замеров:

70.900 70.900 70.880 70.880 70.900 70.900 70.870 70.880 70.900 70.880

70.880 70.900 70.890 70.870 70.900 70.910 70.890 70.880 70.880 70.900

70.940 70.930 70.900 70.930 70.900 70.890 70.900 70.940 70.950 70.930

70.900 70.930 70.940 70.900 70.930 70.940 70.920 70.900 70.910 70.930

70.950 70.960 70.930 70.940 70.940 70.930 70.940 70.930 70.980 70.960

70.930 70.950 70.970 70.940 70.960 70.940 70.930 70.940 70.930 70.970

70.960 70.920 70.890 70.910 70.910 70.920 70.910 70.900 70.870 70.890

70.870 70.910 70.900 70.890 70.920 70.930 70.900 70.900 70.890 70.940

n=80; max= 70.98; min = 70.87; R=0.11

Вторичное представление результатов: интервальная таблица частот (в верхней строке указаны левые границы интервалов, в нижней строке - количество измеренных значений, попадающих в данный интервал):

70.860 70.870 70.880 70.890 70.900 70.910 70.920
0 4 7 7 18 6 4
70.930 70.940 70.950 70.960 70.970 70.980 70.990
13 11 3 4 2 1 0

Расчет статистических характеристик процесса :

к = 70.916; поле рассеяния 0.117; смещение наладки 0.059. В данном случае не рассчитывается о, так как рассматриваются сразу 4 параметра хода четырех шатунных шеек.

Расчет индексов воспроизводимости: Ср=1.28; Ср,=0.27. Контрольная х-карта: см. рис. 4.1.6: НКГ = 70.857; ВКГ= 70.975.

Анализ экспериментального и расчетного материала:

Контрольная карта, а также расположение гистограммы показывают, что процесс не является статистически управляемым, так как имеется выход за верхнюю контрольную границу (49-я точка). Кроме того, имеет место выход процесса за границы поля допуска, что говорит о большой вероятности брака (22.5%). Двухпиковый тип гистограммы, а особенно вид контрольной карты указывают на необходимость расслоения данных, то есть рассмотрения хода каждой шейки по отдельности.

Большая разница в индексах воспроизводимости процесса (Ср« = 0.27 < Ср = 1.28) свидетельствует о том, что процесс смещен относительно центра поля допуска (по расчетам на 0.059 мм в направлении нижнего предела допуска) и, следовательно, может быть улучшен.

Расслоение данных дало следующие результаты.

1-я шейка:

Интервальная таблица

n=20; max= 70.95; min = 70.89; R=0.06. х = 70.921; σ = 0.018; поле рассеяния 0.118; смещение наладки 0.055;

3-я шейка:

Интервальная таблица

n=20; max= 70.96; min = 70.87; R=0.09.

х = 70.907; о = 0.022; поле рассеяния 0.139; смещение наладки 0.069 Ср=1.075.

1. Сравнение статистических характеристик для отдельных шеек показывает, что наихудшие параметры имеет 4-ая шейка (поле рассеяния 0.139; С-= 1.075). Это указывает на необходимость проведения профилактического ремонта левого зажимного патрона.

2. Так как центральная линия на контрольной карте смещена относительно заданного номинального значения хода 71 мм, то требуется наладка станка, так, чтобы центр настройки совпадал с номинальным (или серединой поля допуска).

3. Из гистограмм и контрольной карты видно, что в настоящее время наилучшая наладка по исследуемому параметру на 3-ей шейке, поэтому на ней требуется наименьшая подналадка.

4. Необходимо добиться, чтобы все статистические параметры для всех четырех шеек были близки по своим значениям, то есть находились на одной линии, а поля рассеяния отличались незначительно.

4.2. Использование диаграмм Парето

Для наиболее успешного устранения несоответствий в готовой продукции по результатам контроля строятся диаграммы Парето. Приведем пример такой диаграммы, показывающей распределение дефектов в цехе 46 за период с 01.01.95 no31.12.95.

Группа деталей - Генератор

Код дефекта Наименование дефекта Кол-во Сумма

1 Не работает регулятор 852 42

2 Нет цепи обм. воз 291 56

3 Шум, магнитный шум 249 68

5 Утоплена клемма 61. 155 75

12 Нет цепи центра эв. 107 79

8 Клинит ротор 88 84

6 Замыкание диодов 52 86

4 Пробиты диоды 41 88

13 Замыкает 11 89

7 Не закреплен шкив 8 90

11 Прочие дефекты 196 100

Устранение дефектов 1, 2, 3 даст возможность существенно повысить качество данного узла, следовательно, прежде всего надо сосредоточить усилия на выявлении причин этих несоответствий и внедрению мероприятий по их преодолению.


5. МАТЕМАТИЧЕСКИЕ ОСНОВЫ СТАТИСТИЧЕСКИХ МЕТОДОВ

5.1 Случайная величина. Общие определения

Случайная величина - это величина, измеряемая в исследуемых экспериментах, исходы которых заранее не известны и зависят от случайных причин.

Различают два вида случайных величин:

Дискретная - случайная величина, принимающая конечное или счетное множество значений х, ... , хn каждое с некоторой вероятностью pi,..., р,. Дискретная случайная величина задается законом распределения, устанавливающим однозначное соответствие между возможными значениями случайной величины и их вероятностями;

Непрерывная - случайная величина, которая может принимать все значения из некоторого конечного или бесконечного промежутка. Непрерывная случайная величина характеризуется плотностью вероятности -непрерывной функцией, такой что вероятность попадания случайной величины Х в интервал (а;Ь) равна

Пример 6.1. На контроль поступило несколько партий деталей. Контролируется размер отверстия. Диаметр отверстия - это непрерывная случайная величина, количество нестандартных деталей в каждой партии -дискретная случайная величина.

Генеральной совокупностью называется весь набор однородных объектов, изучаемых относительно некоторого качественного или количественного признака. Число всех изучаемых объектов N называется объемом генеральной совокупности.

Выборка - это та часть генеральной совокупности, элементы которой подвергаются статистическому обследованию. Число n вошедших выборку элементов называется объемом выборки.

Выборки бывают бесповторные, когда отобранный (и статистически обследованный) объект в генеральную совокупность не возвращается, и повторные, когда отобранный элемент после обследования возвращается в генеральную совокупность.

Чтобы результаты, полученные при изучении выборки, можно было достаточно уверенно распространить на всю генеральную совокупность, выборка должна быть репрезентативной (представительной). При статистическом контроле это достигается путем правильного выбора метода отбора исследуемых объектов. В зависимости от поставленных целей применяют следующие способы сбора данных:

Простой случайный отбор, когда выбор объектов осуществляется из всей генеральной совокупности случайным образом. Этот способ применяется, например, при выборочном контроле партии деталей на соответствие некоторому стандарту.

Типический отбор, когда объекты отбираются не из всей генеральной совокупности, а из каждой ее "типической" части. Например, если однотипные детали изготавливаются на нескольких станках, то отбор производится из продукции каждого станка в отдельности.

Механический отбор, когда генеральную совокупность делят на столько групп, сколько объектов должно войти в выборку, и из каждой группы выбирают один объект. При этом следует внимательно следить, чтобы не нарушалась репрезентативность выборки. Например, если отбирают каждый двадцатый обтачиваемый валик, причем сразу же после замера производят замену резца, то отобраны окажутся все валики, обточенные затупленными резцами. Если исследуемый параметр зависит от остроты резца, то следует устранить совпадение ритма отбора с ритмом замены резца, например, отбирать каждый десятый валик из двадцати обточенных.

Серийный отбор, когда объекты отбирают из генеральной совокупности не по одному, а "сериями", и обследуются все элементы каждой серии. Этот вид отбора применяют тогда, когда обследуемый признак колеблется в разных сериях незначительно, например, если изделия изготавливаются большой группой станков-автоматов, то сплошному обследованию подвергают продукцию только нескольких станков. Для получения более достоверных результатов при этом можно менять наборы "серий", то есть в разные дни обследовать разные группы станков.

При применении статистических методов управления качеством для построения контрольных карт обычно используют мгновенные выборки.

Мгновенная выборка - это выборка, взятая из технических соображений таким образом, что внутри нее вариации (то есть изменения) могут появляться только как следствие случайных (общих) причин. Возможные вариации между такими выборками, как правило, определяются неслучайными (специальными) причинами. В производстве мгновенная выборка должна быть сформирована из данных, собранных в короткий отрезок времени в однородных условиях (материал, инструмент, окружающая среда, один и тот же станок или оператор и т.п.).

При сборе данных применяют различные формы регистрации информации. Наиболее часто используют вариационные ряды, таблицы, а также контрольные листки.

Вариационный ряд - запись результатов измерений какой-либо случайной величины в виде последовательности чисел. Таким образом, получается одномерный массив чисел, обработка которого обычно начинается с его упорядочения и предполагает использование вычислительной техники. Эта форма регистрации информации наименее удобна для получения оперативных результатов и чаще всего применяется при использовании автоматических датчиков, напрямую соединенных с ЭВМ.

Таблица - представление данных в виде двумерного массива чисел, в котором элементы строки или столбца отражают состояние исследуемого признака при определенных условиях. Например, пусть некоторый параметр измеряется четыре раза в день на протяжении рабочей недели. Тогда результаты удобно занести в таблицу

День недели 9.00 11.00 14.00 16.00

понедельник

Контрольный листок - стандартный бланк, на котором заранее напечатаны контрольные параметры, чтобы можно было легко и точно записать Данные измерений. При правильно разработанном типе контрольного листа данные не только очень просто фиксируются, но и автоматически упорядочиваются для последующей обработки и необходимых выводов. Для обработки результатов статистических наблюдений их удобно оформлять в виде таблицы частот.

Статистическое распределение - таблица частот, в которой указаны значения случайной величины n, и соответствующие частоты, показывающие, сколько раз в выборке встретилось данное значение случайной величины.

Для получения интервальной таблицы частот (интервального вариационного ряда) весь диапазон измеренных значений случайной величины Х делят на k равных интервалов (а, tt,) и подсчитывают количество {и} значений случайной величины, попавших на соответствующий интервал. Кроме того, в таблице указывают также величину х, - середину i"-oro интервала.


Интервальная таблица частот

Номер интервала / Интервал (а,а,) Середина интервала

X, Частота п,

1 (а, а,) X1 N1

2 (а, а,) X2 N2

Здесь n1, + n2 ... + ni= n - объему выборки.

Первичная обработка результатов статистических наблюдений заключается в графическом представлении собранной информации. Обычно для этого строят гистограммы.

Для построения гистограммы на оси абсцисс отмечают границы интервалов - точки а, ..., ai-1 . Над каждым интервалом строится прямоугольник площадью п, (очевидно, если длина каждого интервала h, то высота этого прямоугольника n/h). Получившаяся ступенчатая фигура называется гистограммой частот. При этом площадь гистограммы частот равна объему выборки п. Отрезок [а, аn,] назовем основанием гистограммы.

Аналогично строится и гистограмма относительных частот - ступенчатая фигура, состоящая из прямоугольников, площади которых равны n/h, то есть общая площадь гистограммы относительных частот равна 1.

6.2 Числовые характеристики случайных величин

Поведение любой случайной величины определяется ее распределением, средним значением и разбросом относительно этого среднего значения.

Средними значениями случайной величины являются ее

Математическое ожидание - среднее арифметическое всех значений случайной величины;

Мода - значение случайной величины, которое встречается чаще всего, то есть имеет наибольшую частоту;

Медиана - такое значение случайной величины, которое оказывается точно в середине упорядоченного вариационного ряда, то есть, если все

зафиксированные значения случайной величины расположить в порядке возрастания, то слева и справа от медианы окажется одинаковое число точек. При этом, если число наблюдений нечетно (n=2k+l), то в качестве медианы берут среднюю точку хk-1, а если число наблюдений четно (n=2k), то медиана - это центр среднего интервала (хi.хk-1,), то есть;X=(xi+Xk+1)/2.

Разброс случайной величины относительно средних значений характеризуется дисперсией или средним квадратическим отклонением (с.к.о.) - мерой рассеяния распределения относительно математического ожидания. При этом с.к.о. - это корень квадратный из дисперсии. Наибольший разброс случайной величины определяется размахом выборки, то есть величиной интервала, в который попадают все возможные значения случайной величины.

В математической статистике говорят о статистических оценках параметров распределения. Статистические оценки бывают точечные (определяемые одним числом) и интервальные (определяемые двумя числами -концами интервала). Точечные оценки дают представление о величине соответствующего параметра, а интервальные характеризуют точность и достоверность оценки.

Предположим, что в результате наблюдений получены n значений случайной величины Х: x1; , ... , xn . Для вычисления точечных оценок параметров распределения пользуются формулами:

среднее квадратичное отклонение s = v/5 ; (6.2.8)

Пример 6.2. Пусть в результате наблюдений получены следующие значения случайной величины X: (5; 6; 3; 6; 4; 5; 3; 7; 6;7;5;6).


Упорядоченный вариационный ряд: 3, 3,4, 5, 5, 5, 6, 6, 6, 6, 7, 7.

Таблица частот статистическое распределение:

Вычислим все числовые характеристики случайной величины хmin = 3; xmax = 7; медиана 5- x=(X6+X7)/2 = (5 + 6)/2 = 5,5;

мода Х = 6 , так как это значение встречалось чаще всего (n = 4);

выборочное среднее х = (2 3+1 4+3 5+4 6+2 7)/12 = 5,25 ;

размах R = 7 - 3 = 4 ;

выборочная дисперсия.S= D =(1/11) (2(3 - 5,25)2+ 1(4-5,25)2+ + 3 (5 - 5.25)2 + 4 (6 - 5,25)2 +2 (7 - 5,25)2) = 15/11 = 1,84 ;

среднее квадратичное отклонением s = 1,36 .

Замечание. Современная вычислительная техника, используя специальные пакеты прикладных программ, позволяет получить значения выборочной средней и дисперсии сразу же после введения данных выборки (наблюдаемых значений исследуемой случайной величины)

6.3 Типовые теоретические распределения случайных величин

Характер поведения случайной величины определяется ее распределением. Зная тип распределения случайной величины и его числовые характеристики, можно прогнозировать, какие значения будет принимать случайная величина в результате наблюдений, то есть можно делать определенные выводы обо всей генеральной совокупности.

Наиболее часто встречается нормальное (гауссовское) распределение. Это связано с тем, что разброс характеристик качества обусловлен суммой большого числа независимых ошибок, вызванных различными факторами, а согласно центральной предельной теореме Ляпунова в этом случае случайная величина имеет распределение, близкое к нормальному.

Нормальное распределение описывает непрерывную случайную величину, поэтому его задают плотностью вероятности/С.^. Плотность вероятности нормального распределения имеет вид:

Параметр и определяет точку максимума, через которую проходит ось симметрии графика функции, и указывает среднее арифметическое значение случайной величины, s показывает разброс распределения относительно среднего значения, то есть определяет "ширину" колокола (расстояние от оси симметрии до точки перегиба графика

Для удобства подсчета вероятностей любое нормальное распределение с параметрами а и σ преобразуют к стандартному (нормированному) нормальному распределению, параметры которого а = 0, s = 1, то есть плотность

Значения функции f(х) можно найти в справочных таблицах или получить, используя готовые компьютерные программы.

Другим часто встречающимся в технике распределением непрерывной случайной величины является закон Рэлея. Он описывает распределение погрешностей формы и расположения поверхностей (биение, эксцентриситет, непараллельность, неперпендикулярность и т.п.), когда эти погрешности определяются радиусом кругового рассеяния н а плоскости.

Если на плоскости задана система координат Оху, то точка с координатами (х,у; отстоит от начала координат на расстояние координат х и у - нормально распределенная случайная величина, то г - случайная величина, имеющая распределение Рэлея. Плотность вероятности этого распределения:

Для дискретных случайных величин наиболее распространенным является биномиальное распределение. Биномиальный закон распределения описывает вероятность того, что в выборке объема п некоторый признак встретится ровно k раз. Точнее, пусть проводится п независимых испытаний ("опытов"), в каждом из которых признак может проявиться ("успех опыта") с вероятностью р. Рассмотрим случайную величину Х - число "успехов" в данной серии испытаний. Это дискретная случайная величина, принимающая значения О, 1,... , п, причем вероятность того, что Х примет значение, равное k, то есть что ровно в k испытаниях будет зафиксирован исследуемый признак, вычисляется по формуле

Формула (6.3.13) называется формулой Бернулли, а закон распределения случайной величины X, задаваемый этой формулой, называется биномиальным, Параметрами биномиального распределения являются число опытов n и вероятность "успеха" р. Но так как нас интересуют среднее значение и разброс случайной величины относительно своего среднего значения, то отметим, что для биномиального распределения математическое ожидание т → up . а дисперсия →прц.

Биномиальный закон описывает в самой общей форме осуществление признака в повторной выборке (в частности, появление несоответствий).

Например, пусть в партии из N деталей ровно М имеют внешний дефект (неравномерность окраски). При контроле из партии извлекается деталь, фиксируется наличие либо отсутствие дефекта, после чего деталь извращается обратно. Если эти действия проделаны n раз, то вероятность того, что при этом k раз будет зарегистрирован дефект, вычисляется по формуле:

Если же извлеченная деталь не возвращается обратно (или все п деталей вынимаются одновременно), то вероятность того, что среди вынутых п деталей окажется ровно k с дефектом равна

В этом случае случайная величина Х - количество несоответствующих деталей в выборке задается гипергеометрическим законом распределения. Этот закон описывает осуществление признака в бесповторной выборке.

Когда N очень велико по сравнению с п (то есть объем генеральной совокупности по крайней мере на два порядка больше объема выборки), то несущественно, какая проводится выборка - бесповторная или повторная, ТО есть в этом случае вместо формулы (6.3.16) можно использовать формулу (6.3.15).

При больших значениях п формула Бернулли (6.3.13) заменяется формулой

которая фактически совпадает с формулой (6.3.1), то есть с нормальным законом распределения, параметры которого а = пр. s = npq.

Для распределения Пуассона математическое ожидание равно l,Дисперсия также равна l.

На рисунке 6.4 представлены два биномиальных распределения P^(k). У одного п = 30; р = 0,3 - оно близко к нормальному распределению с математическим ожиданием т, = пр =-- 9. У другого п = 30;р = 0,05 - оно близко к распределению Пуассона с математическим ожиданием mk = пр = 1,5.


1. Статистические методы повышения качества (Пер. с англ./ Под ред. С. Кумэ).-М.: Финансы и статистика, 1990.-304с.

2. Статистическое управление процессами (SPC). Руководство. Пер. с англ. (с дополн.). - Н.Новгород: АО НИЦ КД, СМЦ «Приоритет», 1997г.

3. Статистический контроль качества продукции на основе принципа распределения приоритетов/В.А. Лапидус, М.И. Розно, А.В. Глазунов и др.-ВЙ.: Финансы и статистика, 1991 .-224с.

4. Миттаг Х.-И.. Ринне X. Статистические методы обеспечения качества М.: Машиностроение, 1995.-616с.

5. ГОСТ Р 50779.0-95 Статистические методы. Основные положения.

6. ГОСТ Р 50779.30-95 Статистические методы. Приемочный контроль качества. Общие требования.

7. ГОСТ Р 50779.50-95 Статистические методы. Приемочный контроль качества по количественному признаку. Общие требования.

8. ГОСТ Р 50779.51-95 Статистические методы. Непрерывный приемочный контроль качества по альтернативному признаку.

9. ГОСТ Р 50779.52-95 Статистические методы. Приемочный контроль качества по альтернативному признаку.

10. ИСО 9000-ИСО 9004. ИСО 8402. Управление качеством продукции (пер. с англ.).-М.: Изд-во стандартов, 1988.-96с.

11. ИСО 9000. Международные стандарты.

статистика» биостатистикой» .

1. номинальную;
2. ординальную;
3. интервальную;

выборки

репрезентативной

выборочной рамки простой случайной выборкой интервальная выборка

стратифицированной выборки

кластерная и квотная выборки

нулевой гипотезы

альтернативной гипотезы мощности

доверительной вероятности».


Название: Основы статистического анализа данных
Детальное описание:

После завершения любого научного исследования, фундаментального или экспериментального, производится статистический анализ полученных данных. Чтобы статистический анализ был успешно проведен и позволил решить поставленные задачи, исследование должно быть грамотно спланировано. Следовательно, без понимания основ статистики невозможно планирование и обработка результатов научного эксперимента. Тем не менее, медицинское образование не дает не только знания статистики, но даже основ высшей математики. Поэтому очень часто можно столкнуться с мнением, что вопросами статобработки в биомедицинских исследованиях должен заниматься только специалист по статистике, а врачу-исследователю следует сосредоточиться на медицинских вопросах своей научной работы. Подобное разделение труда, подразумевающее помощь в анализе данных, вполне оправдано. Однако понимание принципов статистики необходимо хотя бы для того, чтобы избежать некорректной постановки задачи перед специалистом, общение с которым до начала исследования является в такой же степени важным, как и на этапе обработки данных.

Прежде чем говорить об основах статистического анализа, следует прояснить смысл термина «статистика» . Существует множество определений, но наиболее полным и лаконичным является, на наш взгляд, определение статистики как «науки о сборе, представлении и анализе данных». В свою очередь, использование статистики в приложении к живому миру называют «биометрией» или «биостатистикой» .

Следует заметить, что очень часто статистику сводят только к обработке экспериментальных данных, не обращая внимания на этап их получения. Однако статистические знания необходимы уже во время планирования эксперимента, чтобы полученные в ходе него показатели могли дать исследователю достоверную информацию. Поэтому, можно сказать, что статистический анализ результатов эксперимента начинается еще до начала исследования.

Уже на этапе разработки плана исследователь должен четко представлять себе, какого типа переменные будут в его работе. Все переменные можно разделить на два класса: качественные и количественные. То, какой диапазон может принимать переменная, зависит от шкалы измерений. Можно выделить четыре основных шкалы:

1. номинальную;
2. ординальную;
3. интервальную;
4. рациональную (шкалу отношений).

В номинальной шкале (шкале «названий») присутствуют лишь условные обозначения для описания некоторых классов объектов, например, «пол» или «профессия пациента». Номинальная шкала подразумевает, что переменная будет принимать значения, количественные взаимоотношения между которыми определить невозможно. Так, невозможно установить математические отношения между мужским и женским полом. Условные числовые обозначения (женщины - 0, мужчины - 1, либо наоборот) даются абсолютно произвольно и предназначены только для компьютерной обработки. Номинальная шкала является качественной в чистом виде, отдельные категории в этой шкале выражают частотами (количество или доля наблюдений, проценты).

Ординальная (порядковая) шкала предусматривает, что отдельные категории в ней могут выстраиваться по возрастанию или убыванию. В медицинской статистике классическим примером порядковой шкалы является градация степеней тяжести заболевания. В данном случае мы можем выстроить тяжесть по возрастанию, но все еще не имеем возможности задать количественные взаимоотношения, т. е. дистанция между значениями, измеренными в ординальной шкале, неизвестна или не имеет значения. Установить порядок следования значений переменной «степень тяжести» легко, но при этом невозможно определить, во сколько раз тяжелое состояние отличается от состояния средней тяжести.

Ординальная шкала относится к полуколичественным типам данных, и ее градации можно описывать как частотами (как в качественной шкале), так и мерами центральных значений, на чем мы остановимся ниже.

Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале мы уже можем определить, насколько одно значение переменной отличается от другого. Так, повышение температуры тела на 1 градус Цельсия всегда означает увеличение выделяемой теплоты на фиксированное количество единиц. Однако в интервальной шкале есть и положительные и отрицательные величины (нет абсолютного нуля). В связи с этим невозможно сказать, что 20 градусов Цельсия - это в два раза теплее, чем 10. Мы можем лишь констатировать, что 20 градусов настолько же теплее 10, как 30 - теплее 20.

Рациональная шкала (шкала отношений) имеет одну точку отсчета и только положительные значения. В медицине большинство рациональных шкал - это концентрации. Например, уровень глюкозы 10 ммоль/л - это в два раза большая концентрация по сравнению с 5 ммоль/л. Для температуры рациональной шкалой является шкала Кельвина, где есть абсолютный ноль (отсутствие тепла).

Следует добавить, что любая количественная переменная может быть непрерывной, как в случае измерения температуры тела (это непрерывная интервальная шкала), или же дискретной, если мы считаем количество клеток крови или потомство лабораторных животных (это дискретная рациональная шкала).

Указанные различия имеют решающее значение для выбора методов статистического анализа результатов эксперимента. Так, для номинальных данных применим критерий «хи-квадрат», а известный тест Стьюдента требует, чтобы переменная (интервальная либо рациональная) была непрерывной.

После того как будет решен вопрос о типе переменной, следует заняться формированием выборки . Выборка - это небольшая группа объектов определенного класса (в медицине - популяция). Для получения абсолютно точных данных нужно исследовать все объекты данного класса, однако, из практических (зачастую - финансовых) соображений изучают только часть популяции, которая и называется выборкой. В дальнейшем, статистический анализ позволяет исследователю распространить полученные закономерности на всю популяцию с определенной степенью точности. Фактически, вся биомедицинская статистика направлена на получение наиболее точных результатов из наименее возможного количества наблюдений, ведь при исследованиях на людях важен и этический момент. Мы не можем позволить себе подвергать риску большее количество пациентов, чем это необходимо.

Создание выборки регламентируется рядом обязательных требований, нарушение которых может привести к ошибочным выводам из результатов исследования. Во-первых, важен объем выборки. От объема выборки зависит точность оценки исследуемых параметров. Здесь следует обратить внимание на слово «точность». Чем больше размеры исследуемых групп, тем более точные (но не обязательно правильные) результаты получает ученый. Для того же, чтобы результаты выборочных исследований можно было переносить на всю популяцию в целом, выборка должна быть репрезентативной . Репрезентативность выборки предполагает, что в ней отражены все существенные свойства популяции. Другими словами, в исследуемых группах лица разного пола, возраста, профессий, социального статуса и пр. встречаются с той же частотой, что и во всей популяции.

Однако перед тем как начать выбор исследуемой группы, следует определиться с необходимостью изучения конкретной популяции. Примером популяции могут быть все пациенты с определенной нозологией или люди трудоспособного возраста и т. д. Так, результаты, полученные для популяции молодых людей призывного возраста, вряд ли удастся экстраполировать на женщин в постменопаузе. Набор характеристик, которые будет иметь изучаемая группа, определяет «обобщаемость» данных исследования.

Формировать выборки можно различными путями. Самый простой из них - выбор с помощью генератора случайных чисел необходимого количества объектов из популяции или выборочной рамки (sampling frame). Такой способ называется «простой случайной выборкой ». Если случайным образом выбрать начальную точку в выборочной рамке, а затем взять каждый второй, пятый или десятый объекты (в зависимости от того каких размеров группы требуются в исследовании), то получится интервальная выборка . Интервальная выборка не является случайной, так как никогда не исключается вероятность периодических повторений данных в рамках выборочной рамки.

Возможен вариант создания так называемой «стратифицированной выборки », которая предполагает, что популяция состоит из нескольких различных групп и эту структуру следует воспроизвести в экспериментальной группе. Например, если в популяции соотношение мужчин и женщин 30:70, тогда в стратифицированной выборке их соотношение должно быть таким же. При данном подходе критически важно не балансировать выборку избыточно, то есть избежать однородности ее характеристик, в противном случае исследователь может упустить шанс найти различия или связи в данных.

Кроме описанных способов формирования групп есть еще кластерная и квотная выборки . Первая используется в случае, когда получение полной информации о выборочной рамке затруднено из-за ее размеров. Тогда выборка формируется из нескольких групп, входящих в популяцию. Вторая - квотная - аналогична стратифицированной выборке, но здесь распределение объектов не соответствует таковому в популяции.

Возвращаясь к объему выборки, следует сказать, что он тесно связан с вероятностью статистических ошибок первого и второго рода. Статистические ошибки могут быть обусловлены тем, что в исследовании изучается не вся популяция, а ее часть. Ошибка первого рода - это ошибочное отклонение нулевой гипотезы . В свою очередь, нулевая гипотеза - это предположение о том, что все изучаемые группы взяты из одной генеральной совокупности, а значит, различия либо связи между ними случайны. Если провести аналогию с диагностическими тестами, то ошибка первого рода представляет собой ложноположительный результат.

Ошибка второго рода - это неверное отклонение альтернативной гипотезы , смысл которой заключается в том, что различия либо связи между группами обусловлены не случайным совпадением, а влиянием изучаемых факторов. И снова аналогия с диагностикой: ошибка второго рода - это ложноотрицательный результат. С этой ошибкой связано понятие мощности , которое говорит о том, насколько определенный статистический метод эффективен в данных условиях, о его чувствительности. Мощность вычисляется по формуле: 1-β, где β - это вероятность ошибки второго рода. Данный показатель зависит преимущественно от объема выборки. Чем больше размеры групп, тем меньше вероятность ошибки второго рода и выше мощность статистических критериев. Зависимость эта как минимум квадратичная, то есть уменьшение объема выборка в два раза приведет к падению мощности минимум в четыре раза. Минимально допустимой мощностью считают 80%, а максимально допустимый уровень ошибки первого рода принимают 5%. Однако всегда следует помнить, что эти границы заданы произвольно и могут изменяться в зависимости от характера и целей исследования. Как правило, научным сообществом признается произвольное изменение мощности, однако в подавляющем большинстве случаев уровень ошибки первого рода не может превышать 5%.

Все сказанное выше имеет непосредственное отношение к этапу планирования исследования. Тем не менее, многие исследователи ошибочно относятся к статистической обработке данных только как к неким манипуляциям, выполняемым после завершения основной части работы. Зачастую после окончания никак не спланированного эксперимента, появляется непреодолимое желание заказать анализ статистических данных на стороне. Но из «кучи мусора» даже специалисту по статистике будет очень сложно выудить ожидаемый исследователем результат. Поэтому при недостаточных знаниях биостатистики необходимо обращаться за помощью в статистическом анализе еще до начала эксперимента.

Обращаясь к самой процедуре анализа, следует указать на два основных типа статистических техник: описательные и доказательные (аналитические). Описательные техники включают в себя методы позволяющие представить данные в компактном и легком для восприятия виде. Сюда можно отнести таблицы, графики, частоты (абсолютные и относительные), меры центральной тенденции (средние, медиана, мода) и меры разброса данных (дисперсия, стандартное отклонение, межквартильный интервал и пр.). Другими словами, описательные методы дают характеристику изучаемым выборкам.

Наиболее популярный (хотя и зачастую ошибочный) способ описания имеющихся количественных данных заключается в определении следующих показателей:

  • количество наблюдений в выборке или ее объем;
  • средняя величина(среднее арифметическое);
  • стандартное отклонение- показатель того, насколько широко изменяются значения переменных.

Важно помнить, что среднее арифметическое и стандартное отклонение - это меры центральной тенденции и разброса в достаточно небольшом числе выборок. В таких выборках значения у большинства объектов с равной вероятностью отклонены от среднего, а их распределение образует симметричный «колокол» (гауссиану или кривую Гаусса-Лапласа). Такое распределение еще называют «нормальным», но в практике медицинского эксперимента оно встречается лишь в 30% случаев. Если же значения переменной распределены несимметрично относительно центра, то группы лучше описывать с помощью медианы и квантилей (процентилей, квартилей, децилей).

Завершив описание групп, необходимо ответить на вопрос об их взаимоотношениях и о возможности обобщить результаты исследования на всю популяцию. Для этого используются доказательные методы биостатистики. Именно о них в первую очередь вспоминают исследователи, когда идет речь о статистической обработке данных. Обычно этот этап работы называют «тестированием статистических гипотез».

Задачи тестирования гипотез можно разделить на две большие группы. Первая группа отвечает на вопрос, имеются ли различия между группами по уровню некоторого показателя, например, различия в уровне печеночных трансаминаз у пациентов с гепатитом и здоровых людей. Вторая группа позволяет доказать наличие связи между двумя или более показателями, например, функции печени и иммунной системы.

В практическом плане задачи из первой группы можно разделить на два подтипа:

  • сравнение показателя только в двух группах(здоровые и больные, мужчины и женщины);
  • сравнение трех и более групп(изучение разных доз препарата).

Необходимо учитывать, что статистические методы существенно отличаются для качественных и количественных данных.

В ситуации, когда изучаемая переменная - качественная и сравниваются только две группы, можно использовать критерий «хи-квадрат». Это достаточно мощный и широко известный критерий, однако, он оказывается недостаточно эффективным в случае, если количество наблюдений мало. Для решения данной проблемы существуют несколько методов, такие как поправка Йейтса на непрерывность и точный метод Фишера.

Если изучаемая переменная является количественной, то можно использовать один из двух видов статистических критериев. Критерии первого вида основаны на конкретном типе распределения генеральной совокупности и оперируют параметрами этой совокупности. Такие критерии называют «параметрическими», и они, как правило, базируются на предположении о нормальности распределения значений. Непараметрические критерии не базируются на предположении о типе распределения генеральной совокупности и не используют ее параметры. Иногда такие критерии называют «свободными от распределения» (distribution-free tests). В определенной степени это ошибочно, поскольку любой непараметрический критерий предусматривает, что распределения во всех сравниваемых группах будут одинаковыми, иначе могут быть получены ложноположительные результаты.

Существует два параметрических критерия применяемых к данным, извлеченным из нормально распределенной совокупности: t-тест Стьюдента для сравнения двух групп и F-тест Фишера, позволяющий проверить равенство дисперсий (он же - дисперсионный анализ). Непараметрических же критериев значительно больше. Разные критерии отличаются друг от друга по допущениям, на которых они основаны, по сложности вычислений, по статистической мощности и т. д. Однако наиболее приемлемыми в большинстве случаев считаются критерий Вилкоксона (для связанных групп) и критерий Манна-Уитни, также известный как критерий Вилкоксона для независимых выборок. Эти тесты удобны тем, что не требуют предположения о характере распределения данных. Но если окажется, что выборки взяты из нормально распределенной генеральной совокупности, то их статистическая мощность будет несущественно отличаться от таковой для теста Стьюдента.

Полное описание статистических методов можно найти в специальной литературе, однако, ключевым моментом является то, что каждый статистический тест требует набора правил (допущений) и условий для своего использования, и механический перебор нескольких методов для поиска «нужного» результата абсолютно неприемлем с научной точки зрения. В этом смысле статистические тесты близки к лекарственным препаратам - у каждого есть показания и противопоказания, побочные эффекты и вероятность неэффективности. И столь же опасным является бесконтрольное применение статистических тестов, ведь на них базируются гипотезы и выводы.

Для более полного понимания вопроса точности статистического анализа необходимо определить и разобрать понятие «доверительной вероятности». Доверительная вероятность - это величина, принятая в качестве границы между вероятными и маловероятными событиями. Традиционно, она обозначается буквой «p». Для многих исследователей единственной целью выполнения статистического анализа является расчет заветного значения p, которое словно проставляет запятые в известной фразе «казнить нельзя помиловать». Максимально допустимой доверительной вероятностью считается величина 0,05. Следует помнить, что доверительная вероятность - это не вероятность некоторого события, а вопрос доверия. Выставляя перед началом анализа доверительную вероятность, мы тем самым определяем степень доверия к результатам наших исследований. А, как известно, чрезмерная доверчивость и излишняя подозрительность одинаково негативно сказываются на результатах любой работы.

Уровень доверительной вероятности показывает, какую максимальную вероятность возникновения ошибки первого рода исследователь считает допустимой. Уменьшение уровня доверительной вероятности, иначе говоря, ужесточение условий тестирования гипотез, увеличивает вероятность ошибок второго рода. Следовательно, выбор уровня доверительной вероятности должен осуществляться с учетом возможного ущерба от возникновения ошибок первого и второго рода. Например, принятые в биомедицинской статистике жесткие рамки, определяющие долю ложноположительных результатов не более 5% - это суровая необходимость, ведь на основании результатов медицинских исследований внедряется либо отклоняется новое лечение, а это вопрос жизни многих тысяч людей.

Необходимо иметь в виду, что сама по себе величина p малоинформативна для врача, поскольку говорит только о вероятности ошибочного отклонения нулевой гипотезы. Этот показатель ничего не говорит, например, о размере терапевтического эффекта при применении изучаемого препарата в генеральной совокупности. Поэтому есть мнение, что вместо уровня доверительной вероятности лучше было бы оценивать результаты исследования по величине доверительного интервала. Доверительный интервал - это диапазон значений, в котором с определенной вероятностью заключено истинное популяционное значение (для среднего, медианы или частоты). На практике удобнее иметь оба эти значения, что позволяет с большей уверенностью судить о применимости полученных результатов к популяции в целом.

В заключение следует сказать несколько слов об инструментах, которыми пользуется специалист по статистике, либо исследователь, самостоятельно проводящий анализ данных. Давно ушли в прошлое ручные вычисления. Существующие на сегодняшний день статистические компьютерные программы позволяют проводить статистический анализ, не имея серьезной математической подготовки. Такие мощные системы как SPSS, SAS, R и др. дают возможность исследователю использовать сложные и мощные статистические методы. Однако далеко не всегда это является благом. Не зная о степени применимости используемых статистических тестов к конкретным данным эксперимента, исследователь может провести расчеты и даже получить некоторые числа на выходе, но результат будет весьма сомнительным. Поэтому, обязательным условием для проведения статистической обработки результатов эксперимента должно быть хорошее знание математических основ статистики.


Для анализа данных могут применяться разные методы. Статистические методы анализа данных предназначены для их уплотнения, выявления взаимосвязей и структур.

Статистические методы – методы анализа статистических данных. По своей природе они делятся на количественные и категориальные.

Количественные (метрические ) данные являются непрерывными по своей структуре. Эти данные либо измерены с помощью интервальной шкалы (числовая шкала, количественно равные промежутки которой отображают равные промежутки между значениями измеряемых характеристик), либо с помощью шкалы отношений (кроме расстояния определен и порядок значений).

Категориальные (неметрические ) данные – это качественные данные с ограниченным числом уникальных значений и категорий. Существует два вида категориальных данных: номинальные – используется для нумерации объектов и порядковые – данные, для которых существует естественный порядок категорий.

Статистические методы делятся на одно- и многомерные. Одномерные методы используются тогда, когда все элементы выборки оцениваются единым измерителем либо если этих измерителей несколько для каждого элемента, но каждая переменная анализируется при этом отдельно ото всех остальных.

3.4.3.1. Одномерные статистические методы

Одномерные статистические методы (Univariate techniques ) – методы статистического анализа данных в случаях, если существует единый измеритель для оценки каждого элемента выборки либо если эти измерителей несколько, но каждая переменная анализируется отдельно от всех остальных .

Одномерные методы (рис. 3.9) можно классифицировать на основе того, какие данные анализируются: метрические или неметрические. Метрические данные (metric data ) измеряются по интервальной или относительной шкале. Неметрические данные (nonmetric data ) оцениваются по номинальной или порядковой шкале. Затем эти методы делят на классы на основе того, сколько выборок – одна, две или более – анализируется в ходе исследования. Стоит отметить, что число выборок определяется тем, как ведется работа с данными для конкретного анализа, а не тем, каким способом собирались данные.

Рис. 3.9.

Рассмотрим некоторые из перечисленных на рис. 3.9 одномерных статистических методов.

Однофакторный дисперсионный анализ

Задачей дисперсионного анализа является изучение влияния одного или нескольких факторов на рассматриваемый признак. Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений. Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами, если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Вариационный ряд

Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени. Например, работники фирмы различаются по доходам, затратам времени на работу, росту, весу, любимому занятию в свободное время и т.д. Она возникает в результате того, что индивидуальные значения признака складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае. Таким образом, величина каждого варианта объективна.

Вариационный ряд – это упорядоченное распределение единиц совокупности чаще всего по возрастающим (реже по убывающим) значениям признака и подсчет числа единиц с тем или иным значением признака. Существуют следующие формы вариационного ряда: ранжированный ряд – представляет собой перечень отдельных единиц совокупности в порядке возрастания (или убывания) изучаемого признака; дискретный вариационный ряд – таблица, состоящая из конкретных значений варьирующего признака х и числа единиц совокупности с данным значением f -признака частот; интервальный ряд – значения непрерывного признака задаются интервалами, которые характеризуются интервальной частотой т.

Вариационный анализ предназначен для проверки того, существенно ли влияет изменение независимых переменных на зависимые. Например, данный метод используется для ответов на следующие вопросы:

  • влияет ли вид рекламы на объем продаж;
  • влияет ли цвет рекламного объявления на количество людей, вспомнивших рекламу;
  • влияет ли выбор сбытовой политики на величину продаж?

Статистическая проверка значимости результатов маркетинговых исследований .

В процессе анализа данных у исследователя регулярно возникает вопрос: достаточно ли значимы результаты исследования? Другими словами, может ли результат объясняться тем, что в выборку попали респонденты, которые нс представляют генеральную совокупность в целом? Для ответа на этот вопрос используют статистические гипотезы.

Гипотезы – это предположения или теории, которые исследователь выдвигает относительно некоторых характеристик генеральной совокупности, подлежащей обследованию. Пользуясь статистическими приемами, исследователь пытается установить, существует ли эмпирическое доказательство, подтверждающее выдвинутые гипотезы. Проверка статистических гипотез позволяет рассчитать вероятность наступления какого-либо события. Но в условиях отсутствия полной всесторонней информации (что естественно в случаях использования данных выборки) всегда есть некоторая вероятность и ошибочного заключения.

Выдвижение гипотезы (нулевой или альтернативной). Нулевая гипотеза (H 0), называемая также гипотезой status quo, представляет собой утверждение, в котором исследователь констатирует факт отсутствия каких-либо отличий либо влияний в исходных данных. Она предназначена для определения согласованности исходных данных с выдвинутым предположением. Исследователю необходимо сформулировать нулевую гипотезу так, чтобы отказ от нее приводил к желательному заключению. Например, предприятие рассматривает возможность разработки нового товара и выведения его на рынок. Для принятия положительного решения необходимо, чтобы объем продаж увеличился на 20%. Выдвинем следующее предположение: объем продаж увеличится менее чем на 20%. Это предположение и называется нулевой гипотезой и обозначается как Н 0: Р ≤ 0,20.

Альтернативная гипотеза (H a) предназначена для определения согласованности данных с нулевой гипотезой и опровергает ее. В нашем примере против нулевой гипотезы можно выдвинуть альтернативную гипотезу вида Н а: Р > 0,20.

Если данные проверки гипотезы приводят к отказу от нулевой гипотезы, то принимается альтернативная гипотеза, в соответствии с которой можно ожидать увеличения объема продаж на 20%.

Существует множество методов для проверки статистических гипотез, основные методы перечислены в табл. 3.10 и впоследствии описаны с примерами.

Таблица 3.10

Статистические критерии для проверки статистических гипотез

Область применения

Число подгрупп или выборочных совокупностей

Виды шкал

Критерий

Специальные требования

Гипотезы о частоте распределения

Номинальная

Случайная

Случайны или нет наблюдаемые различия в ответах респондентов

Две и более

Номинальная

Случайная выборка, независимые выборки

Случайны или нет различия в численности мужчин и женщин, реагирующих на продвижение товара

Порядковая

Случайная выборка, естественный порядок данных

Случайно или нет распределение женщин, отдающих предпочтение определенному цвету туши (от темного до светлого)

Гипотезы о средних величинах

Одна (большая выборка)

Метрическая (интервальная или относительная)

Z-Критерий для одной средней

Случайная выборка, п > 30

Случайно или нет наблюдаемое различие между выборочной оценкой средней и стандартной или ожидаемой величиной средней

Одна (малая выборка)

t- Критерий для одной средней

Случайная выборка, n < 30

Случайно или нет наблюдаемое различие между выборочной оценкой средней и стандартной или ожидаемой величиной средней. Применяется для малой выборки

Две (большие выборки)

Z-Критерий для двух средних

Случайная выборка, п > 30

Случайно или нет наблюдаемое различие между средними для двух подгрупп (средний доходу мужчин и женщин)

Две (малые выборки)

ANOVA (анализ вариации)

Случайная

Случайна или нет вариация между средними для трех и более подгрупп (средняя величина расходов на развлечения для различных социальных групп)

Гипотезы о пропорциях

Одна (большая выборка)

Z- Критерий для одной пропорции

Случайная выборка, п > 30

Случайно или нет различие между выборочной оценкой пропорций и некоторой группой стандартных или ожидаемых оценок (процентом тех, кто собирается купить данный товар)

Две (большие выборки)

Z- Критерий для двух пропорций

Случайно или нет наблюдаемое различие между оцениваемыми пропорциями для двух подгрупп (процентом мужчин и женщин, которые имеют высшее образование)

Перед тем как разобрать основные критерии для проверки статистических критериев, нужно установить правила принятия решений. Правила принятия решения необходимы для того, чтобы подтвердить или опровергнуть нулевую гипотезу. Эти правила в статистике называются "уровнями значимости" (а). Они являются показателями качества статистической проверки гипотез и характеризуют вероятность ошибочного заключения. А поскольку всякое решение, принимаемое на основе ограниченного ряда наблюдений, неизбежно сопровождается вероятностью ошибочного решения, важно определить, насколько велика эта вероятность. На практике часто пользуются следующими стандартными значениями а: 0,1; 0,05; 0,01; 0,005; 0,001. При фиксированном объеме выборки обычно задается величина а – вероятность ошибочного отвержения проверяемой гипотезы Н 0.

Критерии для проверки гипотез о средних величинах (Z-критерий и t -критерий). Одной из важных проблем в маркетинговых исследованиях является определение средней величины для генеральной совокупности на основе выборочных данных. Соответствующая статистическая проверка гипотезы о средней величине осуществляется с помощью Z-критерия, который используется в случае, если выборка достаточно большая (п > 30). Для малой выборки (п < 30) используется ί-критерий Стьюдента с (п – 1) степенями свободы (п – объем выборки). Для проверки гипотез о двух и более выборочных средних производится оценка различий между средними величинами.

t -Критерий для одной выборки

t -Критерий (t-test) – одномерный метод проверки гипотез, использующий ί-распределение. Применяется, если стандартное отклонение неизвестно и размер выборки мал.

t -Распределение (t-statistic ) – распределение Стьюдента, симметричное колоколоподобное распределение, используемое для проверки выборок небольшого размера. При большом количестве наблюдений стремится к нормальному распределению.

t -Критерий для одной выборки позволяет проверить гипотезу о равенстве выборочного среднего некоторому заданному числу.

В так называемых одновыборочных t -критериях наблюдаемое среднее X (вычисленное по реализации выборки) сравнивается с ожидаемым (или эталонным) средним выборки μ (т.е. с некоторым теоретическим средним):

Статистика критерия:

имеет t -распределение Стьюдента с (п – 1) степенью свободы.

Выборочное стандартное отклонение s оценивается по наблюдаемой реализации выборки:

Вычисленное значение t проверяют на предмет попадания в критическую область (критическое значение можно найти по таблицам). Если вычисленное значение t попадает в критическую область, то говорят, что H 0 отвергается на уровне а в пользу альтернативы.

Например, пусть установлены некоторые фиксированные показатели эффективности деятельности торговой компании: уровень рентабельности товарооборота – 20%. Таким образом, имея данные о рентабельности (скажем, по месяцам), мы можем применить одновыборочный f-критерий для проверки гипотезы о равенстве среднего уровня рентабельности заданному значению.

Отметим, что в данном случае необходимо применить односторонний критерий, так как нарушение эффективности коммерческой деятельности произойдет только в случае снижения показателя рентабельности относительно нормативного.

Пример . Случайным образом в городе были отобраны десять магазинов. Им был предложен для продажи в течение определенного промежутка времени новый безалкогольный напиток. Компания рассчитывала на продажу 100 бутылок нового напитка в день в каждом магазине. Только в этом случае ожидаемая прибыль оправдает расходы на продвижение нового товара (табл. 3.11).

Таблица 3.11

Фактические данные об объемах продаж магазинов

Номер магазина

Средний объем продаж магазина х i

Отклонение от продаж в день

Квадрат отклонения средней величины

1. Выдвигаем нулевую и альтернативную гипотезы:

H 0: М < 100 бутылок (М – средний объем продаж в магазине за неделю).

H 1 : М > 100 бутылок.

  • 2. Установление допустимого уровня ошибки выборки (σ). Для σ = 0,05 и количеству степеней свободы 10-1=9 табличное (критическое) значение t= 2,2622.
  • 3. Расчитываем стандартное отклонение:

4. Расчет стандартной ошибки:

5. Расчет t -критерия:

t -Критерий для двух независимых выборок

t -Критерий для двух независимых выборок (двухвыборочный f-критерий) проверяет гипотезу о равенстве средних в двух выборках (предполагается нормальность распределения переменных, а также равенство дисперсий выборок). Критерий применяется, например, если необходимо сравнить два региона по доходу на душу населения.

Алгоритм принятия решения об отклонении или не отклонении нулевой гипотезы аналогичен рассмотренному выше (одновыборочный t -критерий)

t -Критерий для двух зависимых выборок

t -Критерий для двух зависимых (парных) выборок применяется, например, для оценки эффективности работы предприятия в разные годы или после каких-то нововведений. Нулевая гипотеза также гласит об отсутствии различий (среднее значение разности наблюдений в двух группах равно нулю).

Алгоритм принятия решения об отклонении или не отклонении нулевой гипотезы аналогичен рассмотренному выше.

Z-Критерий для одной выборки

Для выводов относительно средней величины в генеральной совокупности на основе данных выборки можно использовать Z-критерий, если соблюдаются два условия:

  • 1) распределение переменной в генеральной совокупности является нормальным;
  • 2) объем выборки достаточно большой.

Z-Критерий основан на стандартном нормальном распределении и рассчитывается следующим образом:

где – выборочная средняя; X – генеральная средняя по Н 0; S x – стандартная ошибка оценки средней величины.

При этом средняя ошибка оценки равна

Стандартное отклонение где п – объем выборки.

Пример. Один из салонов красоты провел исследование по 500 клиентам, которым предложили сравнить обслуживание в данном салоне с другими, функционирующими в этом же городе. Респонденты могли выбрать следующие ответы

Средний балл, рассчитанный по данным ответов респондентов, оказался равен 3,5, со среднеквадратическим отклонением 1,5. Может ли менеджер быть уверен в том, что в генеральной совокупности средний балл обслуживания будет не ниже 3 (средний балл по используемой шкале)?

Н 0: М ≤ 3 (М – оценка по используемой шкале),

Н 0:М> 3.

  • 2. Установление допустимого уровня ошибки выборки (σ). Для σ = 0,05 табличное значение Z-критерия равно 1,64.
  • 3. Выборочное среднеквадратическое отклонение: у х = 1,5.
  • 4. Расчет стандартной ошибки оценки генеральной средней

по формуле

5. Расчет Z-критерия:

6. Принятие решения о нулевой гипотезе: нулевая гипотеза может быть отвергнута, так как расчетная величина Ζ = 7,454 больше, чем критическая величина Ζ = 1,64. Менеджер может быть уверен в том, что средняя оценка обслуживания выше, чем 3.

Ζ-Критерий для двух независимых выборок

ЛПР часто бывают заинтересованы в проверке различий между группами покупателей. Если выборки сформированы случайным образом и данные одной выборки не оказывают влияния на значения другой, то такие выборки считают независимыми. В практическом маркетинге гипотезы о параметрах двух выборок используются для определения значимости различий между потребителями и теми, кто не употребляет (не использует) товар определенной торговой марки; или различий в потреблении между двумя группами людей (мужчин и женщин, городским и сельским населением, людьми с высокими и низкими доходами, холостыми и семейными, работающими и пенсионерами, жителями двух стран и др.).

Для проверки значимости различий используют Z-критерий:

где – разница между средними в первой и второй выборках; – разница между средними по нулевой гипотезе; – стандартная ошибка различий между двумя средними.

При этом стандартная ошибка рассчитывается исходя из среднеквадратических отклонений по отдельным группам:

Пример . Менеджер одного из магазинов самообслуживания был уверен, что мужчины чаще посещают магазин, чем женщины. Для иллюстрации проверки гипотез о двух средних величинах вернемся к данным о 215 посетителях магазина (табл. 3.12).

Таблица 3.12

Исходные данные для проверки различий между двумя независимыми выборками

1. Выдвижение нулевой и альтернативной гипотез:

H 0: Х т – X f 0, среднее число посещений магазина мужчинами т) такое же или меньше, чем среднее число посещений магазина женщинами (X f). Другими словами, мужчины реже посещают этот магазин, чем женщины;

H 1: Х т – X f > 0, среднее число посещений магазина мужчинами выше, чем число посещений магазина женщинами.

2. Определение фактических различий в средних значениях показателей:

  • 3. Выбор уровня ошибки выборки ). Предположим, что допустимый уровень ошибки выборки в данном случае равен 0,05. Табличное значение Z-критерия для уровня значимости 0,05 равно 1,6449.
  • 4. Среднеквадратическое отклонение составит:
    • для мужчин

для женщин

5. Расчет стандартной ошибки различий между двумя средними величинами по формуле

6. Расчет статистики Z-критерия:

7. Формулирование выводов. Расчетное значение величины Z = 2,782 больше, чем критическое значение Z = 1,64. Нулевая гипотеза отвергается. Менеджер может сделать вывод с вероятностью 95% о том, что в среднем мужчины чаще посещают магазины самообслуживания, чем женщины.

Критерии согласия: -критерий для одной выборки

Для оценки случайности или существенности расхождений между частотами эмпирического и теоретического распределений используется ряд показателей, именуемых критериями согласия. Одним из основных и наиболее распространенных показателей является критерий, предложенный К. Пирсоном:

где – наблюдаемая частота в каждой категории; – ожидаемая частота.

К. Пирсоном найдено распределение величины и составлены таблицы, позволяющие определить предельное верхнее значение при заданном уровне значимости и числе степеней свободы, значение которого в общем случае равно количеству наблюдений за вычетом числа ограничений, необходимых для расчета статистической характеристики. Если фактическое значение меньше табличного, то расхождения между эмпирическими и теоретическими частотами считают случайными, а гипотезу о принятом законе распределения принимают.

Пример . Менеджеру магазина электронной техники необходимо проверить эффективность трех мероприятий, проводимых в магазине с целью привлечения покупателей. Он хотел бы оценить эффект каждого мероприятия по числу покупателей магазина по следующим данным.

Менеджер должен выяснить, существенны ли различия между числом посетителей магазина в различные периоды времени. На этот вопрос позволяет ответить критерий . Обратимся к последовательности проведения расчета в соответствии с рассмотренным ранее процессом проверки гипотез:

1) выдвигаются нулевая и альтернативная гипотезы:

Н 0: число посетителей магазина во время проведения трех мероприятий одинаковое,

H 1: существует значительная разница в численности посетителей магазина во время проводимых мероприятий;

2) определяется ожидаемое (теоретическое) число посетителей в случае, если нулевая гипотеза верна. Естественно предположить, что численность посетителей должна быть одинакова при условии отсутствия влияния других факторов.

Ожидаемое число посетителей можно определить по формуле

3) рассчитывается величина χ2:

Критерии согласия:-критерий для двух независимых выборок

Маркетинговым исследователям часто бывает необходимо определить, существует ли связь между двумя и более переменными. Чтобы сформулировать маркетинговую стратегию, необходимо найти ответ на вопросы: существуют ли различия в группировках мужчин и женщин на активных, умеренных и слабых потребителей или одинакова ли доля респондентов, покупающих и не покупающих данный товар, в группах с низким, средним и высоким доходом. В описанных ситуациях обычно используется -критерий для двух независимых выборок:

где – наблюдаемое число в каждой i -й строке j -ого столбца; – ожидаемое число в i -й строке j- ого столбца.

Пример. Менеджеру необходимо определить природу связи, если она есть, между полом покупателей и частотой посещения магазинов. Частота посещения магазинов изучалась в трех категориях:

  • 1) 1–5 посещений в месяц – слабые потребители;
  • 2) 6–14 посещений – умеренные потребители;
  • 3) 15 и более раз – активные потребители.

Исходные данные приведены в табл. 3.12.

Среднее число посещений магазина мужчинами:

Среднее число посещений магазина женщинами:

Для проведения теста необходимо:

1) сформулировать нулевую и альтернативную гипотезы:

H 0: между полом и частотой посещения магазина связи нет;

H 1: связь между двумя переменными существенна;

2) определить ожидаемые частоты для каждой группы, попавшей в исследование, используя итоговые данные по соответствующим строкам и столбцам (табл. 3.13);

Таблица 3.13

Расчет ожидаемых (теоретических) частот

4) сравнить табличное значение с расчетным (теоретическим). Табличное значение (для уровня значимости 0,05 и степеней свободы) равно 5,991. Так как расчетное значение (= 13,35) больше, чем табличная величина,

нулевая гипотеза отвергается, и можно сделать вывод о том, что существуют различия между мужчинами и женщинами по частоте посещения магазина.

Критерий Колмогорова – Смирнова

Критерий Колмогорова – Смирнова предполагает определение эмпирических накопленных частостей (долей) и сравнение их с теоретическими частостями. Он используется в тех случаях, когда исходные данные упорядочены. Точка, в которой два распределения будут иметь максимальное расхождение (по модулю), может быть использована в качестве расчетного критерия, обозначаемого черези определяемого по формуле

где – накопленные частости (доли) эмпирического распределения; – накопленные частости теоретического распределения. Величина , рассчитанная по данным выборки, сравнивается с критическим значением :

где λ – критерий Колмогорова – Смирнова, соответствующий заданному уровню значимости α, и – размер выборки.

Различным значениям соответствуют различные значения вероятностей. Эти показатели табулированы. При уровне значимости а = 0,05 значение λ для большой выборки равно 1,36. Как и для показателя χ2, считается вполне допустимым рассматривать расхождения между эмпирическими и теоретическими частотами случайными, если фактическое значение D„ меньше критического значения Экрит.

Пример . Предположим, производителя красок интересует мнение потребителей о пяти новых оттенках цветов синей краски (табл. 3.14). Производителю важно знать, отдают ли потребители предпочтение какому-либо из цветов. В ходе обследования были опрошены 1000 респондентов.

Таблица 3.14

Результаты опроса респондентов относительно их предпочтений

Задача состоит в том, чтобы определить, случайно ли были отобраны цвета респондентами или приведенные данные характеризуют значительное предпочтение светлых цветов.

Тест Колмогорова – Смирнова включает следующие этапы:

1) определение нулевой и альтернативной гипотез:

Н 0: потребители не отдают предпочтение ни одному из оттенков;

Н 1: предпочтения потребителей существенны;

  • 2) расчет теоретических накопленных частостей, соответствующих нулевой гипотезе. Нулевая гипотеза заключается в том, что не существует разницы в предпочтениях потребителей для различных оттенков нового цвета. Если это так, то доля лиц, отдающих предпочтение каждому из оттенков, должна быть равна 1/5 (или 0,2);
  • 3) расчет эмпирических накопленных частостей по данным выборки.

В табл. 3.15 приведены необходимые для расчета критерия данные.

Таблица 3.15

Данные для расчета критерия Колмогорова – Смирнова

4) выбор уровня значимости α.

При уровне значимости критическое значение λ равно 1,36, следовательно, для большой выборки определяется по формуле

5) определение фактического значения D n, равного максимальному абсолютному отклонению между теоретическими и эмпирическими частостями.

Наибольшая абсолютная разность равна 0,24, которая и является величиной D n по критерию Колмогорова – Смирнова;

6) сравнение расчетного значения D n и критического значения . Принятие решения о нулевой гипотезе.

Так как расчетное значение превосходит критическое значение , нулевая гипотеза об отсутствии предпочтений отвергается: респонденты предпочитают светлые тона.

3.4.3.2. Многомерные статистические методы

Многомерные статистические методы прекрасно подходят для анализа данных, если для оценки данных каждого элемента выборки используются два или больше измерителей, а эти переменные анализируются одновременно. Многомерные методы отличаются от одномерных прежде всего тем, что при их использовании центр внимания смещается с уровня (средних показателей) и распределений (дисперсий) явлений и сосредоточиваются на степени взаимосвязи (корреляции или ковариации) между этими явлениями.

Многомерные статистические методы (multivariate techniques) – методы статистического анализа, применяемые для анализа данных, если для оценки каждого элемента выборки используются два или больше измерителя и эти переменные анализируются одновременно (рис. 3.10). Данные методы применяются для определения одновременных взаимосвязей между двумя или больше явлениями.

Рис. 3.10.

Кросс-табуляция (cross-tabulation ) – статистический метод, при котором одновременно характеризуются значения двух или более переменных. Кросс-табуляция заключается в создании таблиц сопряженности признаков, отражающих совместное распределение двух или более переменных с ограниченным количеством категорий или определенными значениями.

Дисперсионный анализ (variance analysis) – метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путем исследования значимости различий в средних значениях. В отличие от t-критерия позволяет сравнивать средние значения грех и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (ANalysis Of VAriance ).

Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

  • 1) вариативность, обусловленную действием каждой из исследуемых независимых переменных;
  • 2) вариативность, обусловленную взаимодействием исследуемых независимых переменных;
  • 3) вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

Ковариационный анализ (analysis of covariance) – тесно связанный с дисперсионным анализом статистический метод, в котором зависимая переменная статистически корректируется на основе связанной с ней дополнительной информации, с тем чтобы устранить вносимую извне изменчивость и таким образом повысить эффективность анализа.

Дискриминантный анализ (discriminant analysis) – метод для анализа данных маркетинговых исследований в том случае, когда зависимая переменная категориальная, а предикторы (независимые переменные) интервальные. Цель дискриминантного анализа – это различение (дискриминация) объектов наблюдения на классы по заранее определенным признакам.

Регрессионный анализ (regression analysis) – статистический метод исследования влияния одной или нескольких независимых переменных х 1, х 2, ..., x p на зависимую переменную у. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные – критериальными. Цели регрессионного анализа:

  • определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными);
  • предсказание значения зависимой переменной с помощью независимой (независимых);
  • определение вклада отдельных независимых переменных в вариацию зависимой.

Корреляционный анализ (correlation analysis) – статистический метод, выявляющий взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Цель корреляционного анализа – обеспечить получение некоторой информации об одной переменной с помощью другой переменной.

Факторный анализ (factor analysis) – метод многомерной математической статистики, применяемый при исследовании статистически связанных признаков с целью выявления определенного числа скрытых от непосредственного наблюдения факторов. Цель факторного анализа – наблюдая большое число измеряемых переменных, выявить небольшое число латентных макропеременных-факторов, которые в основном определяют поведение измеряемых переменных.

Кластерный анализ (cluster analysis ) – многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Цель кластерного анализа – разбиение наблюдений, респондентов (строк матрицы данных) на относительно однородные кластеры, исходя из рассматриваемого набора переменных, таким образом, что в один кластер попадают схожие, близкие, а в разные – далекие друг от друга наблюдения.

Многомерное шкалирование (multidimensional scaling) метод анализа данных, позволяющий располагать точки, соответствующие изучаемым объектам (шкалируемые объекты), в некотором (как правило, евклидовом) многомерном "признаковом" пространстве, так, чтобы попарные расстояния между точками в этом пространстве как можно меньше отличались от эмпирически измеренных попарных мер "близости" этих изучаемых объектов. Каждой оси этого пространства соответствует шкала, например интервальная. Критерий отличия этих двух величин называется функцией стресса. Если элементы матрицы близостей получены по интервальным шкалам, метод многомерного шкалирования называется метрическим. Когда аналогичные шкалы являются порядковыми, метод многомерного шкалирования называется неметрическим. Цель многомерного шкалирования – поиск и интерпретация "латентных (т.е. непосредственно не наблюдаемых) переменных", дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков.

Выбор определенного метода анализа зависит, кроме характера и направлений связей с переменными и уровня шкалирования, от решаемой проблемы. В табл. 3.16 представлены рекомендации по выбору метода анализа для решения типичных задач маркетинга в компании.

Многомерный статистический анализ – это трудоемкий процесс, который фактически невозможно провести без статистических программных продуктов. Существует около тысячи распространяемых на мировом рынке пакетов, решающих в том или ином поле задачи статистического анализа данных. Большую часть статистических пакетов можно разбить на две группы – это статистические пакеты общего назначения (универсальные пакеты) и специализированные пакеты.

Типичная постановка вопроса

Корреляционный и регрессионный анализ

  • Как изменится объем продаж, если расходы на рекламу сократятся на 10%?
  • Какие характеристики товара интересны данной группе потребителей?
  • Какие характеристики товара можно объединить в один фактор?
  • Какова будет цепа на услугу в следующем году?

Дискриминационный анализ

  • Как разделить потребителей на группы внутри кластера?
  • Какие характеристики работников службы маркетинга наиболее существенны для их деления на преуспевающих и неудачников?
  • Можно ли определенного человека, учитывая его возраст, доход, образование, считать достаточно надежным для выдачи кредита?

Факторный анализ

  • Можно ли сократить множество характеристик, которые клиенты компании считают важным, до небольшого количества?
  • Как можно описать различные компании с точки зрения этих факторов?

Кластерный анализ

  • Можно ли клиентов разделить на группы по их потребностям?
  • Имеет ли компания различные типы клиентов?
  • Имеет ли газета различные типы читателей?
  • Как можно классифицировать клиентов по тому, какие виды вкладов их интересуют?

Многомерное шкалирование

  • Насколько продукт или компания соответствует "идеалу" клиента?
  • Какой имидж имеет компания?
  • Как изменилось отношение клиента к продукту" в течение ряда лет?

Универсальные пакеты – предлагают широкий диапазон статистических методов. В них отсутствует ориентация на конкретную предметную область. Они обладают дружественным интерфейсом. Из зарубежных универсатьных пакетов наиболее распространены В AS, SPSS, Systat, Minilab, Statgraphics, STATISTICA.

Специализированные пакеты – как правило, реализуют несколько статистических методов или методы, применяемые в конкретной предметной области. Чаще всего это системы, ориентированные на анализ временны́х рядов, корреляционно-регресионный, факторный или кластерный анализ. Применять такие пакеты целесообразно в тех случаях, когда требуется систематически решать задачи из этой области, для которой предназначен специализированный пакет, а возможностей пакетов общего назначения недостаточно. Из российских пакетов более известны STADIA, Олимп, Класс-Мастер, КВАЗАР, Статистик-Консультант; американские пакеты – ODA, WinSTAT, Static и т.д.

Стандартные статистические методы обработки данных включены в состав электронных таблиц, таких как Excel, Lotus 1-2-3, QuattroPro, и в математические пакеты общего назначения, например Mathcad.