Градусы, часы и километры: интервальные данные

Глава 3. Типы данных

3.1. Градусы, часы и километры: интервальные данные

Очень важно, что температура и расстояние изменяются плавно и непрерывно. Это значит, что если у нас есть две разные температу- ры, то всегда можно представить температуру, промежуточную между ними. Любые два показателя температуры или расстояния представля- ют собой интервал, куда «умещается» бесконечное множество других показателей. Поэтому такие данные и называютсяинтервальными. Ин- тервальные данные чаще всего сравнивают с хорошо известной нам из курса математики числовой прямой, на которой расположены так на- зываемые действительные (или, как их еще называют, вещественные) числа. Можно еще вспомнить о рациональных числах — то есть таких числах, которые можно представить в виде дроби. И те, и другие очень близки по своей сути к интервальным данным.

Не всегда, однако, интервальные данные изменяются плавно и непре- рывно, от (как говорят математики) плюс бесконечности к минус беско- нечности. Пример перед глазами: температура соответствует не прямой, а лучу, потому что со стороны отрицательной (слева) она ограничена абсолютным нулем, ниже которого температуры просто не бывает. Но на остальном протяжении этого луча показатели температуры мож- но уподобить действительным числам. Еще интереснее измерять углы.

Угол изменяется непрерывно, но вот после 359^◦ следует 0^◦ — вместо прямой имеем отрезок без отрицательных значений. Есть даже особый раздел статистики, так называемая круговая статистика (directional, or circular statistics), которая работает с углами.

А вот другая ситуация. Допустим, мы считаем посетителей магази- на. Понятно, что если в один день в магазин зашло 947 человек, а в другой — 832, то очень легко представить промежуточные значения. К тому же очевидно, что в первый день в магазине было больше народа.

Однако если взять два «соседних» числа, например 832 и 831, то про- межуточное значение представить нельзя, потому что люди на части не делятся. Получается, что такие данные соответствуют не действитель- ным, а скорее натуральным числам. У этих чисел тоже есть отношение порядка, но вот промежуточное значение есть не всегда. И отрицатель- ных значений у них нет. Перед нами — другой тип интервальных дан- ных, не непрерывный, а дискретный.

С интервальностью и непрерывностью данных неразрывно связан важный водораздел в методах статистики. Эти методы часто делят на две большие группы: параметрические и непараметрические.Парамет- рические тесты предназначены для обработки так называемых пара- метрических данных. Для того чтобы данные считались параметриче- скими, должны одновременно выполняться три условия:

1) распределение данных близко кнормальному (незнакомые терми- ны можно посмотреть в словаре);

2) выборка — большая (обычно не менее 30 наблюдений);

3) данные — интервальные непрерывные.

Если хотя бы одно из этих условий не выполняется, данные счи- таются непараметрическими и обрабатываются непараметрическими методами. Несомненным достоинством непараметрических методов яв- ляется, как ни банально это звучит, их способность работать с непара- метрическими (то есть «неидеальными») данными. Зато параметриче- ские методы имеют большую мощность (то есть при прочих равных⁰ вероятность не заметить существующую закономерность выше). Этому есть простое объяснение: непараметрические данные (если они, как это

очень часто бывает, дискретны) имеют свойство «скрывать» имеющие- ся различия, объединяя отдельные значения в группы.

Так как параметрические методы доступнее непараметрических (на- пример, в курсах статистики изучают в основном параметрические ме- тоды), то часто хочется как-нибудь «параметризировать» данные. На распределение данных мы, естественно, никак повлиять не можем (хотя иногда преобразования данных могут «улучшить» распределение и да- же сделать его нормальным — об этом написано ниже). Что мы можем сделать, так это постараться иметь достаточно большой объем выборки (что, как вы помните, увеличивает и ее репрезентативность), а также работать с непрерывными данными.

ВR интервальные данные представляют в виде числовых векторов (numerical vectors). Чаще всего один вектор — это одна выборка. Допус- тим, у нас есть данные о росте семи сотрудников небольшой компании.

Вот так можно создать из этих данных простейший числовой вектор:

> x <- c(174, 162, 188, 192, 165, 168, 172.5)

x — это имя объекта R, «<-» — функция присвоения,c() — функ- ция создания вектора (от англ. concatenate, собрать). Собственно, R и работает в основном с объектами и функциями. У объекта может быть своя структура:

> str(x)

num [1:7] 174 162 188 192 165 168 172.5

То есть x — это числовой (num, «numeric») вектор. В R нет так на- зываемых скаляров, «одиночные» объекты трактуются как векторы из одного элемента. Вот так можно проверить, вектор ли перед нами:

> is.vector(x) [1] TRUE

Вообще говоря, в R есть множество функций «is.что-то()» для подобной проверки, например:

> is.numeric(x) [1] TRUE

А еще есть функции конверсии «as.что-то()», с которыми мы по- работаем ниже. Называть объекты можно в принципе как угодно, но лучше придерживаться некоторых правил:

1. Использовать для названий только латинские буквы, цифры и точку (имена объектов не должны начинаться с точки или циф- ры).

2. Помнить, чтоRчувствителен к регистру,Xиx— это разные имена.

3. Не давать объектам имена, уже занятые распространенными функ- циями (типаc()), а также ключевыми словами (особенно T,F,NA, NaN,Inf,NULL, а такжеpi — единственное встроенное вRчисло).

Для создания «искусственных» векторов очень полезен оператор

«:», обозначающий интервал, а также функции создания последова- тельностей («sequences»)seq() и повторения («replications»)rep().

3.2. «Садись, двойка»: шкальные данные

Если интервальные данные можно получить непосредственно (на- пример, посчитать) или при помощи приборов (измерить), то шкальные данные не так просто сопоставить числам. Предположим, нам надо со- ставить, а затем проанализировать данные опросов об удобстве мебели.

Ясно, что «удобство» — вещь субъективная, но игнорировать ее нель- зя, надо что-то с ней сделать. Как правило, «что-то» — это шкала, где каждому баллу соответствует определенное описание, которое и вклю- чается в опрос. Кроме того, в такой шкале все баллы часто можно ран- жировать, в нашем случае — от наименее удобной мебели к наиболее удобной.

Число, которым обозначено значение шкалы,— вещь более чем услов- ная. По сути, можно взять любое число. Зато есть отношение порядка и, более того, подобие непрерывности. Например, если удобную во всех от- ношениях мебель мы станем обозначать цифрой «5», а несколько менее удобную — цифрой «4», то в принципе можно представить, какая мебель могла бы быть обозначена цифрой «4.5». Именно поэтому к шкальным данным применимы очень многие из тех методов, которые используют- ся для обработки интервальных непрерывных данных. Однако к чис- ловым результатам обработки надо подходить с осторожностью, всегда помнить об условности значений шкалы.

Больше всего трудностей возникает, когда данные измерены в раз- ных шкалах. Разные шкалы часто очень нелегко перевести друг в друга.

По умолчаниюRбудет распознавать шкальные данные как обычный числовой вектор. Однако для некоторых задач может потребоваться преобразовать его в так называемый упорядоченный фактор («ordered factor» — см. ниже). Если же стоит задача создать шкальные дан-

ные из интервальных, то можно воспользоваться функцией cut(..., ordered=TRUE).

Для статистического анализа шкальных данных всегда требуются непараметрические методы. Если же хочется применить параметриче- ские методы, то нужно иначе спланировать сбор данных, чтобы в ре- зультате получить интервальные данные. Например, при исследовани- ях размеров листьев не делить их визуально на «маленькие», «средние»

и «большие», а измерить их длину и ширину при помощи линейки. Од- нако иногда сбор непрерывных данных требует использования трудно- доступного оборудования и сложных методик (например, если вы ре- шите исследовать окраску цветков как непрерывную переменную, вам понадобится спектрофотометр для измерения длины волны отражен- ного света — количественного выражения видимого цвета). В этом слу- чае можно выйти из положения путем последующего перекодирования данных на стадии их обработки. Например, цвет можно закодировать в значениях красного, зеленого и синего каналов компьютерной цветовой шкалы RGB.

Вот еще один пример перекодирования. Предположим, вы изучае- те высоту зданий в различных городах земного шара. Можно в графе

«город» написать его название (номинальные данные). Это, конечно, проще всего, но тогда вы не сможете использовать эту переменную в статистическом анализе данных. Можно закодировать города цифрами в порядке их расположения, например с севера на юг (если вас инте- ресует географическая изменчивость высоты зданий в городе),— тогда получатся шкальные данные, которые можно обработать непараметри- ческими методами. И наконец, каждый город можно обозначить его географическими координатами или расстоянием от самого южного го- рода — тогда мы получим интервальные данные, которые можно будет попробовать обработать параметрическими методами.

3.3. Красный, желтый, зеленый: номинальные

Dalam dokumen Shipunov-rbook.pdf (Halaman 45-49)