• Tidak ada hasil yang ditemukan

Shipunov-rbook.pdf

N/A
N/A
Nguyễn Gia Hào

Academic year: 2023

Membagikan "Shipunov-rbook.pdf"

Copied!
296
0
0

Teks penuh

Что такое данные и зачем их обрабатывать?

Откуда берутся данные

Генеральная совокупность и выборка

Как получать данные

Что ищут в данных

Как обрабатывать данные

Неспециализированные программы

Специализированные статистические программы

  • Оконно-кнопочные системы
  • Статистические среды

Отдельно стоит упомянуть StatGraphics, доступную в России со времен господства MS-DOS, а теперь обзаведшуюся развитым графическим интерфейсом и ставшую сопоставимой с другими программами этой группы.

Из истории S и R

По задумке создателей (ими были Роберт Джентльман и Росс Ихака) это должна была быть новая реализация языка S, отличающаяся от S-Plus некоторыми деталями, такими как обработка глобальных и локальных переменных и работа с памятью. По сути, они создали не аналог S-Plus, а новую «ветвь» на «S-дереве» (многие вещи, отличающие R от S-Plus, обусловлены влиянием языка Scheme).

Применение, преимущества и недостатки R

Как скачать и установить R

Здесь интересно отметить, что установка Windows R является, как сейчас говорят, «портативной» и может запускаться, например, с флэшки или лазерного диска. R вносит в реестр ряд записей, но они совершенно не критичны для его работы. Еще один важный момент для всех операционных систем: R (в отличие от S-Plus) хранит все свои расчеты в оперативной памяти, поэтому, если, например, во время использования отключится питание, результаты сеанса, не записанные явно в записанные файлы будут потеряны. Следует отметить, что существует пакет SOAR, который меняет это поведение.).

Как начать работать в R

  • Запуск
  • Первые шаги

Если терминал запустить в UNIX без графической среды (X11), то все изображения будут «выкинуты» в один многостраничный PDF-файл Rplots.pdf. На Mac это произойдет, даже если запущен X11, поэтому единственный способ полноценно использовать R на Mac — это версия с графическим интерфейсом. В дальнейшем договоримся, что под «сессией R» мы подразумеваем запуск терминала под X11 на Linux и запуск GUI на Windows и Mac.

Интересно, что у S-Plus очень приличный графический интерфейс, но если вы откроете учебник по этой системе, то увидите, что авторы настоятельно рекомендуют использовать командную строку.

R и работа с данными: вид снаружи

  • Как загружать данные
  • Как сохранять результаты
  • R как калькулятор
  • Графики
  • Графические устройства
  • Графические опции
  • Интерактивная графика

В общем, есть две важные вещи, которые вам нужно знать о матрицах в R — во-первых, что они могут быть разной размерности, и, во-вторых, что на самом деле матриц в R нет. Вы также можете выполнить тест соотношения сторон на двух образцах, используя ту же функцию prop.test() (для соотношения сторон текста двух образцов), а также mcnemar.test() (для теста Макнемара, который выполняется, когда образцы коррелирует). Например, если два сравниваемых образца записаны в первом и втором столбцах таблицы данных, команда будет t.test(data[1], data[2]).

Последнее условие можно обойти с помощью функции oneway.test(), которая по умолчанию не предполагает равенство спредов. Если вам не нравятся эти две пары квадратных скобок, вы можете сделать это еще проще (хотя и более утомительно) и вернуться к исходному shapiro.test(): . См. предыдущую главу, чтобы узнать, какова альтернативная гипотеза в этом тесте.). Текстовый файл Leaf2-4.txt в каталоге данных содержит результаты трехдневных непрерывных наблюдений за хищной росянкой.

Что, если мы создадим файл, который будет содержать код R, смешанный с текстовыми комментариями, а затем. «кормить» этот R-файл, чтобы фрагменты кода были заменены результатом их выполнения. Укажите каталог, в котором находится ваш файл данных, с помощью меню: Файл -> Изменить папку -> выберите каталог или введите команду setwd(..) команда, аргумент которой должен содержать полный путь к вашему каталогу (для указания пути необходимо использовать косую черту).

Типы данных

Градусы, часы и километры: интервальные данные

Красный, желтый, зеленый: номинальные данные

При загрузке файла данных с помощью команды read.table() все столбцы, содержащие хотя бы одно нечисловое значение, будут преобразованы в коэффициенты. Если вы хотите избежать этого (например, не столкнуться с описанной выше проблемой), вам следует установить дополнительный параметр: read.table(.., as.is=TRUE).

Доли, счет и ранги: вторичные данные

Если вы хотите этого избежать (например, избежать описанной выше проблемы), то вам необходимо установить дополнительный параметр: read.table(.., as.is=TRUE). Пришлось думать о размещении длинных подписей под столбцами.).

Пропущенные данные

Индексация производится с левой стороны первого выражения, то есть выбор нужных значений h, тех, которые отсутствуют (is.na()).

Выбросы и как их найти

Меняем данные: основные принципы преобразования

Матрицы, списки и таблицы данных

  • Матрицы
  • Списки
  • Таблицы данных

Если мы имеем дело с непараметрическими данными, то нам необходимо выполнить непараметрический двухвыборочный критерий Уилкоксона, «критерий Уилкоксона» (также известный как критерий Манна-Уитни, «критерий Манна-Уитни»). В файле данных otsenki.txt фиксируются результаты первой четверти (значение А1 во втором столбце) и результаты второй четверти (А2) тех же учащихся определенного школьного класса, а также оценки за первую четверть (В1). ) учеников другого класса. сорт. Файл данных prorostki.txt содержит результаты проверки на всхожесть семян кукурузы, зараженных различными грибами (столбец CID, CID=0 – контроль, т.е. незараженные семена).

Данные файла vybory.txt содержат результаты голосования трех кандидатов на более чем ста избирательных участках. Файл pokaz.txt содержит результаты долисекундного эксперимента, описанного в первой главе. Поэтому график параллельных координат (такой как «тепловая карта», описанная в разделе о корреляциях) практически необходим в арсенале любой программы интеллектуального анализа данных.

Файл eq.txt содержит измерения различных частей растений двух совершенно разных видов хвоща. Попробуйте выяснить, какие именно значения признаков различаются между двумя видами растений, которые мы использовали в качестве примера для функции kmeans() (данные eq.txt, расшифровка признаков в файле eq-c.txt). Итак задача такая: файл Dollar.txt содержит значения курса доллара ЦБ с 1 июля по 9 августа 2011 года всего за 11 недель.

Создайте на жестком диске рабочий каталог, создайте в нем данные каталога; скопировать в последний файл данных в текстовом формате с расширением *.txt и вкладкой (созданный из файла Excel или другой подобной программы с помощью команды меню Сохранить как.. / Сохранить как..).

Великое в малом: одномерные данные

Как оценивать общую тенденцию

Функция quantile() по умолчанию возвращает пять квартилей, а функция Fivenum() возвращает основные характеристики распределения Тьюки. Здесь для ускорения мы использовали sapply(), вариант lapply() с упрощенным выводом, и colMeans(), который просто вычисляет среднее значение для каждого столбца.

Ошибочные данные

Как видите, переменная AGE(age) каким-то образом стала фактором, и summary() показывает, почему: в одну из ячеек была вставлена ​​буква a.

Одномерные статистические тесты

Как создавать свои функции

Всегда ли точны проценты

Анализ связей: двумерные данные

Что такое статистический тест

  • Статистические гипотезы
  • Статистические ошибки

Есть ли различие, или Тестирование двух выборок

В дополнительном столбце указано среднее увеличение продолжительности сна после начала лечения (относительно контрольной группы), а в групповом столбце — код препарата (первый или второй). Здесь используется так называемая «формула модели»: в этом случае дополнительная группа ~ означает, что группа используется для разделения дополнительной. Параметр var.equal позволяет вам выбрать нужную версию теста: исходный t-критерий Стьюдента, предполагающий, что диапазоны данных равны (var.equal = TRUE), или модифицированный t-критерий Уэлча, свободный от этого предположения. (вар.равно = ЛОЖЬ).

Есть ли соответствие, или Анализ таблиц

Параметр row.vars позволяет указать количество переменных в наборе данных для объединения в один коэффициент, градации которого будут индексировать строки в таблице сопряженности. Среди этих тестов широко используется тест Коэна, который вычисляет так называемую каппу Коэна, меру согласия, которая варьируется от 0 до 1, и, кроме того, вычисляет значение p для нулевой гипотезы (о том, что каппа равна 0). .

Есть ли взаимосвязь, или Анализ корреляций

Для него установлено значение all.obs, что приводит к появлению сообщения об ошибке, если хотя бы одно наблюдение отсутствует. Если для использования установлено значение full.obs, все недостающие наблюдения автоматически удаляются из данных. Для этого опция use должна быть равна значению Pairwise.complete.obs (следует отметить, что в этом случае коэффициенты корреляции рассчитываются для разного количества наблюдений и сравнивать их с каждым может быть опасно). другой другой).

Какая связь, или Регрессионный анализ

Встроенный женский паспорт содержит 15 данных о росте (дюймах) и весе (фунтах) женщин в возрасте от 30 до 39 лет.

Вероятность успеха, или Логистическая регрессия

При выполнении функции summary.glm() следует обратить внимание на предпоследнюю строку, AIC (информационный критерий Акаике).

Если выборок больше двух

По сути, под методами «интеллектуального анализа данных» подразумеваются все методы, как визуальные, так и аналитические, которые позволяют «чувствовать» структуру данных, особенно в больших данных. Сразу видно, что один из видов (Iris setosa) хорошо отличается от двух других длиной лепестков (Petal.Length). Оказалось, что Iris setosa (обозначается буквой s) сильно отличается от двух других видов, Iris versicolor (v) и Iris Virginica (a).

Как видите, результат очень похож на результат анализа главных компонент, что неудивительно — ведь внутренняя структура данных (которую нам нужно найти в процессе «интеллектуального анализа данных») не изменилась. Кроме того, Random Forest позволяет узнать значение («важность») каждого признака, а также расстояние между всеми объектами обучающей выборки («близость»), что затем можно использовать для кластеризации или многомерного масштабирования. Поэтому после загрузки таких данных с помощью read.table() необходимо применить функцию as.Date().

Анализ структуры: data mining

Рисуем многомерные данные

  • Диаграммы рассеяния
  • Пиктограммы

Например, можно увидеть, что некоторые функции измеряются дискретно, хотя они и непрерывны (например, DL.TR.V); видно, что некоторые популяции каждый раз попадают примерно в одно и то же место.

Тени многомерных облаков: анализ главных компонент 149

Для оценки и двоичных переменных обычно требуются разные коэффициенты, но в пакете группировки реализована функция daisy(), которая может распознавать тип переменной и применять соответствующие коэффициенты, а веганский пакет реализует множество дополнительных коэффициентов сходства. Метод Уорда (вард) дает очень четко выраженные кластеры (конечно, если их можно найти), и поэтому неудивительно, что в нашем случае все три вида разделены, и хорошо видно, что виды на «v» " " (Iris versicilor и I. Virginica) часть. Одним из методов, реализуемых пакетом кластеров, является так называемый "силуэтный график" (см. пример (agnes)).

Методы анализа и моделирования временных рядов включают модели ARIMA, реализованные в функциях arima(), AR() и VAR(), структурные модели в StructTS(), функции автокорреляции и частичной автокорреляции в acf() и pacf(), классическую декомпозицию временных рядов. в decompose(), разложение STL в stl(), скользящее среднее и авторегрессионный фильтр в filter(). Ну а теперь, зная оптимальную модель, построим прогноз изменения общего числа абонентов на 2009 г. (рис. 59): Прогноз изменения общего числа абонентов на 2009 г. Максимальное и минимальное ожидаемое количество абонентов в месяцах 2009 года будет:.

Обратите внимание на функцию get(), ее использование несколько противоположно назначению(): если имя присутствует, то get(name) будет искать объект с именем name и передавать его как объект, а не как текстовую строку.

Узнаем будущее: анализ временных рядов

Что такое временные ряды

Тренд и период колебаний

Построение временного ряда

Прогноз

В рабочем каталоге будет создан подкаталог примера, и туда будут записаны HTML-файлы, содержащие полный отчет о текущей сессии, включая созданный график.

Статистическая разведка

Первичная обработка данных

Окончательная обработка данных

Отчет

Referensi

Dokumen terkait

Презумпция согласия означа- ет, что, если человек не оставил после себя никакого завещания в отношении донорства своих органов, то это дает право изымать его органы.. Презумпция