Нулевая корреляция выборки вовсе не обозначает отсутствие линейной взаимосвязи - страница 46

 

Моя очередь приводить пример с картинкой.

Пусть есть выборка двух процессов (не случайных, но ведь неслучайный процесс - это вырожденный случай случайного, поэтому для примера сойдет) на интервале t = -10 … 10:

x1(t) = cos(2*pi*t)

x2(t) = sint(2*pi*t) + h(t), где h(t) - ступенька Хевисайда,

причем частота дискретизации выборки достаточно большая (намного больше частоты самих синусов и косинусов) fd >> 1

Вот графики этих процессов:


Очевидно, что в силу ортогональности синуса/косинуса величина мгновенного коэффициента корреляции на протяжении всей выборки равна нулю, кроме точки 0, где КК сложно как-либо определить по причине разрывности процесса.

Тем не менее, при тупой подстановке заданных процессов в формулу для линейного КК получаем бред: среднее арифметическое по времени для второго процесса на протяжении времени оказывается не 0, а 1/2, и имено его мы вынуждены пихать в формулу, имея на выходе отличное от 0 значение, да еще и тем больше, чем более короткая взята выборка (для отрезка [-10;10] рассчитанный подобным образом коэффициент будет один, а для отрезка , например, [-3;3] - другой). Можно это легко проверить с помощью встроенной процедуры расчета КК в любом пакете, даже в Excel.

Здесь уже интуитивно должно возникать чувство противоречия: ведь если мы поделим выборку пополам точкой t=0 и посчитаем таким же образом КК для каждой части, то в обоих случаях получим 0, но выходит, что сшив две "нулевые" части вместе, имеем не ноль??? Как такое может быть?

Причина в том, что не учтена нестационарность процесса x2(t), а следовательно и тот факт, что нельзя в данном случае брать в качестве оценки среднего среднее арифметическое по времени. Более того, по построению мы знаем, как на самом деле это среднее во времени изменяется. Поэтому процедура расчета должна именно сводиться к приведению обеих частей на основе априорных знаний о процессах к тому виду, который позволяет утверждать стационарность.

Другими словами, в формулу для линейного КК стоит подставить не x1(t) и x2(t), а x1(t) и x2'(t) = x2(t)-h(t), т.е. выделить из второго процесса стационарное слагаемое. Тогда результат расчета по формуле будет совпадать с ожиданием.

 
Integer:

Не надо про любой, надо конкретно, название учебника, цитату из него с определением. Даже если и так, вы уверены, что правильно поняли определение, откуда такая уверенность? Своими руками не пробовали пощупать коэффициент корреляции  (поэкспериментировать, поиграть), что бы понять, осознать, почувствовать, что это такое?

Как так можно встрять, чтобы так упереться? 

Что такое твист я не знаю (разве что какой-то танец), посмотрел определение корреляции в википедии:

 Вы пытаетесь критически оценить то, что где-то там на заборе написано? Причем здесь случайные величины? Это определение только какой-то мудак мог написать. Если во всех учебниках по хип-хопу или как его там оно такое же, то и все эти учебники писали мудаки, которые сами нифига не понимают, что такое кореляция и студентам мозги засрали.


ТВиСТ (теория вероятностей и статистика сокращенно) - это мой профилирующий предмет по специальности, я его в институте учил и сдавал экзамен за 5 семестров, на отлично. Ну вот честно, не буду я тут нотариально завереные скриншоты выкладывать. Любой желующий может открыть любой, повторяю, любой учебник, какой окажется под рукой, хоть наш, хоть зарубежный, и убедиться, о чем при определении корреляции речь идет, а о чем нет. Если считать, что их все писали мудаки, то, выходит, нехрен вообще их читать? Нет уж, увольте, в категорию заборов я скорее отнесу сей форум и буду критически оценивать сначало что написано здесь, а потом - что там.

 
alsu:

 

Здесь уже интуитивно должно возникать чувство противоречия: ведь если мы поделим выборку пополам точкой t=0 и посчитаем таким же образом КК для каждой части, то в обоих случаях получим 0, но выходит, что сшив две "нулевые" части вместе, имеем не ноль??? Как такое может быть?

Неа. Не глядя. Для одной половины ноль, для другой не ноль.
 
alsu:

ТВиСТ (теория вероятностей и статистика сокращенно) - это мой профилирующий предмет по специальности, я его в институте учил и сдавал экзамен за 5 семестров, на отлично. Ну вот честно, не буду я тут нотариально завереные скриншоты выкладывать. Любой желующий может открыть любой, повторяю, любой учебник, какой окажется под рукой, хоть наш, хоть зарубежный, и убедиться, о чем при определении корреляции речь идет, а о чем нет. Если считать, что их все писали мудаки, то, выходит, нехрен вообще их читать? Нет уж, увольте, в категорию заборов я скорее отнесу сей форум и буду критически оценивать сначало что написано здесь, а потом - что там.

Странненько, но кажется мой препод, который учил меня а инстике корреляции не читал этих учебников... к счастью для его студентов:)

 
alsu: ... Очевидно, что в силу ортогональности синуса/косинуса величина мгновенного коэффициента корреляции на протяжении всей выборки равна нулю, кроме точки 0, где КК сложно как-либо определить по причине разрывности процесса.
Integer: Неа. Не глядя. Для одной половины ноль, для другой не ноль.

Да, для второй не ноль. Визуальный обман.


Вопрос вдогонку:

Уважаемые а какие данные для ценовых временных рядов (FX) вы используете, делая выводы о стационарности, распределениях, эргодичности, корреляции и прочих стат. штуках? Вопрос без подкола. Просто часто берут показания одного из бест бандов квантованного по астрономическому времени? Но это же ... как бы сказать ... недопустимо. Логично анализировать последовательность показаний цены от "реальных" сделок, с учетом реальных объемов. Может в этом вся соль - в подготовке данных для анализа.

 

Интересная дискуссия. Может, хоть здесь докопаются до правды.

Неоднократно уже пытался выяснить этот вопрос, беседовал с умными (казалось бы) людьми, но похоже никто не разбирается, только щеки надувают )))

Физический смысл корреляции - это косинус угла между векторами (где координаты векторов - это обе исходных выборки).

Поэтому КК действительно "сравнивает" только формы кривых, на него не влияет масштабирование (изменение длины вектора) или смещение (перенос начала вектора).

Не знаю, как для котировок, а в обработке сигналов КК только для I(1) и валиден. В частности, он вполне качественно позволяет выявить периодичность сигнала.

Хотелось бы понять, какой смысл имеет применение КК для I(0), ведь это сравнение "формы" двух почти полностью случайных рядов, там по определению никакой схожести форм быть не может.

Причем это всё для локального применения.


Отдельно хотелось бы понять, какой смысл имеет расчет КК, распределений и прочих статистик для всего ряда сразу. Это ведь средняя температура по больнице за N лет, какой в ней смысл?

На рынке же нет стационарности ни в I(1), ни в I(0).

 
airbas: На рынке же нет стационарности ни в I(1), ни в I(0).

О каких I(1) и I(0) для рынка вы говорите?

I(0) - это по определению стационарный процесс. Где он в котировках?
 
Demi:
Да? А меня в свое время учили что коэффициент корреляции косинуса и синуса плавно изменяется от -1 до +1. А оказывается - 0........

От -1 до +1 изменяется кросскорреляционная _функция_. А коэффициент выборочной корреляции - это _число_. И это число есть константа для двух заданных наперед выборок. Если в качестве выборок взять значения пары ортогональных функций на равномерной сетке - коэффициент будет равен нулю. Это следует из определения ортогональных функций - интеграл из определения, записанный в виде суммы, удивительным образом будет похож на определение выборочной ковариации.

 Integer:

Больше коэффициент корреляции ничего не показывает и никакого отношения вычисление корреляции не имеет ни с нормальность там чего-то ни с эргодичностью, стационарностью. Что за учебники вы читаете?

Если для вас главное подставить числа в формулу и получить число - стационарность и эргодичность не важны.

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

Со стационарностью проще привести пример. Берем пару случайных процессов, стохастические дифференциалы которых имеют вид:

dX(t) = mu_1 * dt + sigma_1 * dW_1;

dY(t) = mu_2 * dt + sigma_2 * dW_2;

dW_1, dW_2 - коррелированные Винеровские процессы (с корреляцией rho);

mu_1, mu_2, sigma_1, sigma_2 - положительные константы.

Пример заключается в том, что коэффициент корреляции на паре недифференцированных рядов будет стремиться к единице (для любых mu_1 и mu_2 - к sign(mu_1 * mu_2) ) с ростом объема выборки независимо от корреляции между приращениями. Весь прикол в том, что на I(1) процессе выборочное среднее не сходится к константе.

mu_1=0.01; mu_2=0.05; sigma_1=1; sigma_2=1; rho=0.5:

mu <- c(0.01, 0.05)
sigma <- matrix(c(1, 0.5, 0.5, 1), 2, 2)

simulate.random.walks <- function (num.points, integrated = T) {
  ret.val <- matrix(rnorm(num.points * 2), num.points, 2) %*% chol(sigma)
  ret.val <- do.call(cbind, lapply(1 : 2, function (i) { ret.val[, i] + mu[i] } ))
  if (integrated) ret.val <- apply(ret.val, 2, cumsum)
  ret.val
}

num.points.grid <- trunc(exp(seq(log(10 ^ 2), log(10 ^ 6), length.out = 25)))
cor.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, T))[1, 2] }
  )
cor.non.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, F))[1, 2] }
  )

png(filename='c:/Users/User/Desktop/bgg.png', 800, 600)
par(mfrow = c(2, 1))
plot(num.points.grid, cor.integrated, xlog = T, t = 'o')
abline(h = 1, col = 'red', lty = 'dashed')
plot(num.points.grid, cor.non.integrated, xlog = T, t = 'o')
abline(h = 0.5, col = 'red', lty = 'dashed')
dev.off()

 

airbas:

Не знаю, как для котировок, а в обработке сигналов КК только для I(1) и валиден. В частности, он вполне качественно позволяет выявить периодичность сигнала.

Не подскажете, какой ВУЗ вы заканчивали? Буду знать, кого на собеседованиях нужно тщательнее проверять на адекватность восприятия.

Integer, к вам тот же вопрос, если не затруднит.

GaryKa:

Уважаемые а какие данные для ценовых временных рядов (FX) вы используете, делая выводы о стационарности, распределениях, эргодичности, корреляции и прочих стат. штуках? Вопрос без подкола. Просто часто берут показания одного из бест бандов квантованного по астрономическому времени? Но это же ... как бы сказать ... недопустимо. Логично анализировать последовательность показаний цены от "реальных" сделок, с учетом реальных объемов. Может в этом вся соль - в подготовке данных для анализа.


Почитайте определения в любом учебнике и проникнитесь сутью. Нет вообще никакой разницы, будете ли вы использовать bid/ask/midprice. Численные характеристики могут немного отличаться, но выводы о стационарности будут одни и те же. 

 

Себя проверь на адекватность после этого:

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

 
anonymous, а знаете, регуляро почитываю форум, почти весь, от вас ни одного адекватного поста не наблюдал.
Причина обращения: