Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 13

 

Нет, задача не изменилась. Это просто атомарная задача, неделимая. А для получения общей картинки надобно сканировать еще и по переменной Lag.

Я могу выложить выдержки из своих результатов, полученных несколько месяцев назад (но у меня в текстовом виде). Там не взаимная информация, как у топикстартера, а частоты Матрицы. Там же приведены результаты вычисления статистики "критерий хи-квадрат независимости переменных" (на тот момент не подозревал, что такое взаимная информация, но уже озаботился общей мерой зависимости переменных и экспериментировал с разными критериями). Тем не менее и в этих цифрах совсем не скучно.

Выложу завтра (ну то есть сегодня, но позднее), т.к. доступа к компу, на котором производились вычисления, сейчас нет.

P.S. К "универсальной регрессионной и т.п." это никакого отношения не имеет: (18) - это грубо механистический подход к цене, а здесь - принципиально статистический.

 
Mathemat:

Нет, задача не изменилась. Это просто атомарная задача, неделимая. А для получения общей картинки надобно сканировать еще и по переменной Lag.

Я могу выложить выдержки из своих результатов, полученных несколько месяцев назад (но у меня в текстовом виде). Там не взаимная информация, как у топикстартера, а частоты Матрицы. Там же приведены результаты вычисления статистики "критерий хи-квадрат независимости переменных" (на тот момент не подозревал, что такое взаимная информация, но уже озаботился общей мерой зависимости переменных и экспериментировал с разными критериями). Тем не менее и в этих цифрах совсем не скучно.

Выложу завтра (ну то есть сегодня, но позднее), т.к. доступа к компу, на котором производились вычисления, сейчас нет.

P.S. К "универсальной регрессионной и т.п." это никакого отношения не имеет: (18) - это грубо механистический подход к цене, а здесь - принципиально статистический.

(18) в режиме АТС дает, пусть плохой, но результат, без приминения стопов и ТП, а свой тонкий статистический подход доведите до этого уровня, потом будем сравнивать.

Золото с 25.11.2009 до 02.09.2011, Н4, лот 0.1, макс. просадка 10.32%, МО 27,6 

ׂ  

 
Mathemat:

Не спорю, все логично. Давайте начнем с пункта 1.

1. "точно определить что берем": Сначала - задача-ячейка, далее уже неделимая.

Фиксируем целое Lag. Это будет "расстояние между барами", т.е. модуль разности их индексов на заданном таймфрейме в МТ4.

Цель: определить, существует ли статистическая зависимость между двумя следующими случайными величинами: 1) возврат "ведущего" бара с индексом sh, и 2) возврат "ведомого" бара с индексом sh+Lag.

Это и есть то, что мы берем: все пары баров с расстоянием между ними, равным Lag. Предельно точно.

Где и в чем тут сомневаться? Давайте разберемся вначале с первым пунктом. Получится - перейдем ко второму.

Это почти АКФ, но формула другая. АКФ является неотъемлемой частью статистики. Прекрасно ищет зависимости самого разного толка. Это используется и в теории и в практике очень широко начиная с появления ARIMA.Любую новую вещь надо начинать с указания сходства и различий с общеизвестными и устоявшимися аналогичными вещами. Если это не делается, то в самых замызганных домах ЛондОна идея не подлежит обсуждению. Именно об этом я весь топик говорю. Всегда надо начинать с обвора литературы. Нет обвора - нет базара в цитате из Вашего поста.

Далее. вижу sh, я понимаю, что АКФ считается с sh=1, а не с произвольного места. Но имеется ЧАКФ. Чем Ваше предложение похОдит или отличается от этого. Только не надо затуманивать суть (зависимости во ВР) словами из ТИ.

 
faa1947: Это почти АКФ, но формула другая. АКФ является неотъемлемой частью статистики. Прекрасно ищет зависимости самого разного толка.

Это совсем не обязательно АКФ. И Вы сильно ошибаетесь, что АКФ ищет зависимости самого разного толка. Гляньте корреляцию. Там ближе к концу статьи, где картинка, есть ограничения корреляционного анализа. Именно поэтому я отказался от АКФ. Линейные зависимости между барами, обнаруживаемые пирсоновской корреляцией, слишком слабы и недолговременны.

Всегда надо начинать с обвора литературы. Нет обвора - нет базара в цитате из Вашего поста.

Эдак мы еще долго с места не сдвинемся. Но в общем я с Вами согласен: какая-то аргументация все равно нужна. Я об этом подумаю - если Вас не устраивает последнее предложение предыдущего абзаца, касающееся линейных зависимостей.

Только не надо затуманивать суть (зависимости во ВР) словами из ТИ.

Т.е. Вы таки решили запретить мне пользовать ТИ для поиска зависимостей?

2 yosuf: я не собираюсь с Вами соревноваться. Продолжайте совершенствовать свой индюкатор, но только в эту ветку не заходите, пожалуйста. Здесь это офтопик.

 
Mathemat:

Нашел статью об информационной энтропии (Вики). Цитата 1 оттуда:

Это - энтропия, обычная энтропия. Вы об этом определении толкуете?

Да, готов согласиться, что буквы алфавита должны быть статистически независимы, чтобы не было избыточности и зависимостей. Именно этим примерно и занимается архиватор, создавая алфавит, явно отличный от алфавита, использованного при создании текста.

Но мы ж не это считаем! О том, что мы считаем, - дальше.


Речь топикстартера (и моя тоже) шла не об информационной энтропии, а, черт побери, о взаимной информации (снова Вики)!!

Взаимная информация — статистическая функция двух случайных величин, описывающая количество информации, содержащееся в одной случайной величине относительно другой.

Взаимная информация определяется через энтропию и условную энтропию двух случайных величин как [дальше идет формула для I(X,Y)]

Просто обращаю внимание, что из той же самой педивики следует, что формула для расчёта взаимной информации может быть следующая:

Взаимная информация (между Х и У) = Энтропия (Х) - Условная энтропия (между Х и У)

Это если не писать страшного вида формулы из американских источников, а пройти по определениям.

Здесь Х и У это две разные системы, и между ними есть зависимость, от Х и У.

Если мы хотим Полную взаимную информацию, то тогда будет как у топикстартера:

Полная взаимная информация (между Х и У) = Энтропия (Х) + Энтропия (У) - Энтропия объединенной системы (Х и У)

Почему пишется "энтропия объединенной системы" а не "условная энтропия", потому что на самом деле общая энтропия системы из двух систем может быть как независимой так и условной. Понятно, что если Х и У не связаны между собой, и независимы, то нужно считать как совместные вероятности (теорема сложения энтропий), а если связь есть, то как условные.


Теперь о наших интересах. Как эта вся байда может быть приложена к рынку. Предположим модель следующая. Существует система Х - рынок (алфавит), у него есть конечное и определенное количество состояний (символы) которые появляются с определенной частотой (вероятности символов). Существует вторая система У - запись котировок. У котиров (алфавит) то же определен ограниченный набор из символов, с определенными частотами. Что можно из этого всего извлечь?

1. Нужно знать алфавит рынка. Там постоянно что то происходит, купи-продай, кто то разоряется, кто то приходит с новыми деньгами, какие то массовые истерии случаются и т.д. Т.е. алфавит очень обширный и его вряд ли удастся так просто описать.

2. Даже если удаётся описать алфавит рынка, встаёт вопрос стационарности процессов происходящих на рынке. Нужно понимать, что ТИ абсолютно ориентирован на постоянство свойств.

3. Алфавит второй системы, котиров. Он другой, чем алфавит рынка. Скорее всего он уже. И нужно знать какой. Если просто разбить диапазон изменений котиров на таймфрейме на квантили и сделать из них алфавит, что мы получаем. Точнее не так, получаем ли мы полное или частичное отображение информации из алфавита рынка в алфавите котиров? Какая часть информации теряется? а может ничего не теряется, а алфавит рынка просто избыточен. И т.д.

 
Mathemat:

Это не почти и даже совсем не АКФ. И Вы ошибаетесь, что АКФ ищет зависимости самого разного толка. Гляньте корреляцию. Там ближе к концу статьи, где картинка, есть ограничения корреляционного анализа. Именно поэтому я отказался от АКФ. Линейные зависимости между барами, обнаруживаемые пирсоновской корреляцией, меня не интересуют, т.к. они слишком слабы и недолговременны.


Проработанность корреляции является ее сильной стороной, но одновременно к слабой стороне вы отнесли известные о корреляции ограничения. Но именно эти ограничения позволяют нам содержательно рассуждать о величине под названием "АКФ", вероятности доверия к этой величине, условия вычисления этого доверия и вообще оценить допустимость каких-либо рассуждений об этих величинах в зависимости от выполнения ограничений по корреляции. Даже овладев всем, вооружившись инструментом, на практике встречаются серьезные трудности и постоянно впадаешь в блуд.

Попробуйте то же самое написать о предмете топика.

АКФ совершенно конкретно показывает тренды, а вместе с ЧАКФ ищет циклы. А что ищет "информационная зависимость", что это за зверь и как он проявляется в котировках? или в приращениях? Полно публикаций по психологии рынка, где можно найти объяснение образования трендов и циклов, а что является психологической основой "информационной зависимости", в каких публикациях это написано? и влияет ли она на котировки? На каком основании можно доверять полученным картинкам? Где вероятности доверия к результату? Где условия применимости всего этого? Одни вопросы. Этот топик мне все больше напоминает топик с весельчаком hfenks (если правильно помню), который тоже гнул не знамо что на тему зависимостей.

С диссертабельной точки зрения, исключительно предварительно, имеются признаки научной новизны, но без сравнения с корреляцией все это пустой треп (уж извините).

 
HideYourRichess:

Просто обращаю внимание, что из той же самой педивики следует, что формула для расчёта взаимной информации может быть следующая: [...]

Почему пишется "энтропия объединенной системы" а не "условная энтропия", потому что на самом деле общая энтропия системы из двух систем может быть как независимой так и условной. Понятно, что если Х и У не связаны между собой, и независимы, то нужно считать как совместные вероятности (теорема сложения энтропий), а если связь есть, то как условные.

Подозревал, что Вы на это укажете. К счастью, в любом случае формулы, записанные через вероятности (а не энтропии), остаются прежними - независимо от того, что там от чего зависит или нет. Так что эти рассуждения ничего нового не добавляют.

Существует система Х - рынок (алфавит), у него есть конечное и определенное количество состояний (символы) которые появляются с определенной частотой (вероятности символов). Существует вторая система У - запись котировок. У котиров (алфавит) то же определен ограниченный набор из символов, с определенными частотами. Что можно из этого всего извлечь?

Обращаю Ваше внимание на то, что это уже не та система, которую рассматривал топикстартер. Я не настолько наивен, чтобы всерьез говорить о том, что можно узнать алфавит рынка. И стараюсь ставить перед собой реалистичные задачи.
 
faa1947: Проработанность корреляции является ее сильной стороной, но одновременно к слабой стороне вы отнесли известные о корреляции ограничения. Но именно эти ограничения позволяют нам содержательно рассуждать о величине под названием "АКФ", вероятности доверия к этой величине, условия вычисления этого доверия и вообще оценить допустимость каких-либо рассуждений об этих величинах в зависимости от выполнения ограничений по корреляции.

Абсолютно верно. Половина тервера/матстата ведет речь о центральных предельных теоремах и следствиях о них, касающихся именно нормального распределения. Это прекрасно "проработанное" распределение. Тем не менее существуют такие случайные величины, которые ему не подчиняются даже в пределе. Почему я должен заниматься именно корреляцией Пирсона только потому, что она прекрасно проработана?

АКФ совершенно конкретно показывает тренды, а вместе с ЧАКФ ищет циклы.

Ни циклы, ни тренды на этапе добычи данных пока не интересуют. Интересуют именно зависимости, которые принципиально не обнаруживаются АКФ.

А что ищет "информационная зависимость", что это за зверь и как он проявляется в котировках? или в приращениях? Полно публикаций по психологии рынка, где можно найти объяснение образования трендов и циклов, а что является психологической основой "информационной зависимости", в каких публикациях это написано? и влияет ли она на котировки? На каком основании можно доверять полученным картинкам? Где вероятности доверия к результату? Где условия применимости всего этого? Одни вопросы. Этот топик мне все больше напоминает топик с весельчаком hfenks (если правильно помню), который тоже гнул не знамо что на тему зависимостей.

Вы задаете слишком много вопросов. Задам и Вам: Вы знаете хотя бы одного исследователя, который, прежде чем начинать что-то очень новое и очень странное, вначале делал бы полное и стопроцентное обоснование применимости этого нового - а потом уже приступал бы к получению результатов, намек на которые блеснул у него в голове за долю секунды? Обычно все бывает наоборот: сначала новое применяется без оглядки на обоснования и всяческие строгости, а уже потом, если получается что-то интересное, начинаются обоснования. Вы меня понимаете?

И, кстати, о hrenfx: он тоже делал анализ на основе пирсоновской корреляции.

С диссертабельной точки зрения, исключительно предварительно, имеются признаки научной новизны, но без сравнения с корреляцией все это пустой треп (уж извините).

Да ничего страшного. Ну мы ж тут не диссер обсуждаем, а просто любопытную идею, из которой в будущем может что-то выгореть. Я прекрасно понимаю, что может и не выгореть. К чему тогда терять время на натянутые обоснования?

 
Mathemat:

Абсолютно верно. Половина тервера/матстата ведет речь о центральных предельных теоремах и следствиях о них, касающихся именно нормального распределения. Это прекрасно "проработанное" распределение. Тем не менее существуют такие случайные величины, которые ему не подчиняются даже в пределе. Почему я должен заниматься именно корреляцией Пирсона только потому, что она прекрасно проработана?

Ни циклы, ни тренды на этапе добычи данных пока не интересуют. Интересуют именно зависимости, которые принципиально не обнаруживаются АКФ.

Вы задаете слишком много вопросов. Задам и Вам: Вы знаете хотя бы одного исследователя, который, прежде чем начинать что-то очень новое и очень странное, вначале делал бы полное и стопроцентное обоснование применимости этого нового - а потом уже приступал бы к получению результатов, намек на которые блеснул у него в голове за долю секунды? Обычно все бывает наоборот: сначала новое применяется без оглядки на обоснования и всяческие строгости, а уже потом, если получается что-то интересное, начинаются обоснования. Вы меня понимаете?

И, кстати, о hrenfx: он тоже делал анализ на основе пирсоновской корреляции.

Да ничего страшного. Ну мы ж тут не диссер обсуждаем, а просто любопытную идею, из которой в будущем может что-то выгореть. Я прекрасно понимаю, что может и не выгореть. К чему тогда терять время на натянутые обоснования?

Почему я должен заниматься именно корреляцией Пирсона только потому, что она прекрасно проработана?

Практически ценно. И удается обрабатывать нестационарные случайные процессы с неизвестными распределениями.

Обычно все бывает наоборот: сначала новое применяется без оглядки на обоснования и всяческие строгости, а уже потом, если получается что-то интересное, начинаются обоснования. Вы меня понимаете?

Нет. Сначала брод меряют, а потом все остальное. На всех ученых советах, на которых я присутствовал в свое время подобное ваше выступление было бы последним навсегда.

К чему тогда терять время на натянутые обоснования?

Натянутые не нужны. Но нужно понимать что обсуждается на уровне сравнения с существующим.

 
Mathemat:

Подозревал, что Вы на это укажете. К счастью, в любом случае формулы, записанные через вероятности (а не энтропии), остаются прежними - независимо от того, что там от чего зависит или нет. Так что эти рассуждения ничего нового не добавляют.

По моему мнению, пусть даже и ошибочному, не может суть формулы меняться, так же как и условия её применимости, от того что её записали другими символами.

Mathemat:
Обращаю Ваше внимание на то, что это уже не та система, которую рассматривал топикстартер. Я не настолько наивен, чтобы всерьез говорить о том, что можно узнать алфавит рынка. И стараюсь ставить перед собой реалистичные задачи.
Более полная система выглядит как: алфавит рынка <-> алфавит котировок -> алфавит задачи. Топикстартер рассматривал только последнюю пару, котировка - задача.
Причина обращения: