Модель рынка: постоянная пропускная способность - страница 3

 

Идейка сама по себе любопытна, но исходный посыл действительно странный. Лично мне это не нравится. Если кол-во инфы всегда примерно постоянно, то на рынкете как бы ничего особенного и не происходит. Но не так ведь. На рынкете регулярно происходят катастрофы, при которых количество инфы точно меняется (типа перехода в другое фазовое состояние).

 

Человек предлагает анализировать биты сжатой информации, для предсказания нового "фрейма" в потоке, чем например лучше кадр MPG4 по сравнению с кадром MPG1 для предсказания следующего кадра?

Может проще за сюжетом фильма следить :)

 
hrenfx:

Информация - это набор бит, который никак невозможно сжать, чтобы передать.

Предполагается, что рынок, как относительно замкнутая система, за единицу времени генерирует постоянное (или медленно меняющееся) количество информации.

Что это значит?

Данные рынка - что угодно, что можно получить с рынка. Самое простое - цены.

Пусть единица времени будет Time. Предполагается, что всегда за время Time количество информации у рынка N. Проще:

Мы собрали за время Time данные с рынка. Сжали их до максимума (сжать сильнее невозможно), тем самым получив набор несжимаемых бит - это и есть информация, количество которой постоянно (N) для единицы времени Time.

Сжать максимально - это теория. Алгоритмов сжатия очень много. Чем сильнее сжимает алгоритм, тем ближе он в состоянии оценить количество информации, содержащейся в имеющихся данных. Т.е. количество информации мы точно определить не может, но можем его оценить.

Как использовать данную модель для торговли примерно описано здесь.

Проверка модели на адекватность не очень сложная. Достаточно иметь большое количество исторических данных рынка. Взять скользящее окно размером Time. И для каждого положения окна произвести сжатие (алгоритмы можно использовать разные), получив количество бит. В итоге получим ВР оценки количества информации. Останется только проанализировать этот ВР и сделать соответствующие выводы.



Клод Шеннон, кстати забросивший по слухам научную карьеру и занявшийся опять же по слухам, фондовым рынком, ввел понятие меры информации:

некоторое событие, которое имеет M возможных исходов Xi с вероятностью P[Xi], характеризующей вероятность появления i-го исхода, содержит в

себе информацию, величина которой определяется выражением:

I[Xi] = ln(1/P[Xi]) = - ln P[Xi]

Ожидаемое или среднее значение этой информации I равно энтропии H,

то есть энтропия есть мера неопределенности,помните среднюю температуру по больнице? :))) Вот,

это и есть неопределенность, энтропия :).

"Информация - это набор бит, который никак невозможно сжать, чтобы передать" Звучит!

Но как мне кажется, что единственным вариантом, когда набор "никак невозможно сжать" является

набор состоящий всего из одного бита, то есть когда никакой избыточности инфы нету, тогда и

сжимать нечего! То есть когда этот бит принимает одно из двух значений "0" или "1", но! Но это

же есть полная определенность! То есть вы выражаете надежду что есть процедуры, которые смогут

довести случайнось, содержащуюся в рынке форекс, что есть процедуры, которые смогут полностью

исключить эту случайность, причем настолько что дальше некуда? Хм. И это тем более невозможно, что рынок форекс не замкнутая система .

Об этом свидетельствует сильная нестационарность, то есть изменчивость статистических параметров, котировок валютных пар и

эмпирическое представление о рынке как совокупности технического анализа и фундаментального, которые как известно

занимаются внутренним настроем рынка и анализом ситуации вне его соответственно.

Я для того так много написал, что ваши эээ гипотезы показались мне просто совершенно перевернутыми с ног на голову.

 
TheVilkas:

С основами Теории информации знаком. Похоже, неоднозначно дал определение информации. Перефразирую:

Количество информации, содержащейся в данных - минимальное количество бит, необходимое для восстановления данных.

Т.е. количество бит в максимально сжатых (с возможностью восстановления) данных - это количество информации в этих данных. Так называемая чистая информация содержащаяся в данных.

 
hrenfx:

Информация - это набор бит, который никак невозможно сжать, чтобы передать.

Предполагается, что рынок, как относительно замкнутая система, за единицу времени генерирует постоянное (или медленно меняющееся) количество информации.

Что это значит?

Данные рынка - что угодно, что можно получить с рынка. Самое простое - цены.

Пусть единица времени будет Time. Предполагается, что всегда за время Time количество информации у рынка N. Проще:

Мы собрали за время Time данные с рынка. Сжали их до максимума (сжать сильнее невозможно), тем самым получив набор несжимаемых бит - это и есть информация, количество которой постоянно (N) для единицы времени Time.

Сжать максимально - это теория. Алгоритмов сжатия очень много. Чем сильнее сжимает алгоритм, тем ближе он в состоянии оценить количество информации, содержащейся в имеющихся данных. Т.е. количество информации мы точно определить не может, но можем его оценить.

Как использовать данную модель для торговли примерно описано здесь.

Проверка модели на адекватность не очень сложная. Достаточно иметь большое количество исторических данных рынка. Взять скользящее окно размером Time. И для каждого положения окна произвести сжатие (алгоритмы можно использовать разные), получив количество бит. В итоге получим ВР оценки количества информации. Останется только проанализировать этот ВР и сделать соответствующие выводы.


архивация без потери подразумевает составление нового алфавита, описание которого + кодировка архивируемой информации будет меньше по объему, чем сама эта информация. Грубо говоря, это выделение некоторых паттернов. Но это эффективно для моделей типа регулярных граматик - где есть строгие и однозначные правила, или отклонения от них не частые. Если есть например зашумление - то эффективность архивации падает в разы. Если в тексте 100 раз встречается слово, но каждый раз с ошибкой или пара букв местами поменена, то алгоритмы сжатия без потери не вынесут его в отдельный паттерн. Тут эффективны алгоритмы сжатия с потерей, типа тех которые работают с изображением, видео, звуком. Но все они все равно не смогут учитывать контекстные правила - типа изменения окончания слова в зависимости от падежа и т.д. и т.п. Выделит в тексте например, наиболее втречаемыме сочетания букв и все. Тоже самое для рынка - выделит элементарные часто встречаемые паттерны, но не факт что их использование даст возможность вероятностного прогноза. Даже точнее прибыльного прогноза. А то будет выдавать например, что с вероятностью 90% продолжение будет таким-то. Но финансовые потери от сценария оставшихся 10% будут такими же как прибыль от использования этих 90ста.

Короче, все зависит от архиватора. Выделение глубинных правил это уже работа для искусственного интелекта (или естественного :)), а не rar :) Ну и конечно, главное не их глобальность, а возможность профитного использования.

 

непонятный первый пост топика перерос в формулы, но имхо Вы пытаетесь говорить об энтропии

ЗЫ: ненавижу  теорию передачи информации, из-за одной единственной описки ( перепутал бит/сек с бод ), в мою зачетку вместо отл. влетел уд.

 
Mathemat:

Идейка сама по себе любопытна, но исходный посыл действительно странный. Лично мне это не нравится. Если кол-во инфы всегда примерно постоянно, то на рынкете как бы ничего особенного и не происходит. Но не так ведь. На рынкете регулярно происходят катастрофы, при которых количество инфы точно меняется (типа перехода в другое фазовое состояние).


Я надеюсь участники форума вспомнят про эту ветку.https://www.mql5.com/ru/forum/105740

самая первая страница

из которых особую роль в теории потоков играет моментная функция первого порядка, называемая интенсивностью потока (ИП): 

могу по другому сказать ИП это количество информации в единицу времени. Неким аналогом этого можно считать количество тиков в единицу времени, если не анализировать еще и новости. Кстати по моему мнению можно и не сжимать, сжал (несжал) количество информации не поменялось

З.Ы. без тикфрейма намучаетесь.  проветка на истории тоже не катит https://www.mql5.com/ru/forum/1031/page1#comment_6372 история в виде минуток убивает эту информацию...

 
hrenfx:

Проверка модели на адекватность не очень сложная. Достаточно иметь большое количество исторических данных рынка. Взять скользящее окно размером Time. И для каждого положения окна произвести сжатие (алгоритмы можно использовать разные), получив количество бит. В итоге получим ВР оценки количества информации. Останется только проанализировать этот ВР и сделать соответствующие выводы.

Проверил. Взял скользящее окно размером в сутки (288 M5) и сдвигая его каждый раз на 5 минут применял сжатие RAR и 7Z LZMA c начала 2010 года по октябрь 2010 - почти 60 000 сжатых каждым архиватором скользящих окон. Вот так выглядят графики размера сжатых окон выборки рынка FOREX (AUDUSD, EURUSD, GBPUSD, USDCHF, USDJPY, USDCAD, NZDUSD, SILVER, GOLD):

Удивительно, что RAR показал крайне нестабильный результат. Размер сжатых окон колоссально колеблется. 7Z LZMA показал стабильный результат и меньший размер сжатого окна. Поэтому для дальнейших исследований был выбран 7Z LZMA.

Далее стал делать тоже самое, но только выборку рынка стал менять: сначала один фин. инструмент (AUDUSD), затем добавлял еще один и еще один, пока не получил 9 фин. инструментов (AUDUSD, EURUSD, GBPUSD, USDCHF, USDJPY, USDCAD, NZDUSD, SILVER, GOLD). Задача была выяснить, как архиватор с вводом новых инструментов находит взаимосвязи. Если взаимосвязи есть, то средний размер сжатого окна должен расти нелинейно при добавлении нового фин. инструмента. Так и оказалось:

 

Видно, что уже при 8-ми инструментах, как минимум, 20% данных лишние (не содержат никакой информации). Т.е. взаимосвязь есть и немалая. Интересно также, что при добавлении 9-го фин. инструмента (GOLD) взаимосвязи выявлены не были (МО не уменьшилось). СКО при добавлении фин. инструментов выросла более, чем на 50% (9 инструментов) по сравнению с началом (1 инструмент).

Сами графики изменения размеров сжатых окон (МО приведены к единице) выглядят для разных наборов фин. инструментов так:

Распределения этих графиков:

Какие выводы можно сделать?

Опровергнуть или подтвердить модель не удалось. Алгоритмы сжатия хорошо показывают наличие элементарных (алгоритмы очень простые) взаимосвязей между фин. инструментами (более 20% лишних данных отсеивают на 8-ми фин. инструментах). Многие скажут, что это естесственно, т.к. используется Solid-преобразование. Но это не совсем так. Примером служит золото (GOLD), у которого связь с остальными 8-мью фин. инструментами архиватором не была найдена.

P.S. Кроссы специально не брались, т.к. мы знаем, что они полностью взаимосвязаны с мажорами и, соответственно, никакой доп. информации не несут. Поэтому только мажоры.

P.P.S Все данные по размерам окон прилагаю.

P.P.P.S. Решать задачу было интересно. Пришлось применить новые для себя методы. В частности, возникла необходимость использования RAM-диска, чтобы провести более полумиллиона сжатий различных окон. В итоге получилось относительно быстро.

Файлы:
4analyse.rar  497 kb
 
hrenfx:

...

Если не затруднит, проделайте, пожалуйста, то же самое но с искусственно сгенерированным ВР с помощью ГСЧ. Очень интересно, что получится.
 
hrenfx:

Далее стал делать тоже самое, но только выборку рынка стал менять: сначала один фин. инструмент (AUDUSD), затем добавлял еще один и еще один, пока не получил 9 фин. инструментов (AUDUSD, EURUSD, GBPUSD, USDCHF, USDJPY, USDCAD, NZDUSD, SILVER, GOLD).

А как именно происходило добавление?
Причина обращения: