Библиографическое описание:

Чугреев В. Л. Разработка мультипотоковой модели последовательно связанных информационных элементов // Молодой ученый. — 2013. — №3. — С. 147-149.

Рассматриваемая в статье модель является обобщением ранее разработанной модели структурного представления текстовой информации [1], далее для удобства и краткости вместо полного названия будем использовать сокращение — текстовая модель. Мультипотоковую модель последовательно связанных информационных элементов будем именовать как MT-модель (MT — аббревиатура от англ. multi-threaded).

Как уже сказано, здесь предлагается обобщение текстовой модели, оно подразумевает расширение модели для представления и обработки последовательно связанных данных произвольной природы. Если данные следуют друг за другом, их можно представить в виде потока информационных элементов. Информационный элемент в данном случае — это элементарная порция данных, которой оперирует модель.

В отличие от текстовой модели информационными элементами в MT-модели могут быть не только слова, но и другие данные. Например, если мы решим моделировать транспортный поток на некотором участке дороги, то такими элементами будут автомобили (их описание, набор характеристик), проехавших по данному участку за интересующий нас промежуток времени. Поток информационных элементов в данном случае будет описывать последовательность автомобилей. Если мы решим моделировать погоду, то информационными элементами будут климатические данные, например, значения температуры. Данные могут быть любыми, главное — чтобы они были последовательно связанны. Наиболее близкий математический аналог — временной ряд [2]. В нашем случае он может состоять не только из числовых, но и нечисловых (атрибутивных, категориальных) данных.

Актуальность модели обусловлена отсутствием математического аппарата для решения задач анализа и прогнозирования нечисловых последовательностей. Решение таких задач весьма актуально в области искусственного интеллекта. Значительная часть информации, нуждающаяся в интеллектуальной обработке, не имеет числовой природы. Мы можем закодировать данные, но не можем их рассчитать, используя традиционные вычислительные методы аппроксимации, интерполяции, экстраполяции и др.

Наличие повторяющихся цепочек информационных элементов дает теоритическую возможность их прогнозирования (на основе факта повторения), но практически это не осуществимо в виду отсутствия подходящего математического аппарата. Данная модель нацелена на решение этой проблемы.

Числовая природа данных (пример с температурой) — это частный случай, в предлагаемой модели она не является основополагающей. Отказываться от нее вообще, т. е. обрабатывать все числовые данные как атрибутивные, было бы не разумно. В некоторых случаях вычислимость может значительно облегчить анализ и обработку данных, т. к. позволяет достаточно просто рассчитать меру близости/схожести между отдельными информационными элементами (позже мы еще вернемся к этому вопросу) и использовать эту меру при оценке схожести отдельных участков потока.

Область применения можно определить исходя из особенностей моделирования. Если нам требуется система, на вход которой подается набор дискретных последовательно связанных информационных элементов, а на выходе мы хотим получить осмысленную реакцию системы, то использование данной модели вполне уместно и оправдано. В общем случае — это самые разные задачи интеллектуальной обработки информации, поиска зависимостей в слабо формализованных и неструктурированных массивах данных.

Для удобства и простоты изложения материала рассмотрим сначала исходную текстовую модель, а затем перейдем к ее обобщению.

Модель структурного представления текстовой информации

Суть подхода заключается в моделировании структуры текста информационным потоком и формировании этим потоком ориентированного мультиграфа, вершинами которого являются слова, а ребрами — связи между словами в тексте. Этот мультиграф является информационной структурой текста.

Информационный поток — это детерминированный поток информационных элементов, принадлежащих конечному множеству. Временной интервал между элементами нас не интересует, интересует только их последовательность. Информационные элементы — это слова, а конечное множество — это множество всех уникальных слов, присутствующих в анализируемом тексте. Информационный поток эквивалентен временному ряду категориальных величин.

Под информационной структурой понимается совокупность всех слов и связей между ними. Информационный поток, по сути, моделирует динамику некоторого процесса, в данном случае текста, а информационная структура является статическим представлением информационного потока.

Переход к модели структурного представления текста осуществляется следующим образом.

1. Текст рассматривается в виде информационного потока, образованного информационными элементами — словами.

Если последовательно брать слова из текста, начиная с самого первого и кончая последним, то это как раз и будет информационный поток F. При этом набор всех слов в тексте можно выделить в конечное множество уникальных информационных элементов: I = {i1, i2, …, in}, где i — информационный элемент соответствующий уникальному слову текста.

Информационный поток F, описывающий текст, будет представлен в виде набора этих элементов: F = (ik, …, im), ik, imI, ik — соответствует первому, im — последнему слову в тексте.

Порядок чередования информационных элементов в F зависит от их последовательности в тексте. Информационные элементы в потоке могут повторяться. Обязательное условие — однозначное соответствие информационного элемента слову из текста. Одинаковые слова в тексте соответствуют одному и тому же информационному элементу.

Возьмем для примера фрагмент текста «в лесу родилась елочка, в лесу она росла» и выполним его моделирование. Всего 8 слов, знаки препинания не учитываются. Из этих 8 слов 2 слова («в», «лесу») повторяются, таким образом, у нас 6 уникальных информационных элементов:

i1 = в, i2 = лесу, i3 = родилась, i4 = елочка, i5 = она, i6 = росла

Информационный поток соответствующий этому фрагменту: F = (i1, i2, i3, i4, i1, i2, i5, i6).

2. Поток формирует структуру.

Если учесть, что слова в тексте повторяются, то, соответственно, можно допустить, что информационный поток будет многократно проходить через одни и те же информационные элементы, формируя связанную информационную структуру текста. Для вышеприведенного примера информационная структура будет выглядеть следующим образом (рис. 1).

Рис. 1. Структура, формируемая информационным потоком

Для каждого повторного прохождения потока через одну и ту же пару информационных элементов, необходимо формировать дополнительные связи — ребра. Такая структура описывается в виде мультиграфа. Для удобства отображения мультиграфа (рис. 1) информационный поток индексируется и каждому ребру графа, соединяющего пару вершин, приписывается множество индексов соответствующих прохождению информационного потока через данную пару. Индексация информационного потока означает, что каждому переходу между двумя информационными элементами будет поставлен в соответствие индекс, начиная с единицы, с последовательным его инкрементом.

Многократное индексирование означает многократное прохождение потока, это важная характеристика, она может быть использована для прогнозирования последующего прохождения потока.

MT-модель

Перечислим отличительные особенности МТ-модели.

1. Как уже было сказано ранее, в качестве информационных элементов выступают последовательно связанные данные произвольной природы, которые могут быть как символьными, так и числовыми.

2. Информационный элемент может и должен иметь временную составляющую, а именно время появления (фиксации) элемента в потоке и его продолжительность. В некоторых случаях продолжительностью можно пренебречь, т. е. важен сам факт возникновения определенного информационного элемента в определенное время в информационном потоке.

3. Следующее важное дополнение — это увеличение числа потоков. Возьмем для примера моделирование колебаний курса валют. Очевидно, что такие колебания нужно рассматривать в контексте: какие решения принимает правительство, центральный банк, какая ситуация на рынках и т. д. Если оперировать терминологии данной модели, то речь идет о введение дополнительных информационных потоков, моделирующих контекст.

Таким образом, у нас будет набор потоков: (F1, …, Fn). Графически это можно представить следующим образом (рис. 2).

Рис. 2. Множество потоков

Конечно, это предельно упрощенное представление, если учесть графовую структуру, которую формируют потоки, то реальное представление будет на порядки сложнее.

4. Потоки могут быть разнородными по отношению друг к другу, но должны быть однородными по отношению к себе, т. е. наличие параллельных потоков моделирующих одновременно, допустим, экономические и демографические параметры — это нормально, но не нормально, когда эти параметры будут смешивать в одном потоке. Набор (i1, …, in) должен состоять из однородных информационных элементов.

5. Еще один важный момент, который стоит учесть, — это количество уникальных элементов по отношению к элементам, представленным в потоке. Если все информационные элементы уникальны, то о графе говорить не приходится. Нас интересуют повторяющиеся цепочки, именно они могут быть использованы для задач прогнозирования.

Вернемся к примеру с валютой, пусть информационными элементами будут изменения курса. Очевидно, чем больше диапазон изменения и меньше дискретность, тем больше элементов. Назовем все возможные уникальные элементы словарем, тогда размер словаря (число входящих в него элементов) деленный на число событий в потоке будет характеризовать применимость, полезность данной модели. Отношение равное 1 — это случай неприменимости/бесполезности модели.

6. Числовая природа событий, как уже было отмечено выше, — это частный случай, который имеет свои особенности и их можно использовать. Продолжим рассмотрение примера с моделированием потока колебаний курса валюты. Допустим, мы выделили следующее множество уникальных событий: рост валюты на 1, 2, 3, … 10 %, уменьшение курса на 1, 2, 3, … 10 %, т. е. всего 20 информационных элементов. Это словарь, который будет описывать моделируемый поток событий (любое событие из потока имеет соответствующую запись в словаре).

Представим, что зафиксирован следующий поток событий: 5↑ (рост курса на 5 %), 3↑, 1↑, 4↓ (падение курса на 4 %). Если он неоднократно повторялся, то эта цепочка обладает прогностической ценностью, встретив в следующий раз цепочку 5↑, 3↑, 1↑ мы можем с некоторой вероятностью спрогнозировать последующее падение в 4 %. А что если мы встретим цепочку 6↑, 3↑, 1↑? Она похожа на то, что уже было, различаются лишь первые события в цепочке, но различаются незначительно. Есть вероятность того, что для этой цепочки продолжение будет таким же, т. е. 4↓.

Здесь мы опираемся на то, что эти числа близки друг к другу, мы считаем, что мера их близости высока. Такое знание дает числовая природа событий и ее вполне можно использовать. В тех задачах, где мы может четко и однозначно оценить меру близости, мы можем ее использовать при последующем анализе модели. Если мы можем оценить меру близости для нечисловых элементов, то можем использовать и ее. Каким образом можно оценить меру близости для нечисловых элементов? С помощь категоризации. Если мы знаем, что какие-то элементы словаря могут быть отнесены к одной группе/категории объектов, то можем учесть эту связь впоследствии.

Гипотезы

Здесь мы сделаем ряд предположений о применимости предложенной модели для решения прогностических задач.

1. Учитывая повторяемость некоторых цепочек событий (предыстории) в рамках потока, можно прогнозировать последующее поведение потока, т. е. предсказывать возникновение тех или иных элементов (по сути, событий) с некоторой вероятностью.

2. Качество прогноза для потока зависит не только от предыстории в данном потоке, но и от предыстории в других потоках. Если, конечно, эти потоки выбраны и сведены в общую модель осмысленно, если между отдельными событиями этих потоков действительно есть зависимость. Естественно, что предыстория из разных потоков должна учитываться в одном и том же временном диапазоне.

3. Оптимальный временной диапазон, в котором необходимо учитывать предысторию будет разным для разных исходных данных и моделируемых систем. Его правильный выбор и принципы такого выбора — один из открытых вопросов, ответ на который можно получить только в процессе практического моделирования.

Заключение

Чтобы проверить сформулированные выше гипотезы нужно осуществить компьютерное моделирование на основе реальных данных. Это предполагает: 1) создание программной реализацию модели, 2) разработку алгоритма анализа цепочек событий для поиска их зависимостей и причинно-следственных связей применительно к сопряженным графам. Обладая практической реализацией модели и алгоритмами ее анализа, мы можем приступить непосредственно к прогнозированию, т. е. оценке его качества на разных выборках.

Литература:

1. Чугреев В. Л., Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации: диссертация на соискание уч. ст. к.т.н. — СПб.: СПбГЭТУ «ЛЭТИ», 2003. — 185 с.

2. Лукашин Ю. П., Адаптивные методы краткосрочного прогнозирования временных рядов: Учеб. пособие. — М.: Финансы и статистика, 2003. — 416 с.

Обсуждение

Социальные комментарии Cackle