Автоматизированный информационный анализ поэтических произведений | Статья в журнале «Юный ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Научный руководитель:

Рубрика: Информатика

Опубликовано в Юный учёный №2 (5) март 2016 г.

Дата публикации: 12.02.2016

Статья просмотрена: 378 раз

Библиографическое описание:

Курбанова, К. А. Автоматизированный информационный анализ поэтических произведений / К. А. Курбанова, И. С. Гомбоева. — Текст : непосредственный // Юный ученый. — 2016. — № 2 (5). — С. 84-87. — URL: https://moluch.ru/young/archive/5/271/ (дата обращения: 03.05.2024).

 

Душевный строй истинного поэта выражается во всем, вплоть до знаков препинания.

А. Блок

 

Разработка проблемы числовых оценок литературных произведений впервые была осуществлена в трудах известного русского математика А. А. Маркова (старшего) в начале XX века, который рассматривал вероятность появлений букв алфавита в определенных позициях слова в процессе анализа произведения А. С. Пушкина «Евгений Онегин» [2]. Информационное измерение текстов естественного языка также осуществляется с помощью формулы К. Шеннона.

В данной статье рассматривается применение формулы К. Шеннона для вычисления количественной меры информации (энтропии информации), позволяющей выяснить индивидуальность стиля поэта.

Проведем процедуру расчета количественной меры информации поэтических текстов Бориса Пастернака с использованием офисных программ MicrosoftWord и MicrosoftExcel [1, с. 31].

С этой целью проанализируем 50 стихотворных произведений, которые поделены на две группы: стихи из романа «Доктор Живаго» [3] (стихи Юрия Живаго) и остальные стихи поэта, выбор которых осуществлялся случайным образом [4]. Нами была выдвинута следующая гипотеза: значение энтропии информации для стихов из романа «Доктор Живаго» может отличаться от значений энтропии для остальных произведений Пастернака, так как в первом случае стихи написаны от имени героя романа, а во втором — от имени самого поэта.

На первом этапе осуществляется подготовка текста в программе MicrosoftWord для переноса в программу MicrosoftExcel. В программе Word набирается текст стихотворения, затем все пробелы автоматически заменяются на символ конца абзаца, в результате чего текст стихотворения располагается вертикально столбиком. После этого он копируется в программу Excel.

Рис. 1.

 

На рисунке 1 показан фрагмент таблицы с вычислениями. В столбец А занесен текст стихотворения. В ячейки столбца В с помощью функции =ЛЕВСИМВ(A2) вносятся все первые буквы слов, находящихся в столбце А. Столбец D заполняется числовыми данными от 1 до 33 (количество букв в русском алфавите), в столбец Е вносится алфавит. В столбец F вводится формула: =СЧЁТЕСЛИ(B:B;E2), по которой вычисляется количество слов в стихотворении, начинающихся на букву из столбца Е. Столбец G содержит формулу: =F2/F$35, которая вычисляет значение pi — вероятность появления в сообщении i-го символа алфавита. В столбце Н находится формула =ЕСЛИ(G2=0;0;-G2*LOG(G2;2)). Это формула Шеннона, по которой вычисляется среднее значение количества информации, приходящегося на один символ алфавита: .

Затем по столбцу Н с помощью функции СУММ рассчитывается сумма значений Нi.

Аналогично проводятся вычисления для остальных стихотворений.

Полученные результаты заносятся в таблицу 1.

 

Таблица 1

 п/п

Автор

Произведение

Н, бит

1

Борис Пастернак

«Разрыв»

3,5435

«После грозы»

3,5863

«Цветы ночные утром спят»

3,6811

«Следы на снегу»

3,6597

«Ивака»

3,9500

«Ледоход»

3,7967

«В больнице»

3,5192

«Снежок»

3,8086

«Любить иных — тяжелый крест…»

3,3700

«Близнецы»

3,8860

«Все наденут сегодня пальто»

3,5019

«Зазимки»

3,4224

«Дик прием был, дик приход»

3,4784

«Единственные дни»

3,6901

«Импровизация»

3,8530

«Как бронзовой золой жаровень»

3,8793

«Как у них»

3,4676

«Когда разгуляется»

3,7809

«Образец»

3,7044

«Красавица моя, вся стать»

3,3641

«Сирень»

3,5295

«Любка»

4,0090

«Память Рейснер»

3,9754

«Ева»

3,8459

«Память демона»

3,8399

2

Юрий Живаго

«Гамлет»

4,13

«Март»

3,8556

«На Страстной»

4,0192

«Белая ночь»

4,0507

«Весенняя распутица»

3,9401

«Объяснение»

4,0904

«Лето в городе»

3,9093

«Ветер»

3,9662

«Хмель»

3,8166

«Бабье лето»

3,9832

«Свадьба»

3,6369

«Осень»

3,3944

«Сказка»

3,1186

«Август»

3,5289

«Зимняя ночь»

4,1413

«Разлука»

3,8434

«Свидание»

3,8553

«Рождественская звезда»

3,5321

«Рассвет»

3,8553

«Чудо»

3,7476

«Земля»

3,6885

«Дурные дни»

3,5895

«Магдалина» 1

3,8359

«Магдалина» 2

3,6602

«Гефсиманский сад»

3,5859

 

Из таблицы видно, что количественная мера информации H для стихов Б. Пастернака различна для каждого произведения и находится в пределах от 3 до 4. Выдвинутая нами гипотеза о том, что значение энтропии информации для стихов из романа «Доктор Живаго» может отличаться от аналогичных значений для других произведений поэта не нашла своего экспериментального подтверждения. Данный факт свидетельствует об индивидуальности творчества Б. Пастернака и наличии сформированного стиля, как результата работы творческой мысли писателя.

 

Литература:

 

  1.                Астафьева Н. Е. Информатика и ИКТ: практикум для профессий и специальностей технического и социально-экономического профилей / Н. Е. Астафьева, С. А. Гаврилова, М. С. Цветков. — М.: Издательский центр «Академия», 2012. — 272 с.
  2.                Марков А. А. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь // Известия Императорской Академии Наук, VI серия, 1913, том 7, выпуск 3, С. 153–162. [Электронный ресурс]. — Режим доступа: http://www.mathnet.ru/links/388c98604da09f561ec90ec85590b029/im6612.pdf.
  3.                Пастернак Б. Л. Доктор Живаго / Б. Л. Пастернак. — М.: Эксмо, 2010. — 624 с.
  4.                Пастернак Б. Л. Строку диктует чувство: стихотворения / Б. Л. Пастернак. — М.: Эксмо, 2008. — 413 с.
Основные термины (генерируются автоматически): количественная мера информации, текст стихотворения, значение энтропии информации, столбец Н, Столбец, программа, стих.


Похожие статьи

Определение авторства текста по частотным характеристикам

Аналогичным образом формируется мера Хмелёва на основе частотного анализа текста. За основу берётся матрица расстояний между частотами букв известного автора и частотным анализом по анонимному входному тексту. Рассмотрим дивергенцию Кульбака.

Методика заучивания стихов на основе картинно-графических схем

Такой прием запоминания стихов называется «рисованием стихотворения». Стихотворный текст кодируется с помощью рисунков-символов.

Несмотря на то, что объем стихотворения довольно большой, дети быстро запоминают текст и с легкостью его воспроизводят.

Патриотическая лирика Амо Сагияна в переводах Михаила Дудина

Стихи); в 1991 – стихи и поэмы “Судьба”; в 1995 – “Дорогой крови по дороге к Богу” (стихотворения 1986-1993) и др. Как поэт, Дудин считал, что человек должен входить в мир хозяином, согревать его и вносить в него “добро и свет”. Думая об “ответственности действия и...

Мотив смерти в стихотворении Н. С. Гумилева «Заблудившийся...»

Мотив смерти — один из наиболее известных мотивов в литературе. Данный мотив непрерывно эволюционирует. В статье А. Смит «Минуя смерть: последние стихи Н. Гумилева, Н. Оцупа, М. Цветаевой и А. Ахматовой» [1, с. 87] отмечается...

Формирование умения у учащихся анализировать лирическое...

Первый этап работы ̶ изучение восприятия лирического произведения читателями разных возрастных групп. Цель занятий – научить выявлять и анализировать характер первичного восприятия поэтического текста. Для этого прежде всего необходимо разработать вопросы и...

Семантический анализ текстов. Основные положения

Новая информация может каким-то образом противоречить уже накопленной информации.

Проведя поверхностный анализ отечественной и зарубежной литературы по способам и средствам семантического анализа текста, можно сделать следующие выводы

Корреляционные методы пеленгования источников излучения

Рассмотрены методы пеленгования источников излучения (ИИ), основанные на анализе корреляционной матрицы принятых сигналов, анализе собственных значений и собственных векторов корреляционной матрицы.

Статистический анализ диверсификации интеграционной...

Индекс энтропии используется реже, кроме того, он содержит операцию деления, а значит, не подходит для оценки

Таким образом, все показатели структурных сдвигов за исследуемый период показывают приблизительно одинаковое значение происходящих структурных сдвигов...

Понятие информационного шума в социально-гуманитарных науках

Увеличиваются потоки информации и потребности связи между людьми.

В дальнейшем помехи Шеннона в коммуникации стали связывать с понятиями энтропия и негэнтропия.

- Наличие в информационном пространстве узкоспециализированных данных и текстов.

Похожие статьи

Определение авторства текста по частотным характеристикам

Аналогичным образом формируется мера Хмелёва на основе частотного анализа текста. За основу берётся матрица расстояний между частотами букв известного автора и частотным анализом по анонимному входному тексту. Рассмотрим дивергенцию Кульбака.

Методика заучивания стихов на основе картинно-графических схем

Такой прием запоминания стихов называется «рисованием стихотворения». Стихотворный текст кодируется с помощью рисунков-символов.

Несмотря на то, что объем стихотворения довольно большой, дети быстро запоминают текст и с легкостью его воспроизводят.

Патриотическая лирика Амо Сагияна в переводах Михаила Дудина

Стихи); в 1991 – стихи и поэмы “Судьба”; в 1995 – “Дорогой крови по дороге к Богу” (стихотворения 1986-1993) и др. Как поэт, Дудин считал, что человек должен входить в мир хозяином, согревать его и вносить в него “добро и свет”. Думая об “ответственности действия и...

Мотив смерти в стихотворении Н. С. Гумилева «Заблудившийся...»

Мотив смерти — один из наиболее известных мотивов в литературе. Данный мотив непрерывно эволюционирует. В статье А. Смит «Минуя смерть: последние стихи Н. Гумилева, Н. Оцупа, М. Цветаевой и А. Ахматовой» [1, с. 87] отмечается...

Формирование умения у учащихся анализировать лирическое...

Первый этап работы ̶ изучение восприятия лирического произведения читателями разных возрастных групп. Цель занятий – научить выявлять и анализировать характер первичного восприятия поэтического текста. Для этого прежде всего необходимо разработать вопросы и...

Семантический анализ текстов. Основные положения

Новая информация может каким-то образом противоречить уже накопленной информации.

Проведя поверхностный анализ отечественной и зарубежной литературы по способам и средствам семантического анализа текста, можно сделать следующие выводы

Корреляционные методы пеленгования источников излучения

Рассмотрены методы пеленгования источников излучения (ИИ), основанные на анализе корреляционной матрицы принятых сигналов, анализе собственных значений и собственных векторов корреляционной матрицы.

Статистический анализ диверсификации интеграционной...

Индекс энтропии используется реже, кроме того, он содержит операцию деления, а значит, не подходит для оценки

Таким образом, все показатели структурных сдвигов за исследуемый период показывают приблизительно одинаковое значение происходящих структурных сдвигов...

Понятие информационного шума в социально-гуманитарных науках

Увеличиваются потоки информации и потребности связи между людьми.

В дальнейшем помехи Шеннона в коммуникации стали связывать с понятиями энтропия и негэнтропия.

- Наличие в информационном пространстве узкоспециализированных данных и текстов.

Задать вопрос