Введение
Благодаря анонимности интернет-СМИ и социальных сетей, люди склонны выражать свои чувства и страдания в интернет-сообществах. Для предотвращения самоубийств необходимо выявлять сообщения о самоубийствах и представления пользователей о самоубийствах в киберпространстве методами обработки естественного языка. Мы фокусируемся на социальной сети «ВКонтакте» и классифицируем сообщения пользователей с потенциальным самоубийством и без суицидального риска с помощью обработки текстов и методов, основанных на машинном обучении.
Актуальность темы
Самоубийство можно рассматривать как одну из самых серьезных проблем социального здоровья в современном обществе. Многие факторы могут привести к самоубийству, например, личные проблемы, такие как безнадежность, сильная тревога, шизофрения, алкоголизм или импульсивность; социальные факторы, такие как социальная изоляция и чрезмерная подверженность смерти; или негативные жизненные события, включая травматические события, физические заболевания, аффективные расстройства и предыдущие попытки самоубийства. Тысячи людей во всем мире ежегодно становятся жертвами самоубийств, что делает профилактику самоубийств критически важной глобальной миссией общественного здравоохранения.
Согласно мировым статистическим данным, Казахстан занимает 3–4 место в мире по количеству суицида [1], а также 1 место по количеству самоубийств среди девушек в возрасте от 15 до 19 лет во всем мире [2] [6].
Данные графики подтверждают высокий уровень суицида в стране по сравнению с соседними азиатскими странами:
Суицидальные мысли или суицидальные мысли — это мысли людей о самоубийстве. Его можно рассматривать как показатель риска суицида. Суицидальные мысли включают мимолетные мысли, обширные мысли, подробное планирование, ролевые игры и неполные попытки. Согласно отчету, ВОЗ [3], в 2015 г. по оценкам 788 000 человек во всем мире совершили самоубийство. И большое количество людей, особенно подростков, были зарегистрированы с суицидальными идеями. Таким образом, одним из возможных подходов к эффективному предотвращению самоубийств является раннее выявление суицидальных идей.
Цель исследования
Сокращение самоубийств среди подростков Казахстана путем исследования социальной сети «ВКонтакте».
Задачи исследования
- Провести анализ раннее написанных суицидальных постов в социальных сетях.
- Выявить ключевые слова, связанные со склонностью к суициду.
- Разработать ПО для нахождения суицидальных постов, по ключевым словам, и их авторов в социальной сети «ВКонтакте».
- Разработать алгоритм машинного обучения для очистки данных, классификация на суицидальные и несуицидальные записи.
- Анализ пользователей, которые отправляют такие посты, либо подписаны на соответствующие группы.
- Отправка информации о пользователях в учебные заведения, для последующей работы с ними.
Объект исследования: Интернет.
Предмет исследования: Социальная сеть «ВКонтакте».
Методы исследования
- Изучение раннее написанных суицидальных постов, нахождение связи между ними.
- Разработка ПО совместно с API Vkontakte, для нахождения и сбора постов, по ключевым словам, в режиме реального времени.
- Построение алгоритма машинного обучения для автоматизации классификации постов на суицидальные и несуицидальные записи.
- Рассылка информации об авторах либо участников групп, публикующих суицидальные посты, в места их обучения, таких как школы, университеты.
Раннее написанные предсмертные записки самоубийц
Для того, чтобы точно определить вероятность определения поста, как поста, носящего суицидальный характер, следует изучить предыдущие предсмертные записки, написанные самоубийцами. Вот несколько таких примеров [4]:
1)«Володька! Посылаю тебе квитанцию кассы ссуд — выкупи, братец, мой бархатный пиджак и носи на здоровье. Еду в путешествие, откуда ещё никто не возвращался. Прощай, дружище, твой до гроба, который мне скоро понадобится»
(студент — товарищу, конец XIX — начало XX века)
2)«Я очень устала от этой круговерти эмоций, поэтому я решила положить ей конец, уйдя из жизни»
(женщина шестидесяти лет, конец XX века)
3)«Я устала жить и не гожусь»
(учительница, конец XIX — начало XX века)
4) «Я на коленях умолял её вернуться, но она не поняла. Прощайте все!»
(Виталий Железнов, 2014 год)
5)«…Пожалуйста, заботься о маленьком Джо, ведь я люблю его всем сердцем. Не говори ему о том, что случилось. Скажи, что я уехал далеко-далеко и, возможно, когда-нибудь вернусь. Добавь, что не знаешь, когда именно. Ну вот, кажется, это всё. Береги себя. P. S. Я знаю, что у нас были шансы помириться, но ты этого не желала, ты хотела быть с кем-то другим, ну, так теперь ты этого добилась. Не могу толком сказать, ненавижу я тебя или люблю. Ты никогда не узнаешь этого. Искренне твой, твой муж Джордж»
(мужчина двадцати четырёх лет, конец XX века)
6)«Милые мои родители, извещаю вас, что я с белого света уволился, а вы будьте здоровы»
(молодой человек из купеческой семьи, конец XIX — начало XX века)
7)«Прости меня, ведь сегодня я умру. Я просто не могу жить без тебя. А значит, можно и умереть. Может, там будет покой. У меня внутри такое ужасное чувство пустоты, которое просто убивает меня. Нет больше сил его терпеть. Когда ты оставила меня, я умер внутри. Должен сказать, что у меня ничего не осталось, кроме разбитого сердца, и именно это подталкивает меня к такому поступку. Я взываю к Богу, чтобы он помог мне, но Он меня не слышит. Иного выбора у меня не осталось»
(мужчина тридцати одного года, конец XX века)
8)«Хана, береги себя и сына и прости меня за твою исковерканную жизнь: прости, моя святая Хана! Если с тобой не ужился, то с кем же в мире могу жить»
(поручик, конец XIX — начало XX века)
9) «Я сижу один. Теперь, наконец, наступит свобода от тех душевных мучений, которые я испытывал. Это не должно ни у кого вызывать удивления. Мои глаза уже очень долгое время говорили об отчаянии. Отверженность, неудачи и крушение надежд сломили меня. Нет никакой возможности вытащить себя из этого ада. Прощай, любимая. Прости меня»
(мужчина сорока девяти лет, конец XX века)
10) «Мама, мамулечка! Я ухожу, чтобы не возвращаться предателем, опозорить всех, весь наш род. Так бывает, выдержи. Я прошу тебя. Я с тобой тот, что был раньше…»
(Александр Долматов, 2013 год)
11)«…Чтобы не оставлять места для домыслов, коротко объясню. В последнее время два инфаркта и инсульт на фоне диабета подарили мне массу неприятных ощущений. Из-за частичного паралича ходить, думать и работать становится труднее с каждым днём. Грядущее растительное существование — оно как-то совсем уж не по мне. Так что, действительно, пора…»
(Андрей Ширяев, 2013 год)
12)«Раз уж у меня нет любви, которая так мне нужна, значит, у меня ничего не осталось»
(женщина, сорок пять лет, конец XX века)
13)«Чувства, пережитые на вершине скалы у водопада Кэгон: Мир слишком велик и история слишком долга, чтобы их могла оценить такая кроха, как существо ростом в пять футов… Истинная природа всего сущего выходит за рамки понимания. Я решил умереть с этой мыслью… Теперь, на вершине скалы, я больше не испытываю тревоги»
(Ми-сао Фудзимура, 1903 год)
14)«Не вините никого: тернистый путь жизни стеснял мне дорогу, я старался освободиться, но напрасно. Теперь не хочу больше идти и не могу»
(учитель, конец XIX — начало XX века)
15)«У всех, кто меня знал, прошу прощения, но Омаха меня изменила и перепахала, а школа, куда я теперь хожу, ещё хуже. Вы услышите о том зле, что я натворю, но меня до этого довела чёртова школа. Я хочу, чтобы вы меня помнили за то, кем я был до этого. Я знаю, что сильно повлиял на жизни семей, которые я разрушил, мне очень жаль. Прощайте»
(предсмертная записка американского старшеклассника, опубликованная им на странице в Facebook, 2011 год)
Из этого следует, что те, кто намеревается покончить жизнь самоубийством, ясно знают на что идут и в своей предсмертной записке стараются ненароком изложить свои будущие планы.
Ключевые слова, подтверждающие возможность определения поста как суицидального
Что значит «ключевые слова, подтверждающие возможность определения поста как суицидального»? Есть некий набор слов, который зачастую используют люди, которые вздумали совершить суицид. В основном эти слова напрямую связаны с идеей жизни и смерти, но порой бывает, что в посты, которые пишутся людьми, находящимися в поникшем, суицидальном настроении, стараются избегать использования слов, напрямую означающих их попытку суицида. Но они стараются использовать синонимы этим самых слов, тем самым давая нам возможность отыскать их посты, используя все более новые и новые наборы ключевых слов.
Из предыдущей темы были выявлены ключевые слова, ассоциирующихся с самоубийством. Например, гроб, жизнь, конец и т. д. Данные ключевые слова помогут в поиске суицидальных постов в социальных сетях.
По мере нахождения суицидальных постов база ключевых слов будет пополняться, тем самым обеспечивая более точно определение суицидальных постов.
Для более точного нахождения суицидальных постов, по ключевым словам, будет произведена встреча с экспертами в этой области, для расширения базы ключевых слов и понимания характерной подписи самоубийц.
Набор имеющихся ключевых слов: убейте, умереть, прощайте, жизнь говно, гроб, не люблю себя, ненавижу себя, хочу умереть, повешаться, суицид, самоубийство, неразделенная любовь, ненавижу школу, умрите, сдохните, сдохну, не хочу жить, на тот свет, умру, рай, ад, я виноват, депрессия, умираю и др.
Разработка Telegram Bot, для сбора постов
Для сбора данных в социальной сети был разработан Telegram Bot, который собирает посты, публикуемые в режиме реального времени, по ключевым словам, найденным из предыдущей темы.
Данный бот собирает все найденные им данные в специальный файл, в котором хранится текст поста, ссылка на пост, ссылка на автора поста.
Бот работает круглосуточно, что позволяет находить посты независимо от часового пояса того, кто захочет опубликовать пост, в котором находится ключевое слово, которое было введено.
Бот использует сразу две технологии одновременно, это Telegram API и API Vkontakte. На основе Streaming API (API для аналитики от «ВКонтакте»), боту направляется 1 % публикуемой информации (смотреть документацию к Streaming API [5]) в социальной сети «ВКонтакте», в момент публикации бот отправляет информацию разработчику, попутно сохраняя ее.
Пример работы бота:
Данные, отправляемые ботом пользователю (все данные сохраняются в отдельном файле):
Данный способ сбора данных является очень эффективным, так как для сбора не требуется постоянный контроль над ситуацией, все происходит автоматически.
Разработка алгоритма машинного обучения на основе собранных данных
По итогу сбора около 5 тыс. постов с возможной склонностью к суициду, будет проведена ручная очистка данных, а также классификация на суицидальные и несуицидальные посты.
Вскоре после этого будет разработан алгоритм машинного обучения, который на основе очищенных и классифицированных на суицидальные посты данных будет автоматически классифицировать новые найденные посты на возможность к определению поста как носящего суицидальный характер, а также на основе суицидальных постов, алгоритм будет пополнять базу ключевых слов, для более точного нахождения суицидальных постов, выдаваемых ботом.
Данные, которые сохраняет бот:
То, как будут выглядеть данные, после ручной очистки и классификации:
После определения суицидального поста начинается анализ пользователя, автора либо участника соответствующей группы на склонность к суициду. Проводится анализ предыдущих опубликованных записей на странице пользователя, проводится анализ на подписку на группы, которые имеют суицидальные наклонности, проводится анализ пользователя на различные факторы возможности суицида.
После определения пользователя как возможного самоубийцу, информация о нем будет передана в учебное заведение, в котором он обучается, для последующей работы с ним и для предотвращения суицида. Но прежде чем реализовать эту возможность, требуется запросить данные обо всех учащихся на территории Казахстана. После определения потенциального самоубийцы, будет произведен поиск по имеющийся базы данных всех учеников на соответствие имени и фамилии. Но так как многие дети предпочитают вести, так называемые, «фейковые» аккаунты, могут возникнуть некоторые трудности с точным определением местонахождения потенциального самоубийцы. Для этого был предусмотрен вариант написания данному пользователю через социальную сеть «ВКонтакте», а также попытка переубедить его совершать суицид в режиме «онлайн». Данная попытка может оказаться малоэффективной, так как мало кто захочет слушать незнакомого человека, особенно когда тот желает поменять твое мнение насчет того или иного вопроса. Но долгое изучение самоубийц говорит о том, что внимание со стороны других людей к их проблеме способно их переубедить и начать жизнь по-новому.
Если же пользователь оставил свои настоящие контактные данные и мы в состоянии определить его местонахождение через базу данных учебных заведений, то информация о пользователе будет передана напрямую в то учебное заведение, в котором обучается потенциальный самоубийца. Далее, с ним будет работать психолог учебного заведения либо классный руководитель (куратор группы). Это поможет преждевременно предотвратить попытку суицида.
Заключение
Количество текста продолжает расти с популяризацией социальных сетей. И профилактика самоубийств остается важной задачей в нашем современном обществе. Поэтому необходимо разработать новые методы выявления в интернете текстов, содержащих суицидальные идеи, в надежде на то, что суицид можно предотвратить.
В данной работе мы исследовали проблему обнаружения суицидальности в онлайн-контенте, генерируемом пользователями. Использование обработки больших данных из социальных сетей с помощью алгоритмов машинного обучения поможет существенно сократить попытки суицида среди подростков путем преждевременного определения суицидального настроения через социальные сети.
Литература:
- https://online.zakon.kz/Document/?doc_id=30468239
- https://www.dropi.ru/posts/15-stran-s-samym-vysokim-urovnem-samoubijstv-v-mire
- http://www.who.int/gho/mental_health/suicide_rates/en/
- https://batenka.ru/resource/suicide/message/
- https://vk.com/dev/streaming_api
- https://kursiv.kz/news/obschestvo/2018–02/kazakhstan-lidiruet-po-chislu-samoubiystv-v-centralnoy-azii
- https://ru.wikipedia.org/wiki/Список_стран_по_количеству_самоубийств