Одним из преимуществ систем электронной коммерции является то, что они позволяют покупателям и продавцам знакомиться с обзорами товаров и услуг. В настоящее время в самых популярных интернет-магазинах имеются сотни и даже тысячи отзывов на те или иные товары, которые содержат ценную информацию о качестве предлагаемого ассортимента. Это является причиной поиска путей их компьютерной обработки. В статье предлагается подход к автоматизированному анализу отзывов клиентов, основанный на технологии обработки естественного языка и применении методов машинного обучения. Предложена модель анализа и ее реализация с помощью программного продукта RapidMiner.
Ключевые слова: интеллектуальный анализ данных, сеть майнинг, анализ, поддержка Векторные машины, электронная коммерция, RapidMiner.
Введение
В последние годы Интернет зарекомендовал себя как один из самых богатых и легкодоступных источников информации. В глобальной сети есть большое количество документов, данные, аудио- и видеофайлы, множество записанных отзывов клиентов. Все эти ресурсы являются носителями знаний о бизнесе и после соответствующей компьютерной обработки они могут внести свой вклад в более подробный анализ и помочь выявить и изучить новые отношения. В сфере электронной коммерции основная деятельность осуществляется через динамические онлайн-системы. Одной из основных проблем для этого вида бизнеса является создание быстрых и точных решений в соответствии с изменениями рыночной конъюнктуры. Системы электронной коммерции генерируют подробные и разнообразные отчеты, которые в основном основаны на статистической обработке данных, хранящихся в базе данных. В последнее время для более подробного и углубленного анализа в этой области был использован интеллектуальный бизнес-анализ на основе как структурированных, так и неструктурированных данных.
Практика показала, что в настоящее время новые клиенты интернет-магазинов во многом полагаются на мнениях, размещенных от существующих клиентов. Кроме того, производители и сервис-поставщики также заинтересованы в анализе мнений клиентов для улучшения качества и стандартов продуктов и услуг. Все это требует поиска новых и эффективных способов преобразования неструктурированных данных, таких как мнения клиентов, в подробные отчеты и анализы.
Цель данной статьи — предложить подход к автоматизированному анализу отзывов о товарах интернет-магазина, основанные на изучении существующих технологий обработки естественного языка.
І. Теоретические основы вычислительной техники для обработки естественного языка
Концепция обработки естественного языка (NLP) — это широкий термин, который можно рассматривать как синтез искусственного интеллекта и компьютерной лингвистики. В настоящее время многие исследователи изучают различные аспекты интеллектуальной обработки текста. В общем, обнаружение знаний в неструктурированных данных в литературе известно, как интеллектуальный анализ текста. Этот процесс осуществляется за счет применения технологии интеллектуального анализа данных (DM) к неструктурированным текстовым данным. Накопление все большего количества информации в Сети становится предпосылкой для извлечения знаний из Интернет-источников, таких как веб-страницы. Рождается новая концепция извлечения знаний из веб-ресурсов — веб-майнинг (WM).
Веб-майнинг обычно делится на следующие три подобласти:
— интеллектуальный анализ веб-контента (WCM) — извлечение полезной информации из содержимого веб-документов;
— структурированный веб-анализ (WSM) — извлечение полезных знаний на основе структуры веб-сайтов;
— интеллектуальный анализ использования Интернета (WUM) — извлечение полезной информации из данных об использовании интернет-ресурсов.
За последние годы, в основном благодаря развитию веб-приложений и социальных сетей, в Интернете накопилось большое количество отзывов покупателей, обмен впечатлениями, чувствами, эмоциями. По этой причине многие исследователи сосредоточили свои исследования на двух взаимосвязанных областях, таких как анализ мнений (OM) и анализ настроений (SA) (рис. 1).
Рис. 1. Веб-майнинг, интеллектуальный анализ мнений
Термин «анализ мнений» был введен Дейвом, Лоуренсом и Пенноком. Они определяют его как «набор результатов поиска по заданному элементу, генерирующий список атрибутов продукта (характеристики качества и т. д.) и объединяющий мнения о каждом из них (плохое, смешанное, хорошее)».
Анализ настроений впервые упоминается в работах Даса, Чена и Тонга (2001). Они используют этот термин в автоматическом анализе и оценке текста. Впоследствии во множестве исследований обсуждаются различные аспекты анализа настроений, и во многих из них этот термин используется как синоним анализа мнений, поскольку из записанных комментариев извлекаются эмоции и настроения.
Анализ настроений на уровне документа пытается классифицировать общую позицию в документе как положительную, отрицательную или нейтральную. Для классификации уровня документа можно использовать как контролируемые, так и неконтролируемые методы обучения. При анализе настроений на уровне предложений полярность каждого предложения рассчитывается с использованием тех же методов.
II. Подход к автоматизированному анализу отзывов покупателей интернет-магазина
Системы электронной коммерции представляют собой динамические веб-приложения, обеспечивающие интерактивность и общение с клиентами. Записанные мнения клиентов являются одним из лучших показателей того, насколько хорош сервис интернет-магазина и что нравится или не нравится покупателям, соответствуют ли продукты и услуги описаниям и презентациям, что еще клиенты хотят открыть для себя в интернет-магазине и общие оценки клиентов.
В данной статье для исследования и анализа отзывов покупателей мы предлагаем использовать методы классификации, чтобы сначала выделить мнения о различных характеристиках товаров, а затем оценить полярность отзывов покупателей о них. Модель, которая используется для анализа, показана на рис. 2
Рис. 2. Модель анализа отзывов о товарах и услугах интернет-магазина
Обычно процесс извлечения мнений из текстовых данных является нетрадиционной задачей, потому что данные не структурированы, основаны на WCM и целесообразно анализировать онлайн-отзывы клиентов, выполнив следующие шаги:
- Сбор и запись обзоров продуктов.
- Предварительная обработка текста отзывов о товарах.
- Применение методов обработки текста.
- Анализ и интерпретация результатов.
Сбор отзывов клиентов — это функция, интегрированная в большинство систем электронной коммерции. В одних системах просмотры мы записываем прямо на веб-страницу в формате html, а в других они записываются в базу данных. Однако вне зависимости от хранилища отзывы представляют собой неструктурированные данные — текст.
Предварительная обработка текста — это процесс подготовки текста для прикладных методов интеллектуального анализа данных, таких как: классификация, кластеризация и другие. Текстовые документы обычно имеют большое количество слов, не являющихся носителями полезной информации, и поэтому анализировать все слова нецелесообразно. Рекомендуемые этапы предварительной обработки отзывов клиентов:
— токенизация — разделение полнотекстового обзора на список слов;
— лемматизация — процесс приведения слова к его нефлективной словарной форме;
— удаление стоп-слов — это вспомогательные слова, несущие мало информации о содержании текста, такие как: «за», «после», «так», «потом», «назад», «против»;
— капитализация текста — преобразование символов в нижний регистр.
Многие из вышеупомянутых исследований показывают, что для анализа тональности отзывов клиентов о продуктах и услугах целесообразно использовать методы машинного обучения — обучения с учителем, из которых наиболее успешно применяются для категоризации текста линейные классификаторы Машины опорных векторов (SVM) классификатор на основе алгоритма Naive Bayes (NB)
Заключение
Быстрое развитие социальных сетей и возможностей обмена, которые обеспечивают многие приложения, работающие в Интернете, является предпосылкой для создания больших коллекций потребительских отзывов, впечатлений, общих чувств и эмоций. Интеллектуальный бизнес-анализ этих отзывов клиентов важен для бизнеса и поэтому является предметом исследовательского интереса в последние годы. Поскольку конкретного алгоритма для полноценного поиска знаний в тексте не существует, по результатам существующих исследований в данной работе предлагается подход к анализу отзывов покупателей интернет-магазинов, с помощью которого можно классифицировать высказанные мнения и сделать выводы о качество товаров может быть сделано.
Полученные в результате новые знания могут помочь улучшить ассортимент продукции и повысить удовлетворенность клиентов, а для компаний, занимающихся электронной коммерцией, это крайне важно, поскольку от этого во многом зависят доходы от продаж. Кроме того, этот вид анализа может использоваться менеджерами для создания успешных бизнес-стратегий на основе полученных в результате глубоких и точных анализов и прогнозов. Извлечение новых знаний из интернет-ресурсов может стать важным конкурентным преимуществом для компаний, занимающихся электронной коммерцией, поскольку в целом способствует совершенствованию их бизнеса.
Литература:
- Анкиткумар, Д., Бадре, Р., Киникар, М. (2014) Обзор по анализу настроений и анализ мнений. Международный журнал инновационных исследований в области компьютеров и техника связи. 2 (11). с. 6633–6639.
- Кули, Р., Мобашер, Б. и Сривастава, Дж. (1997) Веб-майнинг: информация и обнаружение паттернов во всемирной паутине. Труды Международного Конференция по инструментам с искусственным интеллектом. с. 558–567
- Д’Аванцо, Э., Пилато, Г. (2015) Изучение мнений пользователей социальных сетей в помощь решения покупателей о покупках. Компьютеры в человеческом поведении. 51. с. 1284–1294 гг.
- Дэйв, К., Лоуренс, С. и Пеннок, Д. (2003) Добыча арахиса в галерее: Извлечение мнений и семантическая классификация отзывов о продуктах. Труды WWW. с. 519–528.
- Эциони, О. (1996) Всемирная паутина: трясина или золотая жила? Коммуникации АКМ. 11. с. 65–68.