Метрики семантических данных

Дементьев Алексей Вадимович

Данная статья повествует о семантической метрике извлечения перечня понятий из текстов на соответствующую тематику. Онтологический анализ представляет основу для данной метрики. Для обнаружения семантической метрики применяется два показателя — показатель вложенных взаимодействий и тезаурусный подход.

Ключевые слова: тезаурус, семантическая метрика, онтология, информационная единица, предметная область.

Статистические и лингвистические подходы представляют некий фундамент в отношении процессов обнаружения лексикографических и терминоведческих понятий. Статистические подходы базируются на расчётах терминологической концентрации на основе цифровых взаимосвязей, характерных для понятия/непонятия. Дифференциация в соответствии с лексико-грамматическими стандартами и терминологическими аспектами является основанием для формирования лингвистического подхода. [3]

В ходе обнаружения терминологических единиц в тексте ключевой минус применения статистических и лингвистических подходов заключается в невозможности выявления наиболее узконаправленных понятий, относящихся к исследуемой отрасли.

Основная доля информационных компонентов предполагает наличие соотношения, отражающего ситуационное взаимодействие данных компонентов. Другими словами, оно показывает ассоциативную интеграцию. Для описанного соотношения рационально подобрать термин «релевантность информационных компонентов». [5]

Если предусмотрено исследование весомых объёмов документации, следует брать в расчёт её тематику для получения наиболее достоверного перечня понятий, относящихся к той или иной сфере. В целях реализации аналогичных операций применяются семантические механизмы, основанные на соответствующих метриках.

На сегодняшний день онтологический подход является наиболее рациональным с точки зрения обнаружения информационных компонентов в рамках одной отрасли, а также выявления профессиональных данных касаемо семантической трактовки. По данной причине формирование и применение семантических метрик на базе онтологической модели является наиболее продуктивным способом решения проблемы, связанной с обнаружением понятийного аппарата в большом документационном объёме. [4]

Формальная система онтологии конкретной отрасли.

Концепция онтологического подхода заключается в том, что исследуемая отрасль развёртывается в качестве перечня терминов, их особенностей и функций.

Язык OWL является наиболее оптимальной демонстрацией онтологии с позиции машинной корректировки, наглядности трактования конкретной отрасли.

Далее целесообразно отметить ключевые обязательства к онтологии OWL, применяемой в качестве инструменты выявления понятий:

Основная онтологическая функция заключается в полноценном отображении объектных признаков в той или иной отрасли.

Не допускается онтологического избытка.

Обязательна внешняя демонстрация онтологии.

Онтологический метод информационного хранения предусматривает её демонстрацию в следующем формате:

O = <Т, R, F>(1)

Учитывая данную модель, следует выделить онтологические компоненты:

Т — понятия прикладной сферы, описанной посредством онтологии.

R — взаимодействия между понятиями объектной отрасли, при условии, что R:

Rinc — совокупность встроенных взаимодействий, к примеру, «sameAs» и «SubClassOf».

Radd — совокупность взаимодействий, которые дают возможность расширить объектное множество посредством взаимодействия лемм взаимодействующих компонентов.

Rterm — взаимодействие представляет собой понятие, представляющее логический вид трактовки. Данный признак носит дополняющий характер, обнаруживается специалистом на основе показателя того, как объект взаимодействует с рассматриваемой отраслью.

Rlem — взаимодействие предполагает лемму, обладающую строковыми особенностями, извлекаемыми из леммирования объектного имени посредством ПО «Mystem» компании Яндекс согласно соответствующим морфологическим особенностям понятия.

Rnc — совокупность объектных взаимодействий, в том числе и особенностей информационных единиц, дающих полноценную трактовку объектному взаимодействию исследуемой отрасли.

F — совокупность интерпретирующих функций, закреплённых за понятиями или онтологическими взаимодействиями. [2]

Применение семантической метрики понятие/непонятие в рамках совокупности слов одного текстового отрывка с применением онтологии OWL предусматривает трактовку для каждого направленного слова или словосочетания уровня интеграции к понятиям исследуемой сферы.

Интеграционный уровень входных слов и словосочетаний к понятиям рассматриваемой отрасли демонстрирует показатели от нуля до единицы. Если полученный показатель находится в пределах единицы, вполне вероятно, что он обладает статусом понятия. [3]

В данном случае следует отметить два семантических показателя:

Тезаурусный показатель.
Показатель вложенных взаимодействий.

Тезаурусом является контролируемый понятийный аппарат, сформированный на естественном языке, отражающий взаимодействие между понятиями и выполняющий функцию информационного поиска. Каждая онтологическая единица представляет собой наиболее сложный тип тезауруса. [4]

Тезаурусный метод обнаружения понятийного аппарата предусматривает прямой поиск леммных входов и их словосочетаний, трактуемых онтологическим путём. В данном разрезе каждый онтологический класс предполагает признак наличия Леммы, выраженной в строковом формате, сформированного посредством леммирования объектного наименования не без поддержки ПО «Mystem» от компании Яндекс.

Механизм определения уровня интеграции слов и словосочетаний с понятиями исследуемой отрасли в соответствии с таурусным методом включает:

Оценку интеграционного уровня входящего словесного механизма каждому онтологическому компоненту без расчёта онтологического оценочного показателя.

Формирование опорного онтологического компонента, сопряжённого с понятием проблемной отрасли.

Онтологическое устройство предусматривает у каждого компонента признак наличия термина, обладающего логическим типом трактовки. Данный признак носит дополняющий характер и выявляются специалистов на основе сопряжённости понятия с исследуемой отраслью. Несмотря на оценку интеграционного уровня, сформированная метрика даёт возможность обнаружить понятия из текстового отрывка с помощью их сравнения с уже выявленными онтологическими компонентами и леммными взаимодействиями посредством соотношения Radd, рассчитанных онтологическим путём.

Получается, что в процессе соотнесения входных словесных единиц и объектов исследуемой сферы, интегрированных посредством соотношения Radd, понятием следует называть сочетание слов, лемма которых имеет полноценное соотношение с совокупностью лемм аналогичных онтологических компонентов.

Для применения обнаруженного понятия целесообразно использовать соотношение Radd, объектное взаимодействие которого позволяет складывать сочетания слов в натуральном формате.

Для оценки полученных результатов, происходит группировка данных по следующим критериям:

– Истинно-положительные (true positives, tp) — ожидаемые результаты.

– Ложно-положительные (false positives, fp) — ошибочные результаты в выдаче.

– Ложно-отрицательные (false negatives, fn) — ожидаемые результаты, но не попавшие в выдачу.

– Истинно-отрицательные (true negatives, tn) — результаты, которые не попали и не должны были попасть в выдачу.

Следовательно, точность (P, precision), которая указывает на то, сколько точных результатов получено в выдаче, определяется по формуле:

(2)

Однако, этого недостаточно для оценки того, все ли ожидаемые результаты попали в выдачу, поэтому используется еще одна формуала для оценки полноты выдачи (R, recall):

(3)

Кроме того, для более корректного анализа данных, получаемых по семантической метрике, рекомендуется использовать унифицированную метрику F _1, для расчета которой используется формула:

(4)

Данная метрика позволяет оценить пороговое качество семантической метрики.

С позиции рассматриваемых показателей осуществляются процессы:

Специалист в исследуемой сфере формирует соответствующую онтологию OWL.

Формируется онтологически-направленный механизм обнаружения понятийного аппарата, предполагающего указанные раннее метрики для реализации задачи выявления степени понятийности слова или словосочетания внутри большого документационного объёма.

Онтология OWL предусматривает системное построение в формате иерархии и составляет категории взаимодействия между классовыми объектами. Включает несколько иерархических ступеней для максимальной трактовки понятий исследуемой сферы, применяемой для решений установленной проблемы.

Принцип механизма обнаружения понятий заключается в выполнении следующих операций:

Вычисление статистических и лингвистических признаков полученного текстового отрывка, предусматривающего морфологическую разметку. Расчёт ведётся с помощью системного модуля.

Вычисление семантических словесных признаков, а также особенностей сочетаний слов в тексте, подверженном обработке. Расчёт основан на указанных раннее подходах и онтологии формата OWL.

Учитывая вышеизложенное, можно сделать вывод, что семантическая метрика понятия/непонятия, разработанная на базе онтологии проблемной отрасли позволяет обнаружить только те слова и словосочетания, которые являются официальными понятиями рассматриваемой сферы. Для каждого входного словесного компонента устанавливается числовой показатель, обозначающий уровень их интеграции.

Рассматриваемая метрика может применяться как автономная или как дополнение к лингвистической/статистической метрике, применяемых для обнаружения понятийного аппарата в аналитических целях.

Литература:

1. Андреев И. А., Башаев В. А., Клейн В. В. Разработка программного средства для извлечения терминологии из текста на основании морфологических признаков, определяемых программой Mystem // Интегрированные модели и мягкие вычисления в искусственном интеллекте. — М.: Физматлит, 2013. — С. 1227–1236.

2. Добров Б. В., Лукашевич Н. В., Сыромятников С. В. Формирование базы терминологических словосочетаний по текстам предметной области // Тр. 5-й Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). — СПб., 2003. — С. 201–210.

3. Усталов Д. А. Семантические сети и обработка естественного языка // Открытые системы. СУБД. 2017. № 2. C. 51–53.

4. Hryhorovych V., «Construction of Normalized Metric for Hierarchical Data Structures based on Harmonic Functions», 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT) , 2021, pp. 146–149 .

5. Lourdusamy R. and John A., «A review on metrics for ontology evaluation», 2018 2nd International Conference on Inventive Systems and Control (ICISC) , 2018, pp. 1415–1421.

Молодой учёный

Метрики семантических данных

Метрики семантических данных

Молодой учёный