Использование методов кластеризации для автоматизированного формирования пакетов документов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 27 апреля, печатный экземпляр отправим 1 мая.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №10 (45) октябрь 2012 г.

Статья просмотрена: 153 раза

Библиографическое описание:

Кроль, Т. Я. Использование методов кластеризации для автоматизированного формирования пакетов документов / Т. Я. Кроль, М. А. Харин. — Текст : непосредственный // Молодой ученый. — 2012. — № 10 (45). — С. 93-95. — URL: https://moluch.ru/archive/45/5425/ (дата обращения: 19.04.2024).

Электронные архивы документов позволяют накапливать большие массивы документации: финансовой, конструкторской, уставной и др. Одной из важнейших функций архива является быстрый и удобный поиск необходимых документов. Методы поиска в архиве были описаны в статье [1]. Они включают в себя поиск по значениям атрибутов документа и полнотекстовый поиск по содержанию документа. Однако не всегда требуется найти только один документ определенного типа, зачастую требуется найти набор технической документации по конкретному объекту или набор финансовых документов с определенным контрагентом. Для группировки документов можно использовать механизм пакетов – логических групп документов.

В системе «ДокПрофи™» первоначальное разбиение на пакеты происходит при загрузке документов в архив. Во-первых, автоматически создаются пакеты текущей даты в формате «Год» => «Месяц» => «День». Во-вторых, мастер загрузки документов, описанный в статье [2], позволяет работать с пакетами: создавать, изменять, удалять, наполнять. Аналогичные операции также можно выполнять в Web-интерфейсе, описанном в статье [2]. Однако ручное разбиение документов на пакеты может быть трудоемкой работой. Рассмотрим пример (рис. 1)

Рис. 1. Набор документации по объектам


Пусть документация по объектам первоначально сгруппирована по пакетам. В каждом пакете находится множество документов различных типов: договоры и соглашения, акты, счета, накладные, корреспонденция и другие. При этом работы на объекте могут выполняться различными подрядчиками, причем с одним и тем же подрядчиком может быть заключено несколько договоров на разные виды работ. Однако при подготовке отчетов, например, для налоговой службы, необходимо выбрать документы по определенному договору. Для этого выполним разбиение документов на подпакеты, используя методы кластеризации, описанные в статье [3].

Анализируя документы по объекту, наметим будущую структуру пакетов в виде следующей иерархии:

  • документ от внешнего контрагента или филиала организации;

  • наименование контрагента;

  • номер договора;

  • тип документа;

  • дата и номер документа. Это необходимо, например, для группировки актов о приемке выполненных работ КС-2 и справок о стоимости выполненных работ и затрат КС-3, которые должны иметь соответствие. При этом одной справке КС-3 могут соответствовать несколько актов КС-2.

Сформируем кластеры по алгоритму, описанному в статье [3]. Например, выберем документы типа «Счет-фактура», этот тип содержит атрибуты «Поставщик» и «Адрес поставщика». В статье [4] описан метод полного вероятностного справочника, заключающийся в последовательном переборе документов и подсчете вероятностей появления пар значений атрибутов. Применяя данный метод, получим справочник, то есть набор правил вида:

«Если , то с вероятностью», где – атрибут «Поставщик», – атрибут «Адрес поставщика». Например, можно получить следующие правила:

  • если «Поставщик» = «Новомосковское управление филиал ОАО "Электроцентромонтаж"», то «Адрес поставщика» = «301603, Тульская обл, Новомосковский р-н, Новомосковск г,Транспортная 1-я ул, дом № 5а» с вероятностью 62%;

  • если «Поставщик» = «Новомосковское управление филиал ОАО "Электроцентромонтаж"», то «Адрес поставщика» = «301603, Тульская обл, Новомосковский р-н, Новомосковск г, Транспортная 1-я ул, дом № 5а, тел.: (48762) 7-15-82» с вероятностью 15%;

  • если «Поставщик» = «Новомосковское управление филиал ОАО "Электроцентромонтаж"», то «Адрес поставщика» = «301651 г Новомосковск Тульской обл , ул Транспортная, 5а» с вероятностью 23%.

Как видно, при одном и том же значения атрибута «Поставщик» существуют разные варианты написания атрибута «Адрес поставщика», хотя по сути это также одно значение. Поэтому все подобные значения следует объединить в один кластер. Для этого выполняются шаги кластеризации по следующему принципу:

  • выбираем все правила с одинаковым значением атрибута «Поставщик», например, «Новомосковское управление филиал ОАО "Электроцентромонтаж"».

  • составляем множество P соответствующих значений атрибута «Адрес поставщика».

  • ищем все правила, где значение атрибута «Адрес поставщика» равно одному из значений множества P.

  • все значения атрибута «Поставщик» из этих правил включим в множество C. Например, это могут быть значения «НМУ филиал ОАО "Электроцентромонтаж"», «Новомосковское управление» и другие.

  • далее шаги кластеризации повторяются для всех элементов множества C до тех пор, пока оно не перестанет изменяться.

Аналогичные кластеры создадим на основе пар атрибутов «Поставщик» - «ИНН поставщика» и «Продавец» - «ИНН продавца». Соответственно, получаем кластеры организаций. Для определения, внешняя это организация или внутренняя используем простое правило: «Если хотя бы одно наименование организации содержит в себе наименование основной организации ("Электроцентромонтаж"), то это внутренняя организация». Далее документы необходимо разбить по организациям. Однако надо учесть, что искомое наименование в разных типах может храниться в разных атрибутах. Например, в документах типа «Дополнительное соглашение» организация хранится в атрибуте «Контрагент», в документах типа «Акт о приемке выполненных работ КС-2» - в атрибуте «Подрядчик» и так далее.

Далее документы, содержащие информацию о номере договора, можно разделить по этому номеру. При этом необходимо учесть, что в самих договорах, наряд-заказах и дополнительных соглашениях номер хранится в поле «Номер», а в документах типа «Акт о приемке выполненных работ КС-2» и «Справка о стоимости выполненных работ и затрат КС-3» он хранится в поле «Договор подряда»

В результате всех операций получим дерево пакетов, приведенное на рис. 2

Рис. 2. Дерево пакетов после выполнения операций


Таким образом, с помощью методов кластеризации была проведена реорганизация структуры пакетов, что позволяет упростить поиск нужных документов. Также архив поддерживает пакетную печать документов, то есть позволяет напечатать сразу все документы одного пакета. Соответственно при введении структуры пакетов подготовка отчета по определенному объекту, договору или номеру акта КС-2 значительно упрощается.


Литература:

Кроль Т.Я. Методы поиска в электронном архиве / Т.Я.Кроль, М.А.Харин, Н.В.Никоноров, Д.В.Иванов // Информационные технологии моделирования и управления. – 2011. - № 6. - С. 702-709.

Кроль Т.Я. Опыт построения и реализации электронного архива на базе системы сканирования и распознавания Flexi Capture / Т.Я.Кроль, М.А.Харин // Программная инженерия. – 2012. -№6. – С. 35-42.

Кроль Т. Я. Методы решения задачи кластеризации и прогнозирования в электронном архиве [Текст] / Т. Я. Кроль, М. А. Харин // Молодой ученый. — 2011. — №6. Т.1. — С. 135-137.

Кроль Т.Я. Методы создания справочника на основе электронного архива / Т.Я. Кроль, М.А.Харин, П.В.Евдокимов // Известия КБНЦ РАН. – 2011. – №1.

Дюк В.А. Data Mining - интеллектуальный анализ данных. – Режим доступа: http://www.olap.ru/basic/dm2.asp, свободный.



Основные термины (генерируются автоматически): Адрес поставщика, документ типа, документ, значение атрибута, дерево пакетов, Новомосковское управление, номер договора, Поставщик, филиал ОАО, шаг кластеризации.


Похожие статьи

Обзор средств автоматизированного извлечения знаний и их...

Например, для документа типа "Договор выполнения работ по заказу" набор атрибутов включает в себя текстовые поля "Агент" и "Контрагент", числовое поле "Сумма договора"; для типа

· последовательность; · классификация; · кластеризация; · прогнозирование.

Автоматизация системы управления в сфере учета и управления...

– учет серийных номеров, сроков годности и сертификатов

Чтобы зарегистрировать факт поступления (ТМЦ) на склад от поставщика, используют документ «Поступление товаров и услуг».

Методы решения задачи кластеризации и прогнозирования...

Все значения включим в множество . Это и есть шаг кластеризации.

Основные термины (генерируются автоматически): значение функции, документ, значение атрибута, функция, Адрес организации, значение атрибутов, электронный архив, наименование организации...

Обзор существующих программных продуктов предпочтовой...

Так же не сохраняет адреса, что требует ввода адресов вручную, усложнен алгоритм импорта адресов из других программных продуктов.

В ней есть основной документ «Реализация товаров и услуг», являющийся основанием для расчетов и создания заполненных бланков для...

Документирование деятельности ОАО «Газпром» при внедрении...

- работа с документами любых типов: офисными документами, текстами, изображениями, аудио- и

Следует отметить, что ОАО «Газпром» обладает развитой сетью филиалов, для

Документирование системы менеджмента качества. Система в управлении инновационной...

Кластер как основа управления промышленными предприятиями

Кластер – это объединение предприятий, поставщиков оборудования, комплектующих

Данный метод позволяет оценить уровень сложности и тип взаимоотношений между компонентами кластера, эффект синергии.

2) поставщики предприятий кластера

Применение методов кластеризации для обработки новостного...

Кратко рассматриваются различные типы алгоритмов кластеризации в зависимости от модели представления

При этом каждому объекту приписывается номер кластера yi.

Таким образом, выстраивается бинарное дерево, листья которого – документы исходной коллекции.

Метод автоматизированного анализа электронных документов...

Концевые узлы дерева содержат значения параметров документа. Пример XML-документа приведен в таблице 1.

Использование методов кластеризации для автоматизированного формирования пакетов документов.

Похожие статьи

Обзор средств автоматизированного извлечения знаний и их...

Например, для документа типа "Договор выполнения работ по заказу" набор атрибутов включает в себя текстовые поля "Агент" и "Контрагент", числовое поле "Сумма договора"; для типа

· последовательность; · классификация; · кластеризация; · прогнозирование.

Автоматизация системы управления в сфере учета и управления...

– учет серийных номеров, сроков годности и сертификатов

Чтобы зарегистрировать факт поступления (ТМЦ) на склад от поставщика, используют документ «Поступление товаров и услуг».

Методы решения задачи кластеризации и прогнозирования...

Все значения включим в множество . Это и есть шаг кластеризации.

Основные термины (генерируются автоматически): значение функции, документ, значение атрибута, функция, Адрес организации, значение атрибутов, электронный архив, наименование организации...

Обзор существующих программных продуктов предпочтовой...

Так же не сохраняет адреса, что требует ввода адресов вручную, усложнен алгоритм импорта адресов из других программных продуктов.

В ней есть основной документ «Реализация товаров и услуг», являющийся основанием для расчетов и создания заполненных бланков для...

Документирование деятельности ОАО «Газпром» при внедрении...

- работа с документами любых типов: офисными документами, текстами, изображениями, аудио- и

Следует отметить, что ОАО «Газпром» обладает развитой сетью филиалов, для

Документирование системы менеджмента качества. Система в управлении инновационной...

Кластер как основа управления промышленными предприятиями

Кластер – это объединение предприятий, поставщиков оборудования, комплектующих

Данный метод позволяет оценить уровень сложности и тип взаимоотношений между компонентами кластера, эффект синергии.

2) поставщики предприятий кластера

Применение методов кластеризации для обработки новостного...

Кратко рассматриваются различные типы алгоритмов кластеризации в зависимости от модели представления

При этом каждому объекту приписывается номер кластера yi.

Таким образом, выстраивается бинарное дерево, листья которого – документы исходной коллекции.

Метод автоматизированного анализа электронных документов...

Концевые узлы дерева содержат значения параметров документа. Пример XML-документа приведен в таблице 1.

Использование методов кластеризации для автоматизированного формирования пакетов документов.

Задать вопрос