Мәтіндік деректерден ақпаратты алудың қолданыстағы әдістерін шолу | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 25 июля, печатный экземпляр отправим 29 июля.

Опубликовать статью в журнале

Автор:

Рубрика: Молодой ученый Қазақстан

Опубликовано в Молодой учёный №52 (290) декабрь 2019 г.

Дата публикации: 27.12.2019

Статья просмотрена: 24 раза

Библиографическое описание:

Бейсенбеков, Талгат Ринатулы. Мәтіндік деректерден ақпаратты алудың қолданыстағы әдістерін шолу / Талгат Ринатулы Бейсенбеков. — Текст : непосредственный // Молодой ученый. — 2019. — № 52 (290). — С. 453-456. — URL: https://moluch.ru/archive/290/65482/ (дата обращения: 11.07.2020).



Мәтіндік деректерден ақпаратты алудың қолданыстағы әдістері ұсынылған. Мәндер мен қатынастарды бөліп алу тәсілдері қарастырылады. Ашық облыстардан мәндер мен қарым-қатынасты бөлу, атаулы мәндерді өңдеу, сондай-ақ уақыт бойы оқшауланған фактілерді сәйкестендіру техникаларына ерекше көңіл бөлінеді.

Кілтті сөздер: ақпараттық іздеу, ақпаратты алу, мәні, қатынасы, атаулы мәндер, уақытша фактілер

Представлены существующие методы получения информации из текстовых данных. Рассматриваются способы выделения значений и отношений. Особое внимание уделяется технике распределения значений и общения от открытых областей, обработки адресных значений, а также идентификации фактов, локализованных в течение времени.

Ключевые слова: информационный поиск, извлечение информации, сущность, отношение, именованные сущности, временные факты.

Кіріспе

Мақала мәтіндік деректерден ақпаратты алудың қолданыстағы әдістерін шолу болып табылады. Ақпаратты шығару (ақпарат алу) — құрылымдық ақпарат құрылымдық емес мәтіннен алынатын ақпарат іздеудің нақты түрі, нақты іздеу ақпараттық сұрауға сәйкес келетін фактілерді іздеу болып табылады.

Ақпаратты алу ең алдымен мәндер мен қатынастарды іздестірумен байланысты. Бұл күрделі модельдерді және бағдарламаларды іске асыру үшін қажетті мәтінді өңдеудің негізгі кезеңдерінің бірі. Білім негіздері сөздерді өңдеуде, семантикалық іздеуде, сұрақ-жауап жүйесінде, автоматты түрде қолданылады мұғалімсіз мәтінді түсіну (машина оқуы) [1, 2].

  1. Білімдердің машиналық түсінігінің жіктелуі

Білімдердің машиналық түсінігін келесі түрде жіктеуге болады [1]:

1) нақты білім (factual);

2) таксономия (taxonomic):

a) instanceOf;

b) subclassOf.

3) лексикалық (терминология, синонимдік конструкциялар) (lexical);

4) көптілді (аудармалар) (multilingual);

5) динамикалық сервистер (dynamic services) (мысалы, «wsdl: ауа райы (орын?x, уақыт?у)"). WSDL (Web Services Description Language) — XML тілінде негізделген вебсервисттерді сипаттау және оларға қол жеткізу тілі;

6) жалпы мағынаға негізделген сипаттар (common-sense properties) (мысалы, hasProperty (X, Y));

7) жалпы мағынадағы ережелер (common-sense rules)

8) уақытша (temporal) (мысалы, bePresident (USA)@1945);

9) ақпаратты ашық алу (open information extraction) [3–5];

10) әлеуметтік (Пікірлер);

11) эпистемиялық (дұрыс және дұрыс емес сенімдер).

Білім түрінде берілуі мүмкін [1]:

1) ережелер;

2) фреймдер;

3) RDF (Resource Description Framework);

4) онтология (OWL);

5) жоғары ретті логиктер (Higher-order logics).

Тек фактілер ғана емес, метафактілер де (фактілер туралы фактілер) сақталуы мүмкін.

  1. Нысан мен сыныптарды шығару

Семантикалық іздеуде көптеген заманауи жұмыстар WordNet тезаурусына негізделген. WordNet ішіндегі сөздер синтаксиске (синонимдік жолдар) топтастырылады, олар арасындағы қарым-қатынас орнатылады:

1) гипонимия;

2) мерионимдік;

3) трополимия (мысалы, «күзет» — «қозғалыстың» ерекше түрі);

4) салдары («қорылдау» ұйқы дегенді білдіреді);

5) антонимдер және т. б. [6].

Уикипедиядағы [1] негізделген онтология құру жұмыстарының саны артып келеді. Мысалы, YAGO онтологиясында субъектілер автоматты түрде Уикипедиядан шығарылады және WordNet пайдалану арқылы жүйеленген. Мүмкін, кез-келген Википедия беті YAGO-дағы субъект болуы мүмкін. Ұйым класын құру үшін, Уикипедия санатын пайдаланады.

Wikipedia категориялары тұжырымдамалық, қызметтік және тақырыптық. Қызметтік Санаттар нысан кластары бола алмайды. Олар көп емес, сондықтан оларды қолмен алып тастауға болады. Тұжырымдамалық санаттарды тақырыптық санаттардан ажырату үшін Санаттар атауларының беттік лингвистикалық парсингін, атап айтқанда, атаулы топтардың парсері — Noun Group Parser пайдаланады. Парсері санат атауын pre-modifier, head және post-modifier деп бөледі. Эвристикалық түрде Wikipedia-дағы тұжырымдамалық санаттардың көпшілігі көпше түрі бар екені анықталды. Бұл санаттарға келесі алгоритм қолданылады:

  1. Head WordNet синсетасында іздейді.
  2. Нысан берілетін ең қолайлы класс таңдалады.
  3. Head pre-modifier толықтырылады.

KOG (Kylin Ontology Generator) жүйесі Wikipedia және WordNet негізделген. Оқыту үлгісі ретінде YAGO онтологиясын пайдаланады. SVM (support vector machine) және MLN (Markov logic network) сияқты Машиналық оқыту әдістерінің көмегімен Санаттар атаулары арасындағы ұқсас шаралар есептеледі. Санаттарды нақтылау өзгерістер тарихын талдау жолымен жүргізіледі. Көмекші Статистика есептеледі, мысалы, сөздерді ортақ пайдалану [8].

SEAL жүйесінің алгоритмі келесі:

  1. Сынып даналарының аз саны (seeds) таңдалады.
  2. Seeds бар тізімдер, кестелер, мәтін фрагменттері іздестіріледі.
  3. Кандидаттар (cands) кейбір маңайдағы атаулы топтардан алынады.
  4. Үйлесімділік статистикасы жинастырылады (seeds&cands, cands&className).

Үміткерлер өзара ағындық ақпаратқа (pointwise mutual information) немесе басқа байланыс және кездейсоқ кезбе шараларына байланысты «seeds-cands” бағаны бойынша сараланады.

  1. Ашық облыстардан білім алу

Шешілмеген мәселелер «уақытша” білім (temporal knowledge) және ашық облыстардан білім алу болып табылады [1]. Нақты бағытталған іздеуде фактілер үштік болып табылады, әйтпесе бекіту (Assertions), яғни үштік түр іздейді. Аттардың арасындағы фразалар қатынастардың жаңа түрін анықтау мақсатында талданады. Бұл ретте пайдаланылады:

– қашықтан тәуелділік жолымен мұғалімсіз жүктеу;

– CRF (Conditional random field) үш түр үшін (зат, етістік фраза, зат);

– статистиканы құру және сирек кездесетін кандидаттарды жою [1].

Бутсрепингтің жалпы алгоритмі [18]:

  1. Кейбір қатынастар жиынтығы таңдалады.
  2. Корпус бойынша осы қатынастармен байланысты барлық жұптар жиналады.
  3. Табылған жұптар бойынша жаңа шаблондарды іздеу жүзеге асырылады.
  4. Бу элементтері аз қашықтықта кездесетін мәтіндердің фрагменттері іздестіріледі.
  5. Ең жиіліктік үлгілер таңдалады.
  6. Жаңа қарым-қатынастар ағымдағы жиынтыққа қосылады және процесс қайталанады.

Сергей Брин бұл алгоритмді бірнеше рет өзгертті. Жүйесінде Snowball шектеу енгізіледі түрі именованных мәндердің қатысушы қатысты [20]. Бутстрепинг кезінде туындайтын негізгі мәселе, бастапқы іріктемеге қатты тәуелді. KnowItAll жүйесі ұқсас іздеген қолайлы сынып үшін мәні [2].

2009 жылы алғаш рет Text Runner алгоритмі ұсынылды. [3]:

  1. Аздаған оқыту жиыны таңдалады.
  2. NP, қатынасы, NP) түр үштігін алатын парсер іске қосылады, мұнда NP — атаулы топ.
  3. Үштік оң сияқты белгіленеді, егер:

– арасындағы тәуелділік ағашының жолы қысқа Нысандар;

– тәуелділік ағашының жолын кесіп өтпеді фраза шекаралары;

– атаулы фразалардың ешқайсысы білдірілмеген есімдіктер.

– Әйтпесе, ол теріс деп аталады.

  1. Ол тар контексте сөйлеу бөлігі, стоп-сөздер және т. б. сияқты белгілері бойынша ұлттық Байес жіктегіші оқытылады.
  2. Үлкен корпуста:

– іске қосу парсері іске қосылады

– сөйлеу бөліктерін белгілеу;

– атаулы топтарды Іздеу жүзеге асырылады;

– құрылғы арасындағы мәтін алынады

– атаулы топтар;

– эвристиканы пайдалану арқылы

– алынған үзінділерді жеңілдету;

– үміткерлер жіктеуішке кіреді;

– түпнұсқа кандидаттар таңдалады;

– әр қатынастың ықтималдығы есептеледі.

2009 жылы Стэнфорд университетінде гипотеза ұсынылды: егер екі ұйымның кейбір қатынастармен байланысы бар екені белгілі болса, осы субъектілерді қамтитын кез-келген сөйлем бірдей қарым-қатынасты білдіреді. Белгіленген корпус пен жүктеудің орнына, қатынас дерекқорын пайдалану ұсынылды. Әрбір жұп үшін бұл нысандарды қамтитын ұсыныстар дерекқордан таңдалады және шу атрибуттары жойылады. Одан әрі классификатор қолданылады [21].

  1. Аталған нысандарды шығару

Мысалы, ұйым, орын, адамдар, оқиғалар және т. б. объектілер әдетте сұрақ-жауап жүйесіне кіреді. Көптеген сұрақтар жауап ретінде белгілі бір түрдегі атаулы мәнді болжайды (мысалы, «кім? «адамның атын болжайды”, қайда? "- орын).

Табиғи тілдердегі мәтіндерді өңдеуде үш негізгі тапсырма бар.:

1) атаулы нысандарды анықтау;

2) түбіртегі рұқсаты;

3) омонимияны алып тастау [1].

Мәтіннен білімді автоматты түрде алу міндеттерінен басқа, бір мәнді мәселені шешу ақпараттық іздеуде қолданылады. Мысалы, mln аббревиатурасы Minuteman Library Network, My LEGO Network, Manage Large Networks, Markov logic network немесе жай ғана қысқартылуы мүмкін (million-дан). Профайл немесе сұраныс статистикасы бар болса, іздеуші пайдаланушының ақпараттық қажеттіліктеріне барынша сәйкес келетіндай ранжирлеуді жүргізе алады. Бұдан басқа, алынған омонимия құжаттарды жақсы жіктеуге мүмкіндік береді. Көптеген атаулы нысандар тіпті үлкен аннотацияланған корпуста да сирек кездеседі [16].

Аталған мәндерді алу үшін бірнеше белгілер түрлері қолданылады:

1) сөздер деңгейінің белгілері (N-граммдар, жұрнақтар, префикстер, сөйлеу бөліктері және т. б.).);

2) құжат деңгейінің белгілері (корпуста акронимдердің болуы, сөйлемдегі терминнің позициясы, тақырыптағы немесе мәтіндегі және т. б. терминдердің болуы.);

3) Қосымша ақпарат (газеттер, көрсеткіштер сөздері, мысалы, Inc., Corp., стоп-сөздер тізімі, капитализациясы бар сөздер, олар атаулы мәндер емес және т. б.).

Бір құжаттың шегінде бір нысанға немесе түрлі объектілерге қатысты болуы мүмкін бір атаудың бірнеше ұқсастығы болуы мүмкін. Қарапайым жағдайда, әдетте, бір құжатта бір атау бірдей мағынаға жатады деген жорамалданады. Аталған мәндерді алудың көптеген әдістері олардың тәуелсіздігі туралы жорамалданады. Іс жүзінде олар көрші сөздерге тәуелді, мысалы, New York — орын, ал New York Times — ұйым. Туралы болжам байланысты именованных мәндердің көршілес сөздердің пайдаланылады HMM (Hidden Markov Model) және CRF модельдер [16]. Гипотезаға сүйенетін техника бар, бірдей терминдердің бір құжаттың шеңберінде ғана емес, барлық корпуста бірдей белгілері болуы тиіс. Деректер анықталмаған жағдайда кластерлеуді жүргізеді, ал кластер нөмірі жіктеуші белгі ретінде пайдаланылады [24].

Қорытынды

Ақпаратты алу ақпараттық іздестірудің күрделі жүйелерін, оның ішінде сұрақ-жауап беру жүйелерін құрудағы негізгі кезең болып табылады. Құрылымдалмаған деректерден, атап айтқанда мәтіндік корпустардан ақпарат алудың қолданыстағы әдістерінің әртүрлілігіне қарамастан, білім базасын Автоматты құрумен байланысты ақпараттық іздестірудің түйінді мәселелері әлі күнге дейін шешілмеген. Көптеген әдістер бар онтологияға сүйенеді (мысалы, WordNet). Ашық облыстардан білім алу, уақыт бойы локализацияланған фактілерді іздеу, сондай-ақ атаулы мәндерді алу сияқты салалар ең аз әзірленген болып табылады. Ақпаратты алу жүйелерін бағалау әдістері де пысықтауды қажет етеді,өйткені корпусты эталондық белгілеумен салыстыруға сүйенеді.

Әдебиеттер:

  1. Weikum G. Knowledge Harvesting from Web Sources // RuSSIR/EDBT 2011. Saint Petersburg. 2011.
  2. Etzioni O., Banko M., Cafarella M. J. Machine Reading // Proceedings of AAAI. 2005.
  3. Banko M. Open Information Extraction for the Web. Washington: University of Washington. 2009.
  4. Banko M. et al. Open Information Extraction from theWeb // Communications of the ACM — Surviving the data deluge, New York, 51, № 12. 2008.
  5. Wu F., Weld D. S. Open Information Extraction using Wikipedia // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010. P. 118–127.
  6. Miller G. A., Beckwith R., Fellbaum C. Introduction to WordNet: An On-line Lexical Database. 1993.
  7. Suchanek F. M., Kasneci G,. Weikum G. YAGO: A Core of Semantic Knowledge // WWW 2007 / Track: Semantic Web. 2007.
  8. Wu F., Weld D. S. Automatically refining the wikipedia infobox ontology // WWW. 2008.
  9. Milne D., Witten I. H. An Effective, Low-Cost Measure of Semantic Relatedness Obtained from Wikipedia Links // Proceedings of AAAI. 2008. P. 25–30
  10. Mchale M.A Comparison of WordNet and Roget's Taxonomy for Measuring Semantic Similarity // Proceedings of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems. 1998. P.115– 120.
Основные термины (генерируются автоматически): YAGO, AAAI, CRF, WWW, HMM, EDBT, COLING, ACM, ACL, KOG.


Ключевые слова

ақпараттық іздеу, ақпаратты алу, мәні, қатынасы, атаулы мәндер, уақытша фактілер

Похожие статьи

Опубликовать статью в сборнике конференции «Исследования...»

Сразу же после оплаты. Моментально после онлайн-оплаты на сайте появится препринт вашей статьи (у вас будет ссылка на страницу с публикацией). Кроме этого, в личном кабинете сразу же появится справка на фирменном бланке издательства и сертификаты участников конференции...

Опубликовать статью в журнале «Юный учёный» №2 (32) февраль...

Сразу же после оплаты. Моментально после онлайн-оплаты на сайте появится препринт вашей статьи (у вас будет ссылка на страницу с публикацией). Кроме этого, в личном кабинете сразу же появится справка на фирменном бланке издательства и свидетельство о публикации статьи.

Материалы VII международной научной конференции...

Место проведения конференции и издания сборника Казань. Конференция состоится в заочной (дистанционной) форме в феврале 2020 года.

Comparison of statistical functions for programs (SAS, SPSS, and...)

Application of the three software packages on binary response data gave some similar and some other different results for the three link functions, logit, normit, and complementary logo-log functions. Table-2 demonstrate a summary of the main differences and similarities between SAS, SPSS, and MINITAB.

Материалы XI международной научной конференции «Актуальные...

Место проведения конференции и издания сборника Краснодар. Конференция состоится в заочной (дистанционной) форме в феврале 2020 года.

Мусалимова Рида Сагитовна — Информация об авторе

№1 (291) январь 2020 г. Авторы: Фаттахова Алсу Расулевна, Мусалимова Рида Сагитовна. Рубрика: Педагогика. Страницы: Библиографическое описание: Фаттахова А. Р., Мусалимова Р. С. Особенности доминирующей установки сельских школьников в отношении природы...

Гончарук Юрий Иванович — Информация об авторе

Отправьте статью сегодня! Журнал выйдет 11 января, печатный экземпляр отправим 15 января. Опубликовать статью в журнале.

Исполнение наказаний в отношении несовершеннолетних в конце...

This paper introduces the construction of network simulation experimental teaching platform of the Experimental Teaching Center of School of Nursing Jilin University, and the simulated teaching model is used in nursing experimental teaching...

IMS-metadata specification on line test | Статья в журнале...

The IMS Metadata Specification following metadata elements are defined (IMS-metadata): 1. general. Groups information about the object is being studied. 1.1. Identifier. The globally unique identifier for the resource. 1.2. Title of the resource name. 1.3. Catalog entry. Designation given to the resource.

Похожие статьи

Опубликовать статью в сборнике конференции «Исследования...»

Сразу же после оплаты. Моментально после онлайн-оплаты на сайте появится препринт вашей статьи (у вас будет ссылка на страницу с публикацией). Кроме этого, в личном кабинете сразу же появится справка на фирменном бланке издательства и сертификаты участников конференции...

Опубликовать статью в журнале «Юный учёный» №2 (32) февраль...

Сразу же после оплаты. Моментально после онлайн-оплаты на сайте появится препринт вашей статьи (у вас будет ссылка на страницу с публикацией). Кроме этого, в личном кабинете сразу же появится справка на фирменном бланке издательства и свидетельство о публикации статьи.

Материалы VII международной научной конференции...

Место проведения конференции и издания сборника Казань. Конференция состоится в заочной (дистанционной) форме в феврале 2020 года.

Comparison of statistical functions for programs (SAS, SPSS, and...)

Application of the three software packages on binary response data gave some similar and some other different results for the three link functions, logit, normit, and complementary logo-log functions. Table-2 demonstrate a summary of the main differences and similarities between SAS, SPSS, and MINITAB.

Материалы XI международной научной конференции «Актуальные...

Место проведения конференции и издания сборника Краснодар. Конференция состоится в заочной (дистанционной) форме в феврале 2020 года.

Мусалимова Рида Сагитовна — Информация об авторе

№1 (291) январь 2020 г. Авторы: Фаттахова Алсу Расулевна, Мусалимова Рида Сагитовна. Рубрика: Педагогика. Страницы: Библиографическое описание: Фаттахова А. Р., Мусалимова Р. С. Особенности доминирующей установки сельских школьников в отношении природы...

Гончарук Юрий Иванович — Информация об авторе

Отправьте статью сегодня! Журнал выйдет 11 января, печатный экземпляр отправим 15 января. Опубликовать статью в журнале.

Исполнение наказаний в отношении несовершеннолетних в конце...

This paper introduces the construction of network simulation experimental teaching platform of the Experimental Teaching Center of School of Nursing Jilin University, and the simulated teaching model is used in nursing experimental teaching...

IMS-metadata specification on line test | Статья в журнале...

The IMS Metadata Specification following metadata elements are defined (IMS-metadata): 1. general. Groups information about the object is being studied. 1.1. Identifier. The globally unique identifier for the resource. 1.2. Title of the resource name. 1.3. Catalog entry. Designation given to the resource.

Задать вопрос