Мәтіндік деректерден ақпаратты алудың қолданыстағы әдістерін шолу

Бейсенбеков, Талгат Ринатулы

Мәтіндік деректерден ақпаратты алудың қолданыстағы әдістері ұсынылған. Мәндер мен қатынастарды бөліп алу тәсілдері қарастырылады. Ашық облыстардан мәндер мен қарым-қатынасты бөлу, атаулы мәндерді өңдеу, сондай-ақ уақыт бойы оқшауланған фактілерді сәйкестендіру техникаларына ерекше көңіл бөлінеді.

Кілтті сөздер: ақпараттық іздеу, ақпаратты алу, мәні, қатынасы, атаулы мәндер, уақытша фактілер

Представлены существующие методы получения информации из текстовых данных. Рассматриваются способы выделения значений и отношений. Особое внимание уделяется технике распределения значений и общения от открытых областей, обработки адресных значений, а также идентификации фактов, локализованных в течение времени.

Ключевые слова: информационный поиск, извлечение информации, сущность, отношение, именованные сущности, временные факты.

Кіріспе

Мақала мәтіндік деректерден ақпаратты алудың қолданыстағы әдістерін шолу болып табылады. Ақпаратты шығару (ақпарат алу) — құрылымдық ақпарат құрылымдық емес мәтіннен алынатын ақпарат іздеудің нақты түрі, нақты іздеу ақпараттық сұрауға сәйкес келетін фактілерді іздеу болып табылады.

Ақпаратты алу ең алдымен мәндер мен қатынастарды іздестірумен байланысты. Бұл күрделі модельдерді және бағдарламаларды іске асыру үшін қажетті мәтінді өңдеудің негізгі кезеңдерінің бірі. Білім негіздері сөздерді өңдеуде, семантикалық іздеуде, сұрақ-жауап жүйесінде, автоматты түрде қолданылады мұғалімсіз мәтінді түсіну (машина оқуы) [1, 2].

Білімдердің машиналық түсінігінің жіктелуі

Білімдердің машиналық түсінігін келесі түрде жіктеуге болады [1]:

1) нақты білім (factual);

2) таксономия (taxonomic):

a) instanceOf;

b) subclassOf.

3) лексикалық (терминология, синонимдік конструкциялар) (lexical);

4) көптілді (аудармалар) (multilingual);

5) динамикалық сервистер (dynamic services) (мысалы, «wsdl: ауа райы (орын?x, уақыт?у)"). WSDL (Web Services Description Language) — XML тілінде негізделген вебсервисттерді сипаттау және оларға қол жеткізу тілі;

6) жалпы мағынаға негізделген сипаттар (common-sense properties) (мысалы, hasProperty (X, Y));

7) жалпы мағынадағы ережелер (common-sense rules)

8) уақытша (temporal) (мысалы, bePresident (USA)@1945);

9) ақпаратты ашық алу (open information extraction) [3–5];

10) әлеуметтік (Пікірлер);

11) эпистемиялық (дұрыс және дұрыс емес сенімдер).

Білім түрінде берілуі мүмкін [1]:

1) ережелер;

2) фреймдер;

3) RDF (Resource Description Framework);

4) онтология (OWL);

5) жоғары ретті логиктер (Higher-order logics).

Тек фактілер ғана емес, метафактілер де (фактілер туралы фактілер) сақталуы мүмкін.

Нысан мен сыныптарды шығару

Семантикалық іздеуде көптеген заманауи жұмыстар WordNet тезаурусына негізделген. WordNet ішіндегі сөздер синтаксиске (синонимдік жолдар) топтастырылады, олар арасындағы қарым-қатынас орнатылады:

1) гипонимия;

2) мерионимдік;

3) трополимия (мысалы, «күзет» — «қозғалыстың» ерекше түрі);

4) салдары («қорылдау» ұйқы дегенді білдіреді);

5) антонимдер және т. б. [6].

Уикипедиядағы [1] негізделген онтология құру жұмыстарының саны артып келеді. Мысалы, YAGO онтологиясында субъектілер автоматты түрде Уикипедиядан шығарылады және WordNet пайдалану арқылы жүйеленген. Мүмкін, кез-келген Википедия беті YAGO-дағы субъект болуы мүмкін. Ұйым класын құру үшін, Уикипедия санатын пайдаланады.

Wikipedia категориялары тұжырымдамалық, қызметтік және тақырыптық. Қызметтік Санаттар нысан кластары бола алмайды. Олар көп емес, сондықтан оларды қолмен алып тастауға болады. Тұжырымдамалық санаттарды тақырыптық санаттардан ажырату үшін Санаттар атауларының беттік лингвистикалық парсингін, атап айтқанда, атаулы топтардың парсері — Noun Group Parser пайдаланады. Парсері санат атауын pre-modifier, head және post-modifier деп бөледі. Эвристикалық түрде Wikipedia-дағы тұжырымдамалық санаттардың көпшілігі көпше түрі бар екені анықталды. Бұл санаттарға келесі алгоритм қолданылады:

Head WordNet синсетасында іздейді.
Нысан берілетін ең қолайлы класс таңдалады.
Head pre-modifier толықтырылады.

KOG (Kylin Ontology Generator) жүйесі Wikipedia және WordNet негізделген. Оқыту үлгісі ретінде YAGO онтологиясын пайдаланады. SVM (support vector machine) және MLN (Markov logic network) сияқты Машиналық оқыту әдістерінің көмегімен Санаттар атаулары арасындағы ұқсас шаралар есептеледі. Санаттарды нақтылау өзгерістер тарихын талдау жолымен жүргізіледі. Көмекші Статистика есептеледі, мысалы, сөздерді ортақ пайдалану [8].

SEAL жүйесінің алгоритмі келесі:

Сынып даналарының аз саны (seeds) таңдалады.
Seeds бар тізімдер, кестелер, мәтін фрагменттері іздестіріледі.
Кандидаттар (cands) кейбір маңайдағы атаулы топтардан алынады.
Үйлесімділік статистикасы жинастырылады (seeds&cands, cands&className).

Үміткерлер өзара ағындық ақпаратқа (pointwise mutual information) немесе басқа байланыс және кездейсоқ кезбе шараларына байланысты «seeds-cands” бағаны бойынша сараланады.

Ашық облыстардан білім алу

Шешілмеген мәселелер «уақытша” білім (temporal knowledge) және ашық облыстардан білім алу болып табылады [1]. Нақты бағытталған іздеуде фактілер үштік болып табылады, әйтпесе бекіту (Assertions), яғни үштік түр іздейді. Аттардың арасындағы фразалар қатынастардың жаңа түрін анықтау мақсатында талданады. Бұл ретте пайдаланылады:

– қашықтан тәуелділік жолымен мұғалімсіз жүктеу;

– CRF (Conditional random field) үш түр үшін (зат, етістік фраза, зат);

– статистиканы құру және сирек кездесетін кандидаттарды жою [1].

Бутсрепингтің жалпы алгоритмі [18]:

Кейбір қатынастар жиынтығы таңдалады.
Корпус бойынша осы қатынастармен байланысты барлық жұптар жиналады.
Табылған жұптар бойынша жаңа шаблондарды іздеу жүзеге асырылады.
Бу элементтері аз қашықтықта кездесетін мәтіндердің фрагменттері іздестіріледі.
Ең жиіліктік үлгілер таңдалады.
Жаңа қарым-қатынастар ағымдағы жиынтыққа қосылады және процесс қайталанады.

Сергей Брин бұл алгоритмді бірнеше рет өзгертті. Жүйесінде Snowball шектеу енгізіледі түрі именованных мәндердің қатысушы қатысты [20]. Бутстрепинг кезінде туындайтын негізгі мәселе, бастапқы іріктемеге қатты тәуелді. KnowItAll жүйесі ұқсас іздеген қолайлы сынып үшін мәні [2].

2009 жылы алғаш рет Text Runner алгоритмі ұсынылды. [3]:

Аздаған оқыту жиыны таңдалады.
NP, қатынасы, NP) түр үштігін алатын парсер іске қосылады, мұнда NP — атаулы топ.
Үштік оң сияқты белгіленеді, егер:

– арасындағы тәуелділік ағашының жолы қысқа Нысандар;

– тәуелділік ағашының жолын кесіп өтпеді фраза шекаралары;

– атаулы фразалардың ешқайсысы білдірілмеген есімдіктер.

– Әйтпесе, ол теріс деп аталады.

Ол тар контексте сөйлеу бөлігі, стоп-сөздер және т. б. сияқты белгілері бойынша ұлттық Байес жіктегіші оқытылады.
Үлкен корпуста:

– іске қосу парсері іске қосылады

– сөйлеу бөліктерін белгілеу;

– атаулы топтарды Іздеу жүзеге асырылады;

– құрылғы арасындағы мәтін алынады

– атаулы топтар;

– эвристиканы пайдалану арқылы

– алынған үзінділерді жеңілдету;

– үміткерлер жіктеуішке кіреді;

– түпнұсқа кандидаттар таңдалады;

– әр қатынастың ықтималдығы есептеледі.

2009 жылы Стэнфорд университетінде гипотеза ұсынылды: егер екі ұйымның кейбір қатынастармен байланысы бар екені белгілі болса, осы субъектілерді қамтитын кез-келген сөйлем бірдей қарым-қатынасты білдіреді. Белгіленген корпус пен жүктеудің орнына, қатынас дерекқорын пайдалану ұсынылды. Әрбір жұп үшін бұл нысандарды қамтитын ұсыныстар дерекқордан таңдалады және шу атрибуттары жойылады. Одан әрі классификатор қолданылады [21].

Аталған нысандарды шығару

Мысалы, ұйым, орын, адамдар, оқиғалар және т. б. объектілер әдетте сұрақ-жауап жүйесіне кіреді. Көптеген сұрақтар жауап ретінде белгілі бір түрдегі атаулы мәнді болжайды (мысалы, «кім? «адамның атын болжайды”, қайда? "- орын).

Табиғи тілдердегі мәтіндерді өңдеуде үш негізгі тапсырма бар.:

1) атаулы нысандарды анықтау;

2) түбіртегі рұқсаты;

3) омонимияны алып тастау [1].

Мәтіннен білімді автоматты түрде алу міндеттерінен басқа, бір мәнді мәселені шешу ақпараттық іздеуде қолданылады. Мысалы, mln аббревиатурасы Minuteman Library Network, My LEGO Network, Manage Large Networks, Markov logic network немесе жай ғана қысқартылуы мүмкін (million-дан). Профайл немесе сұраныс статистикасы бар болса, іздеуші пайдаланушының ақпараттық қажеттіліктеріне барынша сәйкес келетіндай ранжирлеуді жүргізе алады. Бұдан басқа, алынған омонимия құжаттарды жақсы жіктеуге мүмкіндік береді. Көптеген атаулы нысандар тіпті үлкен аннотацияланған корпуста да сирек кездеседі [16].

Аталған мәндерді алу үшін бірнеше белгілер түрлері қолданылады:

1) сөздер деңгейінің белгілері (N-граммдар, жұрнақтар, префикстер, сөйлеу бөліктері және т. б.).);

2) құжат деңгейінің белгілері (корпуста акронимдердің болуы, сөйлемдегі терминнің позициясы, тақырыптағы немесе мәтіндегі және т. б. терминдердің болуы.);

3) Қосымша ақпарат (газеттер, көрсеткіштер сөздері, мысалы, Inc., Corp., стоп-сөздер тізімі, капитализациясы бар сөздер, олар атаулы мәндер емес және т. б.).

Бір құжаттың шегінде бір нысанға немесе түрлі объектілерге қатысты болуы мүмкін бір атаудың бірнеше ұқсастығы болуы мүмкін. Қарапайым жағдайда, әдетте, бір құжатта бір атау бірдей мағынаға жатады деген жорамалданады. Аталған мәндерді алудың көптеген әдістері олардың тәуелсіздігі туралы жорамалданады. Іс жүзінде олар көрші сөздерге тәуелді, мысалы, New York — орын, ал New York Times — ұйым. Туралы болжам байланысты именованных мәндердің көршілес сөздердің пайдаланылады HMM (Hidden Markov Model) және CRF модельдер [16]. Гипотезаға сүйенетін техника бар, бірдей терминдердің бір құжаттың шеңберінде ғана емес, барлық корпуста бірдей белгілері болуы тиіс. Деректер анықталмаған жағдайда кластерлеуді жүргізеді, ал кластер нөмірі жіктеуші белгі ретінде пайдаланылады [24].

Қорытынды

Ақпаратты алу ақпараттық іздестірудің күрделі жүйелерін, оның ішінде сұрақ-жауап беру жүйелерін құрудағы негізгі кезең болып табылады. Құрылымдалмаған деректерден, атап айтқанда мәтіндік корпустардан ақпарат алудың қолданыстағы әдістерінің әртүрлілігіне қарамастан, білім базасын Автоматты құрумен байланысты ақпараттық іздестірудің түйінді мәселелері әлі күнге дейін шешілмеген. Көптеген әдістер бар онтологияға сүйенеді (мысалы, WordNet). Ашық облыстардан білім алу, уақыт бойы локализацияланған фактілерді іздеу, сондай-ақ атаулы мәндерді алу сияқты салалар ең аз әзірленген болып табылады. Ақпаратты алу жүйелерін бағалау әдістері де пысықтауды қажет етеді,өйткені корпусты эталондық белгілеумен салыстыруға сүйенеді.

Әдебиеттер:

Weikum G. Knowledge Harvesting from Web Sources // RuSSIR/EDBT 2011. Saint Petersburg. 2011.
Etzioni O., Banko M., Cafarella M. J. Machine Reading // Proceedings of AAAI. 2005.
Banko M. Open Information Extraction for the Web. Washington: University of Washington. 2009.
Banko M. et al. Open Information Extraction from theWeb // Communications of the ACM — Surviving the data deluge, New York, 51, № 12. 2008.
Wu F., Weld D. S. Open Information Extraction using Wikipedia // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010. P. 118–127.
Miller G. A., Beckwith R., Fellbaum C. Introduction to WordNet: An On-line Lexical Database. 1993.
Suchanek F. M., Kasneci G,. Weikum G. YAGO: A Core of Semantic Knowledge // WWW 2007 / Track: Semantic Web. 2007.
Wu F., Weld D. S. Automatically refining the wikipedia infobox ontology // WWW. 2008.
Milne D., Witten I. H. An Effective, Low-Cost Measure of Semantic Relatedness Obtained from Wikipedia Links // Proceedings of AAAI. 2008. P. 25–30
Mchale M.A Comparison of WordNet and Roget's Taxonomy for Measuring Semantic Similarity // Proceedings of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems. 1998. P.115– 120.

Мәтіндік деректерден ақпаратты алудың қолданыстағы әдістерін шолу

Библиографическое описание:

Ключевые слова

Похожие статьи

Опубликовать статью в сборнике конференции «Исследования...»

Опубликовать статью в журнале «Юный учёный» №2 (32) февраль...

Материалы VII международной научной конференции...

Comparison of statistical functions for programs (SAS, SPSS, and...)

Материалы XI международной научной конференции «Актуальные...

Мусалимова Рида Сагитовна — Информация об авторе

Гончарук Юрий Иванович — Информация об авторе

Исполнение наказаний в отношении несовершеннолетних в конце...

IMS-metadata specification on line test | Статья в журнале...