Sual-cavab sistemini necə yazmaq olar. Cümlələrdən təhlil ağaclarının yaradılması

Yeni informasiya texnologiyaları

Mühazirə № 2.2. Təbii dil sistemlərinin əsas sinifləri. Ağıllı sual və cavab sistemləri

Yeni informasiya texnologiyaları (3)

1.1. Təbii dil sistemlərinin əsas sinifləri

Təbii dil sistemlərinin funksional komponentləri

NL sistemlərinin əsas siniflərinin müqayisəli xarakteristikası

Ağıllı sual və cavab sistemləri
1. İnformasiya axtarış sistemləri
  Verilənlər bazası rabitə sistemləri
  Ekspert sistemləri
  Dialoq problemlərinin həlli sistemləri
  Ağıllı yaddaş və rəqəmsal kitabxanalar

Nitqin tanınması sistemləri

Ayrı-ayrılıqda danışıq əmrlərinin tanınması üçün sistemlər
Davamlı nitq axınında açar sözlərin tanınması sistemləri
Davamlı nitqin tanınması sistemləri
Analiz-sintez yanaşması
Dodaq oxuma sistemləri

Əlaqəli mətn emal sistemləri

Mətnin ümumiləşdirmə sistemləri
Mətnin müqayisəsi və təsnifat sistemləri
Mətn klaster sistemləri

Sintez sistemləri

Nitq sintezi sistemləri
Mətn əsaslı video sintez sistemləri

Maşın tərcümə sistemləri. Nitq (mətn) anlama sistemləri

İfadələrin tərcümə sistemləri
Kontekstual tərcümə sistemləri
Nitq (mətn) anlama sistemləri

Ontologiyalar və tezaurilər

Nitq və mətn verilənlər bazası

Ağıllı sistemlərin komponentləri

Təbii dil sistemlərinin müqayisəli xüsusiyyətləri

Ağıllı sual və cavab sistemləri

Hal-hazırda, intellektual sual-cavab sistemləri kateqoriyasına daxil olan ən populyar məhsul (57) məlumat axtarış sistemləri.

2.2.1.1. İnformasiya axtarış sistemləri

Ən məşhur GOOGLE, Yandex, Rambler məlumat axtarış sistemləri təxminən eyni imkanlara və funksionallığa malikdir. Tək şey (58) sistem fərqiGOOGLEqalanlardan kifayət qədər texniki xarakter daşıyır: bu sistem daxili istehsal yaddaşına malik çoxlu sayda prosessordan istifadə etməklə paralel paylanmış sistem kimi həyata keçirilir. Bəlkə də daha çox intellektual funksiyalara malik olsalar da, bu sistemin digərlərindən şübhəsiz üstünlüyündə həlledici rol oynayan bu fərq idi. (59) Bu və digər informasiya axtarış sistemlərində təbii dil emalı çox böyük rol oynamır, lakin onların insan-maşın rabitə sistemlərində istifadə həcmi çox böyükdür.

düyü. 2.2. Tipik bir məlumat axtarış sistemi.

(60) İnformasiya axtarış sisteminin əsas funksiyaları mənbələri təhlil etmək, mənbələrdən çıxarılan mətnləri indeksləşdirmək, istifadəçi sorğusunu emal etmək, indeksləşdirilmiş verilənlər bazası mətnlərini istifadəçi sorğusu ilə müqayisə etmək və nəticə çıxarmaqdan ibarətdir. Bu yaxınlarda GOOGLE sistemində ortaya çıxdı nitq girişi, bu, məhdud həcmli sorğunu səslə sistemə daxil etməyə imkan verir. İnformasiya axtarış sistemlərində istifadə olunan başqa bir funksiyadır sistem resurslarında naviqasiya vasitəsi olan sistem dünya modelinin strukturunu təmsil etmək funksiyası.

Beləliklə, standart (61) informasiya axtarış sistemi yeddi əsas komponentdən ibarətdir (bax. Şəkil 2.2): məlumat daxiletmə bloku, təhlil bloku, mənbə indeksləşdirmə bloku, istifadəçi sorğusunun emal bloku, istifadəçi ilə mənbə mətnlərinin müqayisəsi bloku. təbii dildə təqdim olunan sorğu, nəticələrin çıxarılması üçün blok və mövzu sahələrinin və naviqasiyanın strukturlaşdırılması üçün blok.

Daxiletmənin həyata keçirilməsinin əsas vəzifəsi mətnlərin orijinal toplusunu və istifadəçinin tələbini kompüter üçün əlverişli formada təqdim etməkdir. Məsələ burasındadır ki, informasiya axtarış sistemləri tərəfindən emal olunan informasiyanın böyük həcminə görə (62) işlənmiş sənədlərin mətnləri adətən sistemdə saxlanmır.Yalnız onların təmsilləri saxlanılır. Mətnlər repozitor(lar)dan götürülür və vaxtaşırı işlənir (adətən tsiklik).

(63) Mətnin belə təsviri, məsələn, mətndən çıxarılan açar sözlərin siyahısı ola bilər (vektor-məkan ilə təmsil olunur və ya n-qrammatik modellər), lakin mətn fraqmentlərində sözlərin birgə təsadüf şəbəkəsi də ola bilər.

Əsas fikir (64) vektor-məkan modeli sadə: mətn leksik vektorla təsvir olunur Evklid məkanında, hər bir vektor komponenti mətndə olan bəzi obyektə uyğun gəlir(söz, söz, şirkət adları, vəzifələr, adlar və s.), buna termin deyilir. Hər birinə Mətndə istifadə olunan terminə onun ayrıca mətndə baş verməsi haqqında statistik məlumatlar əsasında müəyyən edilən çəkisi (əhəmiyyəti) verilir. Vektor ölçüsü mətnlərdə görünən terminlərin sayıdır.

(65) Poliqram modelində mətn vektor kimi təqdim olunur, burada vektorun elementləri bütün uzunluq simvollarının birləşməsidir. n əlifbadanM (rus dili üçün M = 33 ). Vektorun hər bir elementi müvafiq olanın baş vermə tezliyi ilə əlaqələndirilirn -mətndə qram.İxtiyari mətn üçün vektor ölçüsü ciddi şəkildə sabitdir və 33 3 = 35937 element təşkil edir. Bununla belə, təcrübədən göründüyü kimi, real mətnlərdə n-qramların ümumi icazə verilən sayının 25-30 faizindən çoxu həyata keçirilmir, yəni. rus dili üçün 7000-dən çox deyil.

(66) Mətn fraqmentlərində sözlərin birgə təzahürü şəbəkəsi. Mətn onların münasibətlərində müxtəlif anlayışlarla təmsil olunur. Həm anlayışlar, həm də əlaqələr çəkilərinə görə qiymətləndirilir.

(67) Təbii dildə təqdim edilən istifadəçi sorğusu, bu təbii dildə olan mətnlərin müqayisəsini asanlaşdırmaq üçün mənbə mətnləri indeksləşdirərkən məlumatın emalına bənzər şəkildə işlənir. Müqayisə mərhələsində, əslində, axtarış strategiyaları həyata keçirilir

Beləliklə, informasiya axtarış sistemlərində mətnin daxili təsviri üsulları ilə yanaşı, mətnlərin təsnifat (müqayisə) üsulu mühüm rol oynayır. (68) Hal-hazırda praktikada aşağıdakı təsnifat növləri istifadə olunur::

(69) Statistik təsnifatlar ehtimal metodlarına əsaslanır. Bu qrupda ən məşhuru Bayes klassifikatorları ailəsidir. Onların ümumi xüsusiyyəti şərti ehtimal üçün Bayes düsturuna əsaslanan təsnifat proseduru.

Mətn təsnifatının klassik metodu baş verən hadisələrin müstəqilliyi (sənədlərdə sözlərin görünməsi) haqqında çox güclü fərziyyələr irəli sürür, lakin təcrübə göstərir ki, sadəlövh Bayes təsnifatçısı çox təsirli olur.

2. (70) Oxşarlıq funksiyalarına əsaslanan təsnifatlar. Belə təsnifatçıların ən xarakterik cəhəti neyron təsnifatlandırıcılarda da istifadə olunan termin-sənəd modelinin leksik vektorlarının istifadəsidir. kimi oxşarlıq ölçüləri adətən vektorlar arasındakı bucağın kosinusunu götürür, skalyar hasil vasitəsilə hesablanır.

Yuxarıdakıların işığında (72) informasiya axtarış sistemlərində aşağıdakı strategiyalardan istifadə olunur.

1. (73) Açar sözlərə əsaslanır. Açar sözlər adətən mətndəki sözün çəkisini müəyyən edən çəki xüsusiyyətləri ilə təmin edilir. Rəqəm xarakteristikası sözlərin mətndə rast gəlmə tezliyinə əsaslanır. Lakin sözün semantik çəkisi onun mətndə görünmə tezliyindən fərqlənir.

2. Çox vacibdir (74) Haqqında məlumatmətn fraqmentlərində açar sözlərin sırası. Bu halda axtarışın səmərəliliyini artırmaq üçün əsas anlayışların əvəzinə n-qram əsas anlayışlardan istifadə olunur.

3. Axtarış zamanı mətn fraqmentlərində açar sözlərin birgə rast gəlmə tezliyindən də istifadə edilir. Daxili mətn strukturu (75) münasibətlərində açar sözlər baxımından - mətnin semantik portreti– informasiya axtarış sistemlərində mətnin təsviri üçün əsasdır. Mətnin semantik portreti müəyyən etməyə imkan verir məntiqi quruluş axtarışın keyfiyyətini yaxşılaşdıran və sürətləndirən mətn (və bütün mətn korpusunun məntiqi strukturu).

4. Son zamanlar axtarış zamanı sözdə (76) istifadə etməyə başladılar. qeyri-səlis müqayisə.

Axtarış nəticələrini yaxşılaşdırmaq üçün istifadəçi sorğunu dəyişə bilər. Geribildirim bunun üçündür. (77) İnformasiya axtarış sistemində informasiyanın emalı sonrakı naviqasiya məqsədi ilə məlumatın strukturlaşdırılmasını, o cümlədən onun qruplaşdırılmasını əhatə edir.

Aşağı (76) Nəticələri çıxararkən, sistemin istifadəçiyə verdiyi mənbə mətnə (mətnlərə) keçidləri başa düşməlisiniz.. Bu, təhlil edilmiş mətnləri saxlayan sitatlar sistemi, sənəd nömrələri ola bilər.

(77) Axtarış sistemindən istifadə etməklə şəbəkədə zəruri məlumatların axtarışı adətən aşağıdakı kimi həyata keçirilir. İstifadəçi axtarış sisteminin dialoq qutusuna bir və ya bir neçə axtarış sözü daxil edir. Axtarış motoru bu axtarış şərtlərinə uyğun gələn axtarış nəticələrini qaytarır. Məsələn, axtarış motoru bir və ya daha çox axtarış sorğusu sözü olan sənədlərə işarə edən veb ünvanlarının (URL) siyahısını qaytara bilər.

Sual-cavab sistemləri

Anatoli Nikitin, Pavel Raikov

1. Giriş. 2

1.1 Problemlər.. 3

2. QA sistemi Start 4

2.1 Üçlü ifadələr. 5

2.2 S-qaydaları. 6

2.3 Leksika. 6

2.6 Təbii dildə annotasiyalar. 8

2.7 Nəticə. 9

3. Təbii dilin təhlili üçün statistik üsullar. 10

3.1 Giriş. 10

3.2 Cümlələrdə sözlər üçün nitq hissələrinin müəyyən edilməsi. on bir

3.3 Cümlələrdən təhlil ağaclarının yaradılması. 14

3.4 PCFG əsasında öz təhlil qaydalarınızı yaratmaq. Ağacın qrammatikası. “Markov qrammatikası” 16

3.5 Leksik təhlilçilər.. 16

1. Giriş

Sürətli inkişaf sayəsində informasiya texnologiyaları və qlobal İnternetdə mövcud olan məlumatların həcminin davamlı artması, effektiv axtarış və məlumatların əldə edilməsi məsələləri getdikcə aktuallaşır. Çox vaxt açar sözlərdən istifadə edilən standart axtarış istənilən nəticəni vermir, çünki bu yanaşma sorğu sözləri arasında linqvistik və semantik əlaqələri nəzərə almır. Buna görə də, təbii dil emal (NLP) texnologiyaları və onlara əsaslanan sual-cavab sistemləri (QAS) hazırda fəal şəkildə inkişaf edir.

Sual-cavab sistemidir Məlumat Sistemi, təbii dil interfeysindən istifadə edən axtarış, istinad və intellektual sistemlərin hibrididir. Belə bir sistemə giriş təbii dildə tərtib edilmiş sorğudur, ondan sonra NLP metodlarından istifadə etməklə işlənir və təbii dil cavabı yaradılır. Suala cavab tapmaq tapşırığına əsas yanaşma kimi adətən aşağıdakı sxemdən istifadə olunur: birincisi, sistem bu və ya digər şəkildə (məsələn, açar sözlərlə axtarış etməklə) verilən suala aid məlumatları ehtiva edən sənədləri seçir; sonra onları filtrləyir, ayrı-ayrı mətn fraqmentlərini vurğulayır, potensial cavabı ehtiva edir, bundan sonra yaradan modul seçilmiş fraqmentlərdən sualın cavabını sintez edir.

Məlumat mənbəyi kimi, QA sistemi ya yerli yaddaşdan, ya da qlobal şəbəkədən və ya hər ikisini eyni anda istifadə edir. İnternetdən istifadənin nəhəng, getdikcə böyüyən informasiya resurslarına çıxış kimi aşkar üstünlüklərinə baxmayaraq, bu yanaşma ilə əlaqəli əhəmiyyətli bir problem var - İnternetdəki məlumat strukturlaşdırılmamışdır və onun düzgün axtarışı üçün sözdə məlumat yaratmaq lazımdır. “sarğılar”, yəni müxtəlif informasiya resurslarına vahid çıxışı təmin edən alt proqramlar.

Müasir QA sistemləri ümumi (açıq domen) və ixtisaslaşdırılmış (qapalı domen) bölünür. Ümumi sistemlər, yəni ixtiyari sualları emal etməyə yönəlmiş sistemlər kifayət qədər mürəkkəb bir arxitekturaya malikdir, lakin buna baxmayaraq, praktikada olduqca zəif nəticələr və cavabların aşağı dəqiqliyi verirlər. Lakin, bir qayda olaraq, belə sistemlər üçün cavabların düzgünlüyündən daha çox biliklərin əhatə dairəsi vacibdir. Müəyyən bir mövzu sahəsinə aid suallara cavab verən ixtisaslaşdırılmış sistemlərdə, əksinə, cavabların düzgünlüyü çox vaxt kritik göstəricidir (səhv cavab verməkdənsə, suala ümumiyyətlə cavab verməmək daha yaxşıdır).

1.1 Problemlər

2002-ci ildə bir qrup tədqiqatçı sual-cavab sistemləri sahəsində tədqiqat planı yazdı. Aşağıdakı suallara baxılması təklif olunub:

Sualların növləri. Müxtəlif suallar cavab tapmaq üçün müxtəlif üsullar tələb edir. Buna görə də mümkün sualların növlərinin metodik siyahılarını yaratmaq və ya təkmilləşdirmək lazımdır. Sualların işlənməsi. Eyni məlumat müxtəlif yollarla tələb oluna bilər. Cümlənin semantikasının (mənasının) dərk edilməsi və işlənməsi üçün təsirli üsulların yaradılması tələb olunur. Proqramın üslubdan, sözlərdən, sintaktikəlaqələr və idiomlar. Mən istərdim ki, QA sistemi mürəkkəb sualları bir neçə sadə suallara ayırsın və kontekstdən asılı olan ifadələri düzgün şərh etsin, bəlkə də dialoq zamanı istifadəçi ilə aydınlaşdırsın. Kontekstual suallar. Suallar konkret kontekstdə verilir. Kontekst sorğuya aydınlıq gətirə, qeyri-müəyyənliyi aradan qaldıra və ya bir sıra suallar vasitəsilə istifadəçinin düşüncəsini izləyə bilər. QA sistemi üçün bilik mənbələri. Suala cavab verməzdən əvvəl mövcud mətn verilənlər bazası ilə maraqlanmaq yaxşı olardı. Hansı mətn emal üsullarından istifadə olunmasından asılı olmayaraq, verilənlər bazalarında olmasa, düzgün cavab tapa bilməyəcəyik. Cavabların vurğulanması. Bu prosedurun düzgün icrası sualın mürəkkəbliyindən, onun növündən, kontekstindən, mövcud mətnlərin keyfiyyətindən, axtarış metodundan və s. - çoxlu sayda amillərdən asılıdır. Buna görə də mətnin işlənməsi üsullarının öyrənilməsinə çox ehtiyatla yanaşmaq lazımdır və bu problemə xüsusi diqqət yetirilməlidir. Cavabın tərtibi. Cavab mümkün qədər təbii olmalıdır. Bəzi hallarda sadə boşalma mətndən. Məsələn, ad (şəxsin adı, alətin adı, xəstəlik), kəmiyyət (valyuta məzənnəsi, uzunluq, ölçü) və ya tarix tələb olunursa ("İvan Dəhşətli nə vaxt anadan olub?") - birbaşa cavab kifayətdir. Ancaq bəzən mürəkkəb sorğularla məşğul olmalısan və burada xüsusi alqoritmlər lazımdır cavabları birləşdirin müxtəlif sənədlərdən. Real vaxtda suallara cavablar. Sualın mürəkkəbliyindən və qeyri-müəyyənliyindən, sənəd bazasının ölçüsündən və genişliyindən asılı olmayaraq, bir neçə saniyə ərzində depolarda cavab tapacaq sistem yaratmalıyıq. Çoxdilli sorğular. Digər dillərdə işləmək və axtarış sistemlərinin inkişafı (avtomatik tərcümə daxil olmaqla). İnteraktivlik.Çox vaxt QA sisteminin cavab olaraq təklif etdiyi məlumat natamam olur. Sistem sualın növünü səhv müəyyən etmiş və ya onu səhv “anlamış” ola bilər. Bu halda istifadəçi nəinki sorğusunu yenidən formalaşdırmaq, həm də dialoqdan istifadə edərək proqrama “izah etmək” istəyə bilər. Düşünmə mexanizmi (nəticə). Bəzi istifadəçilər mövcud mətnlərdən kənara çıxan cavab almaq istəyirlər. Bunun üçün siz QA sisteminə əksər sahələr üçün ümumi olan biliyi, həmçinin yeni biliklərin avtomatik çıxarılması üçün vasitələr əlavə etməlisiniz. QA sistemlərinin istifadəçi profilləri.İstifadəçi haqqında məlumat, məsələn, onun maraq dairəsi, nitq tərzi və əsaslandırma tərzi və defolt faktlar sistemin işini əhəmiyyətli dərəcədə yaxşılaşdıra bilər.

2. QA sistemi işə salın

Start QA sistemi aşağıdakı formada tərtib edilmiş ixtiyari sorğulara cavab verən ümumi sual-cavab sisteminin nümunəsidir. Ingilis dili. Boris Katzın rəhbərliyi altında MİT-in Süni İntellekt Laboratoriyasında hazırlanır. Bu sistem ilk dəfə 1993-cü ildə İnternetdə peyda olub və hazırda http://start ünvanında mövcuddur. csail. mit. təhsil. Suala cavab axtararkən sistem həm yerli bilik bazasından, həm də İnternetdəki bir sıra informasiya resurslarından istifadə edir.

Sistem müxtəlif növ suallara cavab verə bilər, onları aşağıdakı kateqoriyalara bölmək olar:

Təriflərlə bağlı suallar (Fraktal nədir?)

Faktlarla bağlı suallar (Teleqrafı kim icad edib?)

Əlaqələr haqqında suallar (Hansı ölkə daha böyükdür, Rusiya və ya ABŞ?)

Sorğuların siyahısını verin (Aleksandr Puşkinin bəzi şeirlərini mənə göstərin)

Sistemin əsasını Bilik Bazası təşkil edir. 2 modul var: Parser və Generator, müvafiq olaraq ingilis dilində mətnləri Bilik Bazasında saxlandıqları xüsusi formaya (T-ifadələri) çevirə və əksinə T toplusundan ingiliscə mətnlər yarada bilər. -ifadələri.

2.1 Üçlü ifadələr

Üçlü ifadə (T-ifadəsi) formanın ifadəsidir<объект отношение субъект>. Bu halda, digər T ifadələri bəzi T ifadələrinin obyekti/subyekti kimi çıxış edə bilər. Sifətlər, sahiblər əvəzliklər, ön sözlər və cümlənin digər hissələri əlavə T ifadələri yaratmaq üçün istifadə olunur. Təklifin digər atributları ( məqalələr, felin zamanları, zərflər, Köməkçi fellər, durğu işarələri və s.) T ifadəsi ilə əlaqəli xüsusi Tarix strukturunda saxlanılır.

Məsələn, bir cümlə “ BilltəəccübləndiHillariiləonuncavab" Parserdən keçdikdən sonra o, 2 üçlü ifadəyə çevriləcək: << BillsürprizHillari>iləcavab> Və < cavabəlaqəli-üçünBill>. Sürpriz felinin vaxtı haqqında məlumat History strukturunda saxlanılacaq.

Yuxarıda təsvir olunan 2 T ifadəsi olan Bilik Bazasında sistemə sual verilsin: “ KimetdiBillsürpriziləonuncavab ver?" Məsələ aşağıdakı ardıcıllıqla həyata keçiriləcək:

1. Sual Analizatoru sualı ingilis dilində tərtib edərkən istifadə olunan inversiyanı tərsinə çevirərək sualı şablon tipinə çevirir: “ Billtəəccübləndikim iləonuncavab ver?”.

2. Təhlilçi cümləni 2 T ifadəsinə çevirir: <kim> cavabla> Və

3. Nəticə şablon Bilik Bazasında yerləşən T ifadələri ilə yoxlanılır. Uyğunluq nə vaxt tapıldı Kim = Hillari

4. Generator T-ifadələrini çevirir <> cavabla> Və cümləyə çevirir və cavab olaraq qaytarır.

“Bill öz cavabı ilə təəccübləndirdimi?” kimi suallara cavab axtarışı da eyni şəkildə aparılır. Yalnız bu halda verilənlər bazasındakı ifadələrlə dəqiq uyğunluq axtarılacaq, şablondan istifadə etməklə axtarış yox.

Beləliklə, T-ifadələri müəyyən dərəcədə sözlər arasında semantik əlaqələr haqqında məlumatları özündə saxlayır. 2002-ci ildə açar söz axtarışları ilə müqayisədə T-ifadələri əsasında axtarışların təşkilinin effektivliyini qiymətləndirmək üçün bir sıra təcrübələr aparılmışdır. Parser Ensiklopediyanı müxtəlif heyvan növlərinin təsvirləri ilə işlədikdən sonra sistemə belə bir sual verildi: "Qurbağalar nə yeyir?" (“Qurbağalar nə yeyir?”). Yuxarıda təsvir edilən axtarış metodu 3-ü düzgün olmaqla 6 cavab verdi. Mənbə sənədlərinin açar söz əsasında axtarışı eyni 3 düzgün cavab daxil olmaqla 33 nəticə verdi, lakin əlavə olaraq təsadüfi söz uyğunluğu var idi. qurbağalar Və yemək(məsələn, “Qurbağaları kim yeyir?” sualına cavablar). Beləliklə, T-ifadələrinə əsaslanan axtarış 10 dəfə az səhv cavab verdi.

2.2 S-qaydaları

T-ifadələrinə əlavə olaraq Bilik Bazasında S-qaydalarının siyahısını da saxlayır. Bunlar T-ifadələrinin ekvivalent formalara çevrilməsi qaydalarıdır. Fakt budur ki, təbii dildə eyni fikir müxtəlif yollarla ifadə edilə bilər. Məsələn, cümlələr “Billin cavabı Hillari təəccübləndirdi” Və “Bill cavabı ilə Hillari təəccübləndirdi” ekvivalentdirlər. Lakin bu cümlələri Parserdən keçirərkən əldə edilən T ifadələri fərqlidir: , Və <cavabı ilə>, . Buna görə də S-qaydası tətbiq edilir Sürpriz :

<<n1 sürpriz n2> ilə n3>, <n3 ilə bağlı n1> = <n3 sürpriz n2>, <n3 ilə bağlı n1>,

Haradani € İsimlər

Belə qaydaların köməyi ilə linqvistik adlananı təsvir etmək olar varyasyonlar, yəni dil konstruksiyalarının ekvivalent çevrilmələri:

Leksik (sinonimlər)

Morfoloji (eyni kök sözlər)

Sintaktik (inversiyalar, aktiv/passiv səs, ...)

Bundan əlavə, S-qaydaları məntiqi nəticələri təsvir edə bilər. Misal üçün:

<<A satmaq B > üçün C > = <<C almaq B >dan A>

2.3 Leksika

Bir çox S qaydaları söz qruplarına aiddir. Məsələn, daha əvvəl təsvir edilən S-qaydası Sürpriz təkcə sürpriz fel üçün deyil, həm də emosional-reaksiya xarakterli fellər qrupundan olan hər hansı feil üçün də yerinə yetirilir. S-qaydalarını yaratmamaq üçün ingilis dilinin bütün sözlərini özündə saxlayan Lexicon yaradılmışdır. Hər bir söz onun aid olduğu qrupların siyahısı ilə əlaqələndirilir. İndi S-qaydası Sürpriz daha mücərrəd edilə bilər:

<<n1 v n2> ilə n3>, <n3 ilə bağlı n1> = <n3 vn2>, <n3 ilə bağlı n1>,

Harada ni € İsimlər, v € emosional-reaksiya-fellər

2.4 WordNet

İstisna leksikon , müxtəlif sintaktik və semantik xüsusiyyətlərinə görə qruplaşdırılmış sözləri saxlayan Start sistemi sözlərin semantikasını emal etmək üçün daha bir güclü vasitədən - lüğətdən istifadə edir. WordNet . Bu lüğətdə əsas vahid anlayışdır sinset. Sinset müəyyən məna, mənadır. Müxtəlif sözlər eyni məna (sinonimlər) ola bilər və buna görə də bir sinsetə aid ola bilər və əksinə, bir söz bir neçə mənalı ola bilər, yəni bir neçə sinsetə aid ola bilər. Bundan əlavə, WordNet lüğəti sinsetlər arasında əlaqələri təqdim edir. Məsələn, isimlər arasında aşağıdakı əlaqələr mövcuddur:

- Hipernimlər : Y – hipernim X, Əgər X- müxtəliflik Y(meyvə– hipernim şaftalı)

- Hiponimlər : Y – hiponim X, Əgər Y- müxtəliflik X(şaftalı- hiponim meyvə)

- Rütbədə bərabərdir : X Və Y dərəcə baxımından bərabərdir, əgər onların ümumi hipernimi varsa ( şaftalı Və alma- dərəcəyə görə bərabər)

- Golonimlər : Y – holonim X, Əgər X- Hissə Y(şaftalı– holonim sümüklər)

- Meronimlər : Y – meronim X, Əgər Y- X hissə ( qabığı- meronim şaftalı)

Beləliklə, WordNet lüğəti ümumi-xüsusi və hissə formasının mənaları arasındakı əlaqələri təsvir edir.

WordNet Bilik Bazasında uyğunluqları axtararkən istifadə olunur. Məsələn, T ifadəsi Bazada saxlanılırsa < quşbacarmaquçmaq> və WordNet lüğəti bunu müəyyən edir kanareyka – hiponim quş. Qoy sual verilsin “ Bacarmaqkanareykauçmaq?. Parser bu sualı ifadəyə çevirir < kanareykabacarmaquçmaq>. Əgər verilənlər bazasında uyğunluq tapmasa, Start WordNet-dən istifadə edəcək və daha ümumi suala cavab tapmağa çalışacaq: “ Bacarmaqquşuçmaq? Bu suala cavab veriləcək Bəli, ki, nəzərə alınmaqla kanareyka- müxtəliflik quş Start bunu yekunlaşdıracaq “ kanareykabacarmaquçmaq".

2.5 Omnibase

“Bethoven nə vaxt öldü?” kimi faktiki suallara cavab tapmaq üçün. və ya "İngiltərənin paytaxtı nədir?" Start bazadan istifadə edir Omnibase. Bu verilənlər bazası fərqli məlumat saxlama modelindən istifadə edir: “obyekt-əmlak dəyəri”. Məsələn, məlumat "Federiko Fellini La Stradanın direktorudur" verilənlər bazasında saxlanacaq Omnibase kimi La Strada – rejissor – Federiko Fellini . Burada LaStrada- obyekt, rejissor- əmlak və FederikoFellini- bu əmlakın dəyəri. Bu məlumat modeli ilə lazımi məlumatların axtarışı kifayət qədər tez və səmərəli şəkildə baş verir.

Məlumat axtarmaq üçün Omnibaseİnternetdən çoxlu sayda xarici məlumat mənbələrindən istifadə edir: Wikipedia, Google, Internet Movie Database və s. "obyekt" tipli sorğular - əmlak". Müəyyən bir obyekt haqqında məlumatın saxlandığı mənbəni müəyyən etmək üçün, Omnibase istifadə edir Obyektlərin kataloqu, burada hər bir obyekt məlumat mənbəyi ilə əlaqələndirilir. Məsələn, bir obyekt LaStrada bazaya uyğundur imdb-film(İnternet Filmlər Bazası). Axtarış üçün baza müəyyən etdikdən sonra, Omnibase bu verilənlər bazasının sarğısına sorğu göndərir: ( LaStrada, rejissor) və cavab alır FrederikoFellini.

2.6 Təbii dil annotasiyaları

Təbii nitqin maşın analizi problemi çox mürəkkəbdir. Buna görə də, sual-cavab sistemlərinin tərtibatçıları bu problemi iki tərəfdən həll etməyi təklif edirlər: bir tərəfdən, kompüterə dili “anlamağı” öyrətməklə təbii dilin işlənməsi üsullarını təkmilləşdirmək, digər tərəfdən isə mətni düzəltməyə çalışmaq. kompüterlər üçün daha başa düşüləndir. Məhz, informasiya resursları üçün təbii dillərdə annotasiyaların tərtib edilməsi təklif olunur.

Bu halda, yalnız mətn üçün deyil, həm də müxtəlif multimedia məlumatları: şəkillər, video və audio yazılar üçün axtarışı səmərəli təşkil etmək mümkündür. Başlanğıc sistemində annotasiyalardan aşağıdakı kimi istifadə olunur: Bilik bazasına məlumat əlavə edərkən, Parser yalnız onun annotasiyasını emal edir və yaradılan T ifadələrinə mənbə resursuna keçid əlavə edir.

Annotasiyaların həyata keçirilməsi hər bir mənbəyə əlavə edilən RDF (Resurs Təsviri Çərçivəsi) təsvirləri vasitəsilə baş verir. RDF dili XML formatına əsaslanır. Bu dilin təsviri kifayət qədər genişdir, ona görə də biz yalnız coğrafi məlumatların saxlandığı müəyyən verilənlər bazasının RDF təsviri nümunəsi ilə məhdudlaşacağıq. Parametrləşdirilmiş annotasiyalar bu bazaya əlavə olunur " ÇoxXalqyaşamaqin ? s " Və " əhaliof ? s " , və cavab şablonu: “Əhalisi ?s edir ?o" , Harada ? o bazaya daxil olmağı və əmlakı əldə etməyi bildirir əhali obyektdə ? s. Belə annotasiyanı emal edərkən, Parser 2 sual şablonunu və cavab şablonuna keçidi saxlayacaq. Əgər istifadəçi sorğusunu yerinə yetirərkən Start Bilik Bazasında sual şablonu ilə uyğunluq taparsa, o, annotasiyanın götürüldüyü xarici resursla əlaqə saxlayacaq və müvafiq cavab yaradılacaq.

Bundan əlavə, parametrləşdirilmiş annotasiyalardan istifadə edərək, bütün suallar sinfinə cavab üçün axtarış modelini təsvir edə bilərsiniz. Məsələn, “Afrikada ən böyük əraziyə malik ölkə hansıdır?” kimi suallar. və ya “Avropanın hansı ölkəsində uşaq ölümü ən aşağıdır?” bir şablonun altına düşür: “Hansı ölkədə $bölgə ən böyüyünə malikdir $atribut " Bundan əlavə, annotasiya bu cür suallara cavab tapmaq üçün ümumi alqoritmi təsvir edir.

Bəzi suallar bir neçə sualdan ibarətdir. Məsələn, “Kanadanın sahil xətti Rusiyanın sahil zolağından daha uzundurmu?” sualına cavab vermək üçün. birincisi, Kanada və Rusiyanın sahil xətlərinin uzunluğunu hesablamaq, ikincisi, alınan dəyərləri müqayisə etmək və cavab yaratmaq lazımdır. Buna görə də, bu cür sual üçün, köməkçi sualların veriləcəyi cavab tapmaq üçün bir plan təsvir edə bilərsiniz.

2.7 Nəticə

Başlanğıc sual və cavab sistemindən istifadə edir fərqləndirilir sualın növündən asılı olaraq cavabların tapılmasına yanaşma. Bu, çoxlu sayda ümumi suallar üçün nisbətən yaxşı nəticə verir.

Əsas kimi istifadə edilən Bilik Bazası və üçlü ifadələr məlumatın təqdim edilməsi üçün uğurlu modeldir ki, bu da bir tərəfdən sözlər arasında semantik əlaqəni müəyyən dərəcədə qoruyub saxlayır, digər tərəfdən isə axtarışın effektiv həyata keçirilməsi üçün kifayət qədər sadədir. və verilənlər bazasını redaktə etmək.

Annotasiyalardan istifadə etməklə siz universal təbii dil interfeysindən istifadə edərək İnternet informasiya ehtiyatlarına proqramlı çıxışı təşkil edə bilərsiniz. Omnibase kimi əlavə strukturların istifadəsi isə bəzi konkret növ suallara cavab tapmaqda səmərəliliyi artırmağa imkan verir.

Nəhayət, müxtəlif lüğətlər və linqvistik modullar müəyyən dərəcədə təbii dilin semantik xüsusiyyətlərini modelləşdirə və daha mürəkkəb sorğuları idarə edə bilər. Bu cür lüğətlərin tərtibi vəzifəsi, eləcə də sual-cavab sistemlərinin inkişafı ilə bağlı digər problemlər istər-istəməz təkcə informatika sahəsində mütəxəssislərin deyil, həm də dilçilərin, filoloqların da cəlb olunmasını tələb edir.

3. Təbii dilin təhlili üçün statistik üsullar

3.1 Giriş

Təkliflərin təhlili prosesini nəzərdən keçirək. Bizim vəzifəmiz hər cümlə üçün təhlil ağacı tərtib etmək olacaq. Nisbi mürəkkəbliyə görə Rus dili və onun üçün ədəbiyyatın olmaması və elmi əsərlər Bu mövzuda ingilis dilindən əlavə nümunələr nəzərdən keçiriləcək. Aşağıda belə bir analiz nümunəsi verilmişdir.

Şəkil 1 “Köpək yedi” ifadəsi üçün ağacı təhlil edin

Şəkil 1-də təpələr (det, isim, np və s.) cümlə üzvlərinin məntiqi birləşmələrini təmsil edir. Məsələn, np – isim ifadəsi o deməkdir ki, bu ağac düyünü cümlənin isim mənasını daşıyan hissəsinə cavabdehdir. Diqqət yetirin ki, hər hansı bir ifadə üçün, hətta belə sadə bir ifadə üçün, eyni ifadəyə fərqli mənalar verməsi ilə fərqlənən bir neçə təhlil ağacı ola bilər. Məsələn, deyə bilərsiniz: "Mən itlərlə ət yedim". Belə bir cümlədən 2 tamamilə fərqli təhlil ağacı əldə edə bilərsiniz. Bir halda məlum olur ki, mən itlərlə ət yemişəm, digərində isə itin içalatı ilə seyreltilmiş bir növ ət yemişəm. Ən heyrətamizi isə odur ki, belə “gözəl” nümunələrə hər yerdə rast gəlinir Ingilis ədəbiyyatı, buna görə də onlarla kifayətlənməli olacaqsınız. Bu cür absurdların qarşısını almaq üçün ayrıca analizatordan istifadə etməlisiniz ki, bu da imkan daxilində təhlilçimizə kömək edəcəkdir. Bu işdə biz təhlil ağacı qurarkən sintaktik əlaqələri nəzərə alacaq bir parser quracağıq.

3.2 Cümlələrdə sözlər üçün nitq hissələrinin müəyyən edilməsi

İngilis dilində bu hissənin tapşırığı Part-Of-Speech etiketləmə kimi səslənir və NLP (Natural Language Processing) kimi müasir elmin bir hissəsinin çoxlu alt tapşırıqlarından biridir. Ümumiyyətlə, NLP kompüterin təbii dildə mətnləri başa düşməsini təmin etmək məqsədi daşıyır. Bu problemlərə indi çox rast gəlinir və onların effektiv həlli yollarına böyük tələbat var. Proqram fizika dərsliyini “oxuyan” müstəqil olaraq “Filan təcrübədə yarımkeçiricinin qızdırılmasının səbəbi nədir?” kimi suallara cavab versəydi, əlbəttə ki, əla olardı. Burada başqa bir çətinlik dərhal görünür - dərsliyi oxuduqdan sonra da proqram hələ də istifadəçinin suallarını başa düşməlidir və həmçinin, tercihen öz suallarını yarada bilməlidir (bəzi tənbəl müəllimlərin arzusu).

Artıq qoyulmuş suala qayıdaq: “Necə müəyyən etmək olar Nitq hissəsi cümlədəki bir söz üçün?”

Antonimlər" href="/text/category/antonimi/" rel="bookmark">antonimlər və s. Biz statistik yanaşmaya baxdığımız üçün hər söz üçün onun isim, sifət və s. d.Biz artıq əl ilə təhlil edilmiş test mətnləri əsasında belə ehtimal cədvəlini qura bilərik.Şəkil 2-də bu yanaşmadan istifadə edən sözlər üçün təyin olunan nitq hissələri qalın hərflərlə vurğulanır.Mümkünlərdən biri problemlər dərhal görünür - hətta “can” əksər hallarda modal feldir, lakin bəzən isim də ola bilər.Məlum olur ki, bu metod həmişə “can”ı modal fel kimi nəzərdən keçirəcək.Sadəliyinə və aşkar çatışmazlıqlarına baxmayaraq , bu üsul yaxşı nəticələr göstərir və orta hesabla sözlərin 90%-nin düzgün olduğunu tanıyır.Alınan nəticələri rəsmiləşdirərək, bu alqoritm zamanı maksimuma çatdırılması lazım olan məhsulu yazacağıq:

Burada aşağıdakı qeydlər təqdim olunur:

t – tag (det, isim, …) w – mətndəki söz (can, will...) p(t | w) – t teqinin w sözünə uyğun gəlmə ehtimalı

Əvvəlki modelin çatışmazlıqlarını nəzərə alaraq, məsələn, statistikaya görə, sifətdən sonra başqa bir sifət və ya ismin olmasını nəzərə alan yeni model yaradılmışdır. Qeyd etmək lazımdır ki, bu, bütün digər statistik məlumatlar kimi, hansısa nümunədən əldə edilir və ilkin statistikanın olmadığı hal nəzərə alınmayacaq. Bu təklif əsasında aşağıdakı düstur alındı:

p(w | t) – w sözünün t teqinə uyğun gəlmə ehtimalı p(t1 | t2) – t1-in t2-dən sonra gəlməsi ehtimalı

Təklif olunan düsturdan göründüyü kimi, teqləri elə seçməyə çalışırıq ki, söz teqlə, teq isə əvvəlki teqlə uyğun olsun. Bu üsul əvvəlkindən daha yaxşı nəticələr verir, bu olduqca təbiidir, məsələn, “can”ı modal fel kimi deyil, isim kimi tanıyır.

Teqlər dəstinin cümləyə uyğun olması ehtimalını hesablamaq üçün qurulmuş model, göründüyü kimi, "Gizli Markov Modeli" kimi şərh edilə bilər.

Sonlu dövlət maşını kimi bir şey alırıq. İndi onu necə əldə edəcəyimizi təsvir edəcəyik. Təpələr nitqin hissələridir. Təpəsindəki cüt (söz, ehtimal) müəyyən nitq hissəsinə təyin edilmiş sözün tam olaraq bu olma ehtimalını göstərir, məsələn, “det” təpəsi və “a” sözü üçün bu, a test mətnindən təsadüfi götürülmüş məqalə “a” olacaqdır. Keçidlər nitqin bir hissəsinin digərinin ardınca gəlmə ehtimalının nə qədər olduğunu göstərir. Məsələn, məqalə ilə rastlaşmaq şərti ilə 2 məqalənin ard-arda görünməsi ehtimalı 0,0016-a bərabər olacaqdır.

Bizim vəzifəmiz belə bir modeldə bir yol tapmaq olacaq ki, kənarlardakı və təpələrdəki ədədlərin hasilatı maksimum olsun. Belə bir problemin həlli var, lakin bu məsələ bu işin əhatə dairəsi xaricində olduğu üçün onun üzərində dayanmayacağıq. Deyək ki, təpələrin sayında xətti olan bir zamanda bu problemi həll edən alqoritmlər var. Onu da əlavə edək ki, mövcud təsnifata görə biz “kanonik statistik etiketləyici” əldə etmişik.

İndi teqləri təyin etmək üçün başqa bir yanaşma nəzərdən keçirək. Buna transformasiya sxemi deyilir. Söhbət ondan ibarətdir ki, test cümlələri üzərində işləyərkən əvvəlcə mənasız alqoritm tətbiq edilir, sonra isə sistem formanın bütün qaydalarını nəzərə alır: “Əvvəlki sözün teqi Z-dirsə, sözün X teqini Y işarəsi ilə dəyişdirin. .” Belə qaydaların ümumi sayı nisbətən kiçik olan bir kubdakı etiketlərin sayı olacaqdır. Ona görə də hər addımda belə bir qayda tətbiq etməyə çalışırıq və bundan sonra düzgün müəyyən edilmiş nitq hissələrinin sayı artarsa, o zaman qayda ilk addımda ən yaxşı qayda adına namizəd olacaq. Sonra ən yaxşı qayda seçilir və "yaxşı" qaydalar siyahısına əlavə olunur. Bunu bir neçə dəfə edirik. Test sistemindən cümlələr üçün etiket sisteminin ehtimalını "yaxşı" yaxşılaşdıran N qaydalar əldə edirik. Sonra, ixtiyari bir cümlənin özünü təhlil edərkən, mənasız bir alqoritm tətbiq etdikdən sonra, artıq hazırlanmış qaydalardan istifadə edirik. Bu alqoritm üçün onun əsas üstünlüklərindən birini qeyd etmək olar – sürət. HMM-dən istifadə edən alqoritmdə 1200 söz/san olduğu halda, bu, 11.000 söz/sanya bərabərdir.

Sonda əlavə etmək istərdim ki, indiyə qədər biz həcmli ilkin bazanın mövcudluğunu güman etmişik. Əgər belə bir şey yoxdursa, onda HMM təlimi əhəmiyyətli irəliləyişlərə səbəb olmur (effektivlik 90%). TS (transformasiya sxemi) isə 97%-ə çatmağa imkan verir. Nəzərinizə çatdıraq ki, effektivlik test mətnlərində düzgün müəyyən edilmiş etiketlərin sayı ilə ölçülür.

3.3 Cümlələrdən təhlil ağaclarının yaradılması

Şəkil 4 “Qərib çəngəllə pişi yedi” cümləsinin təhlili.

Bu bölmənin vəzifəsi Şəkil 1-də göstərilənlərə bənzər analiz ağacları qurmaq olacaq. 4. Dərhal qeyd edək ki, varlı var kolleksiya artıq ilkin verilənlər bazasından müvafiq təkliflər üçün ağaclar yaradılmışdır. Veb saytına daxil olaraq bu sistem haqqında daha çox məlumat əldə edə bilərsiniz. Dərhal təhlilçilərin yoxlanılması məsələsini müzakirə edək. Biz sadəcə onları giriş kimi cümlələrlə qidalandırırıq və nəticədə ağacları uyğunluq üçün yoxlayırıq. Bu bir neçə yolla edilə bilər, lakin bu işdə biz artıq təklif olunanlardan birini istifadə edəcəyik. Ağac məkanında biz iki ölçü təqdim edirik: dəqiqlik və yaddaş. Dəqiqlik düzgün müəyyən edilmiş qeyri-terminal təpələrin sayının onların ümumi sayına bölünməsi kimi müəyyən ediləcək. Yaddaş verilənlər bazasında eyni cümlənin qeyri-terminallarının sayına bölünən düzgün tapılmış təpələrin sayına bərabər olacaq. Bildirilir ki, ağac tikmək üçün ən sadə yanaşmanı tətbiq etsəniz, hər iki göstərici üçün dərhal 75% səmərəlilik əldə edəcəksiniz. Bununla belə, müasir analizatorlar 87-88% səmərəliliyə çata bilər (bundan sonra, xüsusi qeyd edilmədiyi təqdirdə, səmərəlilik hər iki göstəriciyə istinad ediləcək).

Tapşırığımızı 3 əsas mərhələyə ayıraq:

Tətbiq ediləcək qaydaların tapılması Qaydalara ehtimalların təyin edilməsi Ən çox ehtimal olunan qaydanın tapılması

Bu problemi həll etmək üçün ən sadə mexanizmlərdən biri “Ehtimallı Kontekstsiz Qrammatikalar”dır (PCFG). Bu anlayışı başa düşməyi asanlaşdıracaq bir qrammatika nümunəsinə baxaq:

sp → np vp (1.0) vp → fel np (0.8) vp → fel np np (0.2) np → det isim (0.5) np → isim (0.3) np → det isim (0.15) np → np05)p

Burada müvafiq təpələri təhlil etmək üçün qaydalar yazılmışdır və hər bir qayda üçün onun tətbiqi ehtimalı var. Beləliklə, “π” ağacının onun “s” cümləsinə uyğun gəlmə ehtimalını hesablaya bilərik:

margin-top:0cm" type="disc"> s – ilkin cümlə π – əldə etdiyimiz ağac c – ağacın daxili təpələrindən keçir r(c) – c üçün r-dən istifadə ehtimalı

Biz dəqiq alqoritmlər verməyəcəyik, yalnız onu deyəcəyik ki, PCFG-dən istifadə edərək N uzunluqlu bütün analiz ağacları arasında təkrarlama N kub vaxt aparacaq. Təəssüf ki, qeyd etmək olar ki, PCFG-lər özləri tərəfindən "yaxşı" statistik analizatorlar istehsal etmirlər, buna görə də geniş istifadə olunmur.

3.4 PCFG əsasında öz təhlil qaydalarınızı yaratmaq. Ağacın qrammatikası. "Markov qrammatikası"

Təklifi təhlil etmək üçün həll edilməli olan əsas vəzifələri nəzərdən keçirək:

PCFG şəklində öz qrammatikanızı qurmaq (təklifimizdə bu qrammatikada ən azı bir nəticənin olması arzuolunan olardı). Verilmiş qaydaları cümləyə tətbiq edən və bəzi və ya bütün mümkün təhlil ağaclarını əldə edən təhlilçi. (1) tənliyi üçün optimal ağacları tapmaq bacarığı.

Əvvəlki hissədə son 2 problemin icmalı verilmişdi, indi dayanaq

birinci nöqtədə. Birincisi, biz bunun üçün sadə bir həll təklif edəcəyik. Deyək ki, artıq hazır parse ağacları kolleksiyamız var. Sonra, bu ağacların hər birini emal edərək, biz sadəcə olaraq hər bir qeyri-terminal təpədən onun müəyyən bir ağacda necə genişləndirilməsinə əsaslanaraq bir qayda yaradacağıq. Bundan sonra, əgər belə bir qayda artıq mövcuddursa, onda biz onun statistik parametrini 1 artırırıq, yoxdursa, qrammatikamıza bu parametrlə 1-ə bərabər olan yeni bir qayda əlavə edirik. Bütün test ağaclarını emal etdikdən sonra, biz normallaşdırmanı elə yerinə yetirin ki, hər bir qaydanın tətbiqi ehtimalı ≤ 1. Belə modellərin səmərəliliyi 75% təşkil edir. Bu cür modellər “Ağac bankının qrammatikası” adlanır.

İndi yeni qaydalar icad etməyə imkan verən yanaşma haqqında bir az danışaq. Bunu etmək üçün, test ağaclarına əsaslanaraq, aşağıdakı dəyər üçün statistika quracağıq - p(t1 | f, t2). Bu, “f” formasını genişləndirərkən “t1” teqinin “t2” etiketindən sonra baş vermə ehtimalı deməkdir. Məsələn, p(adj | np, det) “isim ifadəsini” (np-nin sərbəst tərcüməsi) genişləndirmək və artiklə rast gəlmək şərti ilə sifətin ardınca artiklin gəlməsi ehtimalı deməkdir. Buna əsaslanaraq, hər hansı bir qaydanın hansısa təpəyə düzgün tətbiqi ehtimalı üçün düstur yarada bilərik:

3.5 Leksik təhlilçilər

Bu hissənin əsas ideyası modelimizin səmərəliliyini artırmaq üçün ağacın strukturunu dəyişdirmək olacaq. İndi biz yuxarıda göstərildiyi kimi sadəcə təhlil ağacı qurmayacağıq, lakin əlavə olaraq hər bir təpəyə onu leksik vahid kimi ən yaxşı xarakterizə edəcək bir söz təyin edəcəyik. “c” təpəsi üçün baş(c) kimi xətti işarə edirik. Baş(c) müəyyən funksiyanın “c” övladlarına tətbiq edilməsi və “c”-nin “açıldığı” qayda kimi müəyyən ediləcək. Ümumiyyətlə, belə çıxır ki, bu başlığı qurarkən bəzi sözlərin bir-biri ilə tez-tez baş verdiyini nəzərə alırıq, ona görə də belə statistikaya malik olmaqla bəzi cümlələrin doğruluğunu təhlil etmək ehtimalını artıra bilərik. Məsələn, “Avqust mal ticarəti defisiti” cümləsində ard-arda 4 isim var, ona görə də əvvəlki modellərdən istifadə etsək, bu cümləni düzgün təhlil etmək ehtimalı çox aşağı olar. Amma “defisit”in bu “np”nin əsas hissəsi olması və test mətnlərində eyni vaxtda “defisit” və digər sözləri ehtiva edən ifadələrə rast gəlməyimiz təhlil ağacını düzgün tərtib etməyə kömək edəcək. İndi düsturdan istifadə edərək yuxarıdakıları rəsmiləşdirək:

p(r | h) r qaydasının verilmiş h olan düyün üçün tətbiq olunma ehtimalıdır. p(h | m, t) – belə h-nin baş = m və t işarəsi olan təpənin uşağı olması ehtimalı.

Yuxarıda verilmiş formulun formasının daha aydın olması üçün bir cədvəl təqdim edək.




h(c) = “defisit”

Burada şərti ehtimal anlayışından fəal şəkildə istifadə olunur. Sadəcə olaraq, baş(c) = “defisit” olduğunu qəbul etsək, ağacın yuxarısındakı “c” sözünün “Avqust” olma ehtimalı daha yüksək olur. Əslində, biz işlərimizi daha konkret etmək istəyirik ki, “qayda = np → det xüsusi isim isim isim” kimi çox nadir qaydaların kifayət qədər yaxşı ehtimalı olsun və sonra biz çox mürəkkəb mətnləri işləyə bilək. Bu halda, bizim üçün heç bir əhəmiyyət kəsb etmir ki, tətbiq etmək istədiyimiz qayda ilkin qaydalar toplusunda tapmaya bilər.

3.6 Nəticə

Statistik yanaşma bir çox NLP problemlərini həll etməyə imkan verir və riyazi dilçilikdə kifayət qədər yeni və sürətlə inkişaf edən sahələrdən biridir. Bu işdə yalnız əsas anlayışlar və terminlər nəzərdən keçirilmişdir ki, bu da bu mövzuda xüsusi araşdırmaları oxuyarkən oxucuya seçim azadlığı verir. Təəssüf ki, rusdilli oxucular üçün qeyd etmək lazımdır ki, Rusiyada bu mövzuda araşdırmaların və əsərlərin sayı azdır və bütün materiallar ingilis mənbələrindən götürülməli idi. Ola bilsin ki, siz vəziyyəti dəyişdirə və 2 Rusiya layihəsinin təşəbbüslərini götürə bilən şəxssiniz. Onlardan biri qeyri-kommersiya xarakterlidir və Sankt-Peterburq Dövlət Universitetinin PM-PU-da hazırlanır. Digəri isə RCO-nun kommersiya məhsuludur, maraqlananlar bu şirkətin elmi əsərlərini öz internet səhifəsində oxuya bilərlər. Bu məqalədə istifadə olunan bütün nümunələr və şəkillər buradan götürülüb.

4. Bağlantılar

CLEF. http://clef-qa. s. it/WordNet. http://wordnet. princeton. edu/Pen treebank. http://www. cis. upenn. edu/~treebank/Start. http://start. csail. mit. təhsil/TREC. http://trec. nist. gov/ Eugene Charniak, “Təbii dilin təhlili üçün statistik üsullar” Gary C. Borchardt, “Causal Reconstruction” Boris Katz, Beth Levin “Təbii dil sistemlərinin layihələndirilməsində leksik qanunauyğunluqların istismarı” SEMLP. http:///RCO. http://www. *****/

Kompüter elmində siyahıların işlənməsinin meydana çıxmasından qısa müddət sonra BEYSEBALL proqramı (yeni metodların sual-cavab sistemlərinə necə tətbiq oluna biləcəyini göstərmək üçün) yazılmışdır (Green, Wolfe, Chomsky, & Loughrey, 1961; Greene, 1963). Bu proqram 1959-cu ildə Amerika Beysbol Liqası oyunları ilə bağlı suallara cavab vermək üçün nəzərdə tutulmuşdur - buna görə də onun adı. Proqramın bu tətbiqinin sosial dəyəri şübhə doğursa da, o vaxtdan bəri geniş istifadə olunan proqramlaşdırma prinsiplərini sınaqdan keçirmək üçün yaxşı aparat təmin edir. Proqrama göndərilən mesajlar ingilis dilinin sadə alt dəstində tərtib edilmişdir, biz bu barədə praktiki olaraq üzərində dayanmayacağıq. Burada istifadə olunan məlumat strukturu daha maraqlıdır.

BEYSEBOL proqramının məlumatları iyerarxik sistemdə təşkil edilmişdir. Bu məlumat strukturu ekvivalent olaraq ağac kimi təqdim edilə bilər. Ən yüksək səviyyə YEAR (yalnız 1959-cu il üçün məlumatlardan istifadə edilib, lakin proqram bir neçə il üçün seçimlər təqdim edib), ardınca AY və YER üzrə sıralanıb. İL, AY və YER müəyyən edildikdən sonra ardıcıl olaraq oyunun nömrəsi, günü və xal (komandanın qazandığı xallar) göstərilmişdir.

Ümumiyyətlə, məlumat strukturunun formatı belə idi:

Aydındır ki, məlumat strukturunun bu forması beysbola xas deyil və BASEBALL proqramında verilənlərin işlənməsi prosedurları müxtəlif səviyyələrin və filialların şərhindən asılı olmayaraq istənilən iyerarxik məlumat strukturu ilə işləmək niyyəti ilə yazılmışdır.

BASEBALL proqramının işini iki anlayışı nəzərə almaqla başa düşmək olar: məlumat yolu və spesifikasiya siyahısı.

Məlumat yolu müəyyən bir oyun haqqında məlumat əldə etmək üçün izlənilməli olan filiallar ardıcıllığıdır.

Məsələn, bu oyun haqqında bəzi məlumatları müəyyənləşdirir və müəyyən edir. Hər bir oyunun onunla əlaqəli bir məlumat yolu var və onun girişləri, nümunədə göstərildiyi kimi, oyunun xüsusiyyətlərini müəyyənləşdirir. Bütün mümkün məlumat yollarını yaratmaq üçün hər hansı sadə ağac axtarış alqoritmindən istifadə edə bilərsiniz, çünki məlumat ağacı açıq şəkildə sonludur.

Spesifikasiya siyahısı bir suala etibarlı cavab olmaq üçün məlumat yolunun malik olmalı olduğu atributların siyahısıdır. Məsələn, sual spesifikasiyalarının siyahısı

Redsox komandası iyul ayında harada (hansı yerlərdə) oynadı? (1) olacaq

Deyək ki, dil prosessoru sual üçün spesifikasiyaların siyahısını yaradıb. İyerarxik məlumat prosessoru spesifikasiyaların siyahısını götürür və sistematik olaraq ona uyğun gələn bütün məlumat yollarını yaradır. Yol spesifikasiya siyahısına uyğun gəlirsə

(a) xüsusiyyət-dəyər cütü (məsələn, o, həm spesifikasiyalar siyahısında, həm də yolda var və ya

(b) spesifikasiyalar siyahısındakı xüsusiyyət-dəyər cütünün dəyəri var (məsələn, bu halda məlumat yolunda müvafiq dəyər mümkün qədər qeydə alınır (məsələn (1)), dəyərlər siyahısı cavab).

Spesifikasiya siyahısındakı xüsusiyyət-dəyər cütünün dəyəri varsa, o, məlumat yolundakı hər hansı xüsusiyyətin dəyərinə uyğundur. Təsdiq növü qeydə alınmayıb.

Artıq qeyd edildiyi kimi, məlumat yollarının yaradılması və onların spesifikasiyalar siyahısına uyğunlaşdırılması prosesi beysbol mövzusuna xas bir şey ehtiva etmir. Törəmə atribut-dəyər cütləri də ardıcıl ola bilər, lakin bu halda onlar tətbiqə xasdır. Məsələn, sualı nəzərdən keçirin:

İyulda komandalar öz meydanlarında neçə oyunda qalib gəldilər? (2)

Buna cavab vermək üçün proqram dəyərin dəyərə uyğun olduğu və adı dəyərə uyğun gələn və ən yaxşı balı olan oyunları müəyyən edən bütün məlumat yollarını tapmalıdır. Aydındır ki, müvafiq spesifikasiyalar siyahısını tərtib edən alt proqram beysbol oyunu haqqında biliklərə əsaslanır.

Spesifikasiya siyahılarına cavab verən məlumat yolları tapıldıqda, onlar əsas siyahıya birləşdirilir. O, həm də ağac kimi təmsil olunur. Məsələn, (1) sualına cavab verən yolları aşağıdakı kimi ümumiləşdirmək olar:

Sualın cavabı əsas siyahıya baxılmaqla tərtib edilir. (1) halda cavab sadəcə əsas siyahıda YER dəyərlərini qeyd etməklə əldə edilir.

düyü. 14.1. (skan bax) BEYZBOL proqramında sualların cavablandırılması mərhələləri.

Bir az daha mürəkkəb sualın cavabı

Redsox iyul ayında neçə yerdə oynadı? (3)

əsas siyahıdakı dəyərləri yenidən hesablamaqla əldə edilə bilər.

Suallara cavab vermək üçün bu prosedurun diaqramı Şəkildə göstərilmişdir. 14.1. Təbii dil alt çoxluq analizatoru

sualı təbii dildə qavrayır, verilən sualın növünü tanıyır və spesifikasiyaların siyahısını tərtib edir. BEYZBOL proqramının bu hissəsi iki cəhətdən tətbiq sahəsi ilə bağlı zəruridir. Aydındır ki, onun bu oyunun leksikonuna çıxışı olmalıdır. Daha az aydındır ki, o, “nə qədər” və ya “nədə” kimi təbii dil ifadələrini uyğun spesifikasiya siyahılarına çevirən rutinləri ehtiva etməlidir. Beləliklə, Green və başqaları, kitabxanalarda olduğu kimi istifadəçinin "indeksləşdirilmiş" sualların verilməsini məhdudlaşdırmasa da, sistemin qəbul edə biləcəyi sualların növlərini əvvəlcədən müəyyən etdilər.

(B) addımında proqram spesifikasiyalar siyahısından əsas məlumat siyahısını yaradır. Artıq qeyd edildiyi kimi, B-nin böyük bölmələri tətbiqlərdən müstəqildir, baxmayaraq ki, fərdi qaydalar əldə edilmiş test xüsusiyyətlərinə ehtiyac duya bilər. Son mərhələdə cavab əsas siyahıdan alınır (bloklar və Burada yenə proqramçı soruşulan sualların növünü təxmin etməli və sistemə hər bir sual növü üçün uyğun əsas siyahı yaratma qaydasını daxil etməlidir.

Şəkildəki bloklardan göründüyü kimi. 14.1, BEYSEBOL proqramı yalnız bir dəfə məlumatı nəzərdən keçirməklə cavablandırıla bilən suallarla məhdudlaşmır. Sualı nəzərdən keçirək:

İyulda 8 yerdə neçə komanda oynadı? (4)

Spesifikasiyaların ilkin siyahısı aşağıdakı kimidir:

Bu spesifikasiyalar siyahısı ilə müəyyən edilən suala dərhal cavab vermək mümkün deyil. Bunun əvəzinə prosessor araşdırma aparmalıdır

və dərhal cavab vermək mümkün deyil, ona görə də köməkçi sual lazımdır:

Həm də dərhal cavab vermək mümkün deyil, ona görə də yadda qalır və sual yaranır

Əsas siyahı verən sual prosessorundan istifadə etməklə cavab verilə bilər

Spesifikasiya formanın bütün siyahılarına baxmaq deməkdir.Yerlərin adlarını saymaqla siz ona cavab ala bilərsiniz.Siz onu siyahıya çevirib cavab ala bilərsiniz.Bu dərhal sualın cavabını izləyir.

BEYSEBOL proqramının inkişafı ilkin layihə çərçivəsindən - süni intellekt sistemlərinin adi taleyindən kənara çıxmadı. Əslində, iyerarxik məlumat strukturu ideyası maşınla oxuna bilən proqramlaşdırmadan itmiş kimi görünür. Bu bir qədər təəccüblüdür, çünki iyerarxik strukturlar məlumatların səmərəli idarə olunmasına imkan verir, xüsusən də böyük həcmli məlumat qismən ilkin yaddaşda və qismən də nisbətən yavaş, ucuz yaddaş cihazlarında saxlanmalıdır (ətraflı məlumat üçün bax: Sussengut, 1963). Bundan əlavə, iyerarxik strukturlar daha ənənəvi informasiya emalı sistemləri ilə uyğunlaşan verilənlərin idarə edilməsi üsulları ilə həyata keçirilə bilər (Hunt və Kildall, 1971; Lefkowitz, 1969). Şübhəsiz ki, siz “anlama” proqramlarından istifadə etməyə hazırlaşarkən, müəyyən mərhələdə xərc və sistem uyğunluğu ilə bağlı qaçılmaz praktiki məsələləri qaldırmalısınız. Bəlkə də gələcəkdə bu kifayət qədər köhnə proqramda həyata keçirilən prinsiplərə qayıtmağa dəyərdi.

Sual-cavab sistemləri

Sual-cavab sistemi(İngiliscə Sual-cavab sistemi) axtarış, arayış və intellektual sistemlərin hibridini təşkil edən xüsusi tipli informasiya sistemləridir (çox vaxt onlar kimi hesab olunurlar). ağıllı axtarış motorları). QA sistemi sualları təbii dildə qəbul etməyi bacarmalıdır, yəni təbii dil interfeysinə malik sistemdir. Məlumat İnternetdən və ya yerli yaddaşdan sənədlər əsasında verilir. QA sistemlərinin müasir inkişafı faktlar, siyahılar, təriflər, Necə, Niyə, hipotetik, mürəkkəb və dillərarası suallara dair sorğuların bir çox variantını emal etməyə imkan verir.

Yüksək ixtisaslaşmış QA sistemləri müəyyən sahələrdə işləyir (məsələn, tibb və ya avtomobilə texniki qulluq). Belə sistemlərin qurulması nisbətən asan işdir.
Ümumidir QA sistemləri biliklərin bütün sahələri üzrə məlumatlarla işləyir və beləliklə, əlaqəli sahələrdə axtarış aparmağa imkan verir.

Memarlıq

İlk QA sistemləri 1960-cı illərdə hazırlanmış və xüsusi sahələrə yönəlmiş ekspert sistemləri üçün təbii dil qabıqları idi. Müasir sistemlər axtarış üçün nəzərdə tutulmuşdur suallara cavablar təbii dil emalı (NLP) texnologiyalarından istifadə etməklə təqdim olunan sənədlərdə.

Müasir QA sistemlərinə adətən xüsusi modul daxildir - sual təsnifatı, sualın növünü və müvafiq olaraq gözlənilən cavabı müəyyən edir. Bu təhlildən sonra sistem lazımsız məlumatları ataraq, təqdim olunan sənədlərə getdikcə daha mürəkkəb və incə NLP üsullarını tətbiq edir. Ən kobud üsuldur sənədlərdə axtarış- mətnin potensial cavabı ehtiva edən hissələrini seçmək üçün informasiya axtarış sistemindən istifadəni nəzərdə tutur. Sonra filtr gözlənilən cavaba bənzəyən ifadələri vurğulayır (məsələn, “Kim ...” sualı üçün filtr insanların adlarını ehtiva edən mətn hissələrini qaytaracaq). Və nəhayət, modul cavabları vurğulayır bu ifadələr arasında düzgün cavabı tapacaq.

İş sxemi

Sual-cavab sisteminin fəaliyyəti mətn bazasının keyfiyyətindən asılıdır - orada suallara cavab yoxdursa, QA sistemi heç nə tapa bilməyəcək. Baza nə qədər böyükdürsə, bir o qədər yaxşıdır, ancaq bu ehtiva edir zəruri məlumatlar. Böyük depolar (məsələn, İnternet) çoxlu lazımsız məlumatları ehtiva edir. Bu iki müsbət məqama gətirib çıxarır:

Məlumat müxtəlif formalarda təqdim olunduğundan, QA sistemi müvafiq cavabı tez tapacaq. Mürəkkəb söz emal üsullarına müraciət etmək lazım deyil.
Düzgün məlumat daha tez-tez təkrarlanır, beləliklə sənədlərdəki səhvlər aradan qaldırılır.

Səthi axtarış

Ən çox yayılmış axtarış üsulu açar sözlərdir. Bu şəkildə tapılan ifadələr sual növünə görə süzülür və sonra söz sırası kimi sintaktik xüsusiyyətlərə görə sıralanır.

Qabaqcıl Axtarış

Problemlər

2002-ci ildə bir qrup tədqiqatçı sual-cavab sistemləri sahəsində tədqiqat planı yazdı. Aşağıdakı suallara baxılması təklif olunub.

Sualların növləri Müxtəlif suallar cavab tapmaq üçün müxtəlif üsullar tələb edir. Buna görə də mümkün sualların növlərinin metodik siyahılarını yaratmaq və ya təkmilləşdirmək lazımdır. Sualların işlənməsi Eyni məlumat müxtəlif yollarla tələb oluna bilər. Cümlənin semantikasının (mənasının) dərk edilməsi və işlənməsi üçün təsirli üsulların yaradılması tələb olunur. Proqramın üslubdan, sözlərdən, sintaktik əlaqələrdən və istifadə olunan deyimlərdən asılı olmayaraq məna baxımından ekvivalent olan sualları tanıması vacibdir. Mən istərdim ki, QA sistemi mürəkkəb sualları bir neçə sadə suallara ayırsın və kontekstdən asılı olan ifadələri düzgün şərh etsin, bəlkə də dialoq zamanı istifadəçi ilə aydınlaşdırsın. Kontekstual suallar Suallar konkret kontekstdə verilir. Kontekst sorğuya aydınlıq gətirə, qeyri-müəyyənliyi aradan qaldıra və ya bir sıra suallar vasitəsilə istifadəçinin düşüncəsini izləyə bilər. QA sistemi üçün bilik mənbələri Suala cavab verməzdən əvvəl mövcud mətn verilənlər bazası ilə maraqlanmaq yaxşı olardı. Hansı mətn emal üsullarından istifadə olunmasından asılı olmayaraq, verilənlər bazalarında olmasa, düzgün cavab tapa bilməyəcəyik. Cavabların seçilməsi Bu prosedurun düzgün icrası sualın mürəkkəbliyindən, onun növündən, kontekstindən, mövcud mətnlərin keyfiyyətindən, axtarış metodundan və s. - çoxlu sayda amillərdən asılıdır. Buna görə də mətnin işlənməsi üsullarının öyrənilməsinə çox ehtiyatla yanaşmaq lazımdır və bu problemə xüsusi diqqət yetirilməlidir. Cavabın tərtibi Cavab mümkün qədər təbii olmalıdır. Bəzi hallarda sadə boşalma mətndən. Məsələn, ad (şəxsin adı, alətin adı, xəstəlik), kəmiyyət (valyuta məzənnəsi, uzunluq, ölçü) və ya tarix tələb olunursa ("İvan Dəhşətli nə vaxt anadan olub?") - birbaşa cavab kifayətdir. Ancaq bəzən mürəkkəb sorğularla məşğul olmalısan və burada xüsusi alqoritmlər lazımdır cavabları birləşdirin müxtəlif sənədlərdən. Sualların real vaxt rejimində cavablandırılması Sualın mürəkkəbliyindən və qeyri-müəyyənliyindən, sənəd bazasının ölçüsündən və genişliyindən asılı olmayaraq, bir neçə saniyə ərzində depolarda cavab tapa biləcək bir sistem yaratmaq lazımdır. Çoxdilli sorğular Digər dillərdə işləmə və axtarış sistemlərinin inkişafı (avtomatik tərcümə daxil olmaqla). İnteraktivlik Çox vaxt QA sisteminin cavab olaraq təklif etdiyi məlumat natamam olur. Sistem sualın növünü səhv müəyyən etmiş və ya onu səhv “anlamış” ola bilər. Bu halda istifadəçi nəinki sorğusunu yenidən formalaşdırmaq, həm də dialoqdan istifadə edərək proqrama “izah etmək” istəyə bilər. Əsaslandırma (nəticə) mexanizmi Bəzi istifadəçilər mövcud mətnlərdən kənara çıxan cavab almaq istəyirlər. Bunun üçün siz QA sisteminə əksər sahələr üçün ümumi olan bilikləri əlavə etməlisiniz (bax. İnformatikada ümumi ontologiyalar), həmçinin yeni biliklərin avtomatik çıxarılması üçün vasitələr. QA Sistemlərinin İstifadəçi Profilləri İstifadəçi haqqında məlumat, məsələn, onun maraq dairəsi, danışıq tərzi və əsaslandırma tərzi və defolt faktlar sistemin işini əhəmiyyətli dərəcədə artıra bilər.

Bağlantılar

Dialoq istifadəçi suallarına cavabları avtomatik seçən axtarış sistemidir.
[email protected]: İstənilən suallara cavab axtaran insan.

Wikimedia Fondu. 2010.

Digər lüğətlərdə "Sual-cavab sistemlərinin" nə olduğuna baxın:

Bu məqalə avtomatik informasiya sistemləri haqqındadır. Sosial şəbəkələrin növü haqqında məlumat üçün sual-cavab sisteminə (veb xidməti) baxın. Sual-cavab sistemi (QA sistemi; ingilis dilindən QA English Question answering... ... Wikipedia

İntellektual informasiya sistemi (IIS) avtomatlaşdırılmış informasiya sistemlərinin növlərindən biridir; bəzən İİS biliyə əsaslanan sistem adlanır. IIS proqram təminatı, linqvistik və məntiqi-riyazi... ... Vikipediya kompleksidir

Bu məqalədə məlumat mənbələrinə keçid yoxdur. Məlumat yoxlanıla bilən olmalıdır, əks halda sorğulana və silinə bilər. Siz... Vikipediya

URL... Vikipediya

- (İngilis dilindən Virtual virtual, Digital digital, Assistant assistant, qısaldılmış VDA) veb xidməti və/yaxud smartfonlar və fərdi kompüterlər üçün tətbiq, əslində istifadəçi üçün şəxsi katib rolunu oynayır. Planlaşdırma problemlərini həll edir,... ... Vikipediya

Bilik təmsili koqnitiv elmdə (təfəkkür elmi), kompüter elmində və süni intellekt tədqiqatlarında ortaya çıxan bir məsələdir. Koqnitiv elmdə bu, insanların məlumatı necə saxlaması və emal etməsi ilə bağlıdır. Seçimlə kompüter elmində ... Vikipediya

Bilik təmsili koqnitiv elmdə (təfəkkür elmində), kompüter elmində və süni intellektdə yaranan bir məsələdir. Koqnitiv elmdə bu, insanların məlumatı necə saxlaması və emal etməsi ilə bağlıdır. Kompüter elmində əsas məqsəd təmsilçiliyi seçməkdir... Vikipediya

İstifadəçinin onu maraqlandıran (və məqalələr bazası ilə məhdudlaşan) mövzu ilə bağlı ən dəqiq (müvafiq) məlumat əldə etməsi nəzərdə tutulur. Tipik olaraq, məqalə yardım mövzularının iyerarxiyasına uyğun olaraq seçilir. Yardım sistemləri çox vaxt... ... Vikipediya ilə birləşdirilir

- (Natural Language Processing, NLP) süni intellektin və riyazi dilçiliyin ümumi istiqaməti. Kompüter analizi və təbii dil sintezi problemlərini öyrənir. Süni intellektə tətbiq edildikdə, analiz... Vikipediya deməkdir

Wolfram|Alpha Saytın əsas səhifəsi ... Vikipediya