VeidošanaKoledžas un universitātes

Kas ir Corpus Valodniecība?

Tikai pāris desmitgadēm pirms automatizēt lingvistisko pētījumu, zinātnieki varēja tikai sapņot. Darbs tika veikts ar rokām, tas piesaista lielu skaitu studentu, ir reāla iespēja, "vieglprātīgs" kļūdas, un pats galvenais - tas viss notika ilgu, ilgu laiku.

Ar attīstību datoru tehnoloģijas ir kļuvis iespējams veikt pētījumus par kārtu ātrāk, un šodien ir viens no daudzsološākajiem virzieniem pētījumu valoda ir korpusa lingvistikas. Tās galvenā iezīme ir izmantot lielu daudzumu teksta informāciju, informāciju vienā datu bāzē, īpašā veidā, un aicināja atzīmēto ķermeni.

Līdz šim, ir daudz ēku, kas izveidoti ar dažādiem mērķiem, pamatojoties uz dažādu valodu materiālu, kas aptver no miljoniem desmitiem miljardu leksikas vienību. Šis virziens ir atzīta kā daudzsološa un demonstrē ievērojamu virzību uz pieteikumu un pētniecības nolūkos. Eksperti, vienā vai otrā veidā, kas nodarbojas ar dabīgo valodu, ieteicams iepazīties ar ķermeņa tekstu vismaz pamata līmenī.

Vēsture korpusa lingvistikas

Šīs tendences veidošanās ir saistīta ar radīšanu ASV Brown ķermeni sākumā 60-to gadu pagājušā gadsimta. Kolekcija ietver tekstus visu 1 miljonu locījumos, un šodien ķermeņa šāda izmēra būtu pilnīgi konkurētspējīgs. Tas lielā mērā ir saistīts ar attīstības tempu datoru tehnoloģiju, kā arī pieaugošo pieprasījumu pēc jaunām pētniecības resursiem.

90s korpusa lingvistikas parādījušies uz pilnīgu un neatkarīgu disciplīnas, kolekcija tekstiem ir sastādīts un atzīmēti desmitiem valodās. Šajā periodā tas tika izveidots, piemēram, British National Corpus 100 miljoniem žetonu.

Ar šīs jomas attīstībā valodniecības, teksta apjoms ir arvien vairāk un vairāk (un sasniedz miljardiem vārdnīcu vienību), un izkārtojums kļūst daudzveidīgāka. Līdz šim, internets telpu var atrast liemeņus rakstveida un mutvārdu valodu, daudzvalodu un mācību orientēta māksliniecisko vai akadēmisko literatūru, kā arī daudzas citas sugas.

Kādas ir mājokļu

Ķermeņa veidi organismā valodniecībā var paredzēt vairāku iemeslu dēļ. Intuitīvi, par pamatu klasifikācijai var būt teksta valodu (krievu, vācu), piekļuves režīmu (open source, slēgta, tirdzniecības), žanru izejmateriāla (daiļliteratūra, dokumentālā filma, akadēmisko, žurnālistikas).

Interesants veids rada materiālus sarunvalodu. Tā apzināta ieraksts šādas runas, lai radītu mākslīgu vidi respondentiem, un iegūtais materiāls nevar saukt "spontāni", mūsdienu korpusa lingvistikas ir gājusi citu ceļu. Brīvprātīgais ir aprīkota ar mikrofonu, un dienas laikā ražo reģistrē visas sarunas, kurās tā piedalās. Cilvēki apkārt, protams, nevar zināt, ka, veicot ikdienas saruna veicina zinātnes attīstību.

Vēlāk saņēma ierakstu glabājas datu bāzē, un ir pievienots drukātā teksta atšifrējumu veidu. Tātad, tas kļūst iespējams iezīmēšanas nepieciešams izveidot mutvārdu ikdienas runas korpuss.

iesniegums

Ja vien iespējams, izmantot valodas, un varbūt Ēku tekstu izmantošanu. Metodes piemērot korpusa lingvistisko var būt:

  • Izveidojot programmu, nosakot taustiņu, tiek plaši izmantoti politikā un uzņēmējdarbībā, lai sekotu pozitīvo un negatīvo atbilžu vēlētāju un klientiem, attiecīgi.
  • Savienojuma informācijas sistēma vārdnīcas un tulkotāju, lai uzlabotu savu sniegumu.
  • Dažādas pētījumu uzdevumus, kas veicina izpratni par valodas vienību, vēsturi tās attīstību un prognozes par izmaiņām tuvākajā nākotnē.
  • Attīstība informācijas izguves sistēmās, balstoties uz morfoloģisko, sintaktisko, semantisko un citas funkcijas.
  • Optimizācija dažādo valodu sistēmās un citi.

Izmantošana ēku

Līdzīga resurss saskarne ar tipisku meklētājprogrammu, un piedāvā lietotājam ievadīt vārdu vai vārdu kombināciju, lai meklētu informāciju bāzi. Izņemot forma precīzu vaicājumu var izmantot uzlaboto versiju, kas ļauj atrast tekstuālu informāciju par gandrīz jebkuru valodu kritērijiem.

meklēt bāze var būt:

  • piederību konkrētai grupai vārdšķiru;
  • gramatiskās iezīmes;
  • semantika;
  • stilistiskā un emocionālā krāsošana.

Jūs varat arī kombinēt meklēšanas kritērijus virkni vārdu, piemēram, lai atrastu visus gadījumus no darbības vārda tagadnē, pirmās personas vienskaitļa, kas nāk pēc prievārds "in" un lietvārdu šajā akuzatīvs. Risinājums tādā vienkāršs uzdevums, kas nepieciešams, lietotājam dažas sekundes, un prasa tikai pāris peles klikšķiem norādītajos laukos.

Tapšanas process

Meklēšanas pats var veikt uz visiem subcorpus un viens īpaši izvēlēts, atkarībā no vajadzības, lai sasniegtu konkrētu mērķi:

  1. Pirmais solis ir noteikt, kuri teksti veido pamatu lietas. Praktisku apsvērumu dēļ, tas tiek bieži izmantots žurnālistikas, ziņas, tiešsaistes komentārus. Pētījuma projekts ir izmantot dažādas iepakojuma veidu, bet teksts ir izvēlēti saskaņā ar dažiem kopējo zemes.
  2. Rezultātā kolekcija tekstu pakļauto pirmapstrādi, ir korekcija kļūdu, ja tāda ir, bibliogrāfisko un ārpus lingvistisko aprakstu teksta sagatavoti.
  3. Vai likvidēt visus ne-teksta informāciju: Notīra grafikas, attēli, tabulas.
  4. Ir žetonu, kas parasti ir runas, tālākai apstrādei sadalījums.
  5. Visbeidzot, tā veica morfoloģiskās, sintaktiskās un citu marķējumu ieguvis daudzus elementus.

Visu veikto darījumu ar sintaktisko struktūru ar tajā izplata daudzus elementiem, no kuriem katrs ir identificētas daļa runas, gramatiskās un, atsevišķos gadījumos, semantisko atribūtiem rezultāts.

Grūtības radot ēkas

Ir svarīgi saprast, ka nav pietiekami, lai, apvienojot vārdus vai teikumus par ķermeni. No vienas puses, kolekcija tekstiem jābūt līdzsvarotai, tas ir, pārstāv dažādu veidu tekstu noteiktās proporcijās. No otras puses - saturs iežogojuma izvietotas īpašā veidā.

Pirmā problēma ir atrisināta ar vienošanos, piemēram, kolekcijā ietilpst 60% no literāriem tekstiem, 20% no dokumentālajām noteiktu procentuālo dota rakstveida pārstāvību sarunvalodu, tiesību akti, zinātnisko darbu uc ideāls recepte balstīts organisms šodien neeksistē ...

Otrs jautājums, kas attiecas uz satura izkārtojumu, atrisināt izaicinājums. Ir īpašas programmas un algoritmi izmanto automātiska marķējuma tekstu, bet tie nedod perfektu rezultātu, var izraisīt traucējumus un nepieciešama manuāla pārstrādāt. Iespējas un izaicinājumi, kas nodarbojas ar šo problēmu, ir detalizēti aprakstīti papīra V. P. Zaharova no korpusa lingvistikas.

Teksta iezīmēšanas tiek īstenota vairākos līmeņos, ko mēs saraksts.

morfoloģiskā tagging

No skolas, mēs atceramies, ka krievu valodā, ir dažādas daļas runas, un katram no tiem ir savas īpatnības. Piemēram, vārds ir Slīpuma kategorijas un laiku, kas nav lietvārdu. dzimtā valoda bez vilcināšanās noraida lietvārdus un locīt darbības vārdus, bet, lai atzīmētu ķermeni 100 miljonus. žetoniem manuālo darbu nedarbosies. Visas nepieciešamās darbības var izpildīt datoru, tomēr, lai tas tā ir jāmāca.

Morfoloģiskā tagging, dators ir "saprast", katru vārdu, kā noteiktu daļu no runas ar noteiktiem gramatikas elementi. Tā kā Krievijas (un jebkura cita valoda) darbojas virkne regulāru noteikumu, ka ir iespējams izveidot automātisku procedūru morfoloģiskās analīzes, ieguldot automašīnā vairākiem algoritmiem. Tomēr ir izņēmumi no noteikuma, kā arī dažādi faktori, kas sarežģī. Tā rezultātā neto dators analīze šodien ir tālu no ideāla, un pat 4% kļūdu iegūst vērtību 4 milj. Vārdi uz ķermeņa 100 miljoni. Vienību, kas prasa manuālu pārstrādāt.

Detalizēts grāmatas apraksta problēmu Zaharova V. P. "korpusa lingvistikas".

sintaktisko anotācija

Analīzes vai analizējot - procedūra, kas nosaka attiecības vārdu vienā teikumā. Izmantojot komplektu algoritmu, ir iespējams noteikt tekstu priekšmeta, predikātu, papildinājumi, vairākiem pagriezieniem runas. Uzziniet, kuras vārdi ir galvenais secība, un kas - atkarīgs, mēs varam efektīvi iegūt informāciju no teksta, un, lai mācītu mašīna izdot, atbildot uz meklēšanas pieprasījumu tikai to informāciju, interesants mums.

Starp citu, mūsdienu meklētājprogrammas izmantot šo, lai sniegtu konkrētus skaitļus, nevis garus tekstus, atbildot uz attiecīgajiem jautājumiem, piemēram, "cik daudz kaloriju ābols" vai "attālumu no Maskavas līdz Sanktpēterburgā." Tomēr, lai saprastu pat pamatus procesa nepieciešamību konsultēties uz "Ievads Corpus lingvistikā" vai cita pamata apmācība aprakstīto.

semantisko iezīmēšanas

No vārda semantika - ir, vienkāršiem vārdiem, nozīmi. Plaši piemērojams pieeja semantisko analīzi vārda attiecināšanas tagus, kas atspoguļo viņa piederību kopumu semantisko kategoriju un apakškategoriju. Šāda informācija ir vērtīga, lai optimizētu algoritmus analizēt teksta toni, automātiska apkopošanu un citus uzdevumus, metodes korpusa lingvistikas.

Ir vairāki "saknes", no koka, kas pārstāv abstraktu vārdu ar ļoti plašu semantiku. Kā veidojas filiāle koku mezgliem, kas satur vairāk un vairāk specifiskas leksikas elementiem. Piemēram, vārds "radījums", var būt saistīta ar tādiem jēdzieniem kā "cilvēku" un "dzīvnieku". Pirmais vārds turpinās sazaroties dažādās profesijās, radniecības ziņā, tautības, un otrais - par klasēm un dzīvnieku veidiem.

Par informācijas izguves sistēmu izmantošana

Jomas izmantošanas korpusa lingvistikas aptver dažādas darbības jomas. Korpusi tiek izmantoti sagatavošanu un vārdnīcas, izveidot automatizētas tulkošanas sistēmas, anotēt, ielādējot faktus, kas nosaka toni un citu teksta apstrādi.

Turklāt, šie resursi tiek aktīvi izmantoti pētījumā par pasaules valodām un mehānismu funkcionēšanu valodas kopumā. Piekļuve liela apjoma iepriekš sagatavotas informācijas atvieglo ātru un visaptverošu pētījumu par attīstības tendencēm valodu un stabilas veidošanās neoloģismus runas atruma vērtības leksikas vienības un citi.

Tā kā darbs ar šādu lielu datu apjomu prasa automatizāciju, šodien pastāv cieša mijiedarbība starp datoru un korpusa lingvistikas.

Krievu nacionālā Corpus

Šī lieta (saīsināti NKRYA) ietver vairākus subcorpus, kas ļauj izmantot resursa par dažādiem uzdevumiem.

Materiāli šajā datubāzē ir sadalīti NKRYA:

  • publikācijām plašsaziņas līdzekļos '90s un 2000s, gan vietējiem, gan ārvalstu;
  • ierakstīšanas runu;
  • aktsentologicheski atzīmēta tekstus (piemēram, rētas stresa);
  • dialekts runas;
  • dzeja;
  • Materiāli ar sintaktisko un citiem marķējumiem.

Informācijas sistēma ietver arī Subcorpus ar paralēlām tulkojumiem darbiem no krievu uz angļu, vācu, franču un daudzās citās valodās (un otrādi).

Arī datu bāzē ir daļa vēsturisku tekstu, kas pārstāv rakstveida runu krievu dažādos periodos tās attīstību. Ir arī mācību iestāde, kas var būt noderīga, lai ārvalstu pilsoņiem apgūt krievu valodu.

Krievu nacionālā Corpus veido 400 miljonus leksikas vienību, un daudzos veidos nākamajos ievērojamu daļu no valodām Eiropas institūcijām.

perspektīvas

Faktu par labu atzīstot šo tendenci, ir pieejamība sola laboratorijas korpusa lingvistikas krievu augstskolās, kā arī ārzemju. Ar lietošanas un pētniecības ietvaros šīs informācijas un meklēšanas resursi ietver attīstību noteiktos apgabalos jomā augsto tehnoloģiju, jautājumu, atbildot uz sistēmām, bet tas ir apspriests iepriekš.

Turpmāka attīstība korpusa lingvistikas tiek prognozēts visos līmeņos, sākot no tehniskā un ieviešanas ziņā jaunu algoritmu, kas optimizē procesus meklēt un apstrādāt informāciju, dodot datori, vairāk RAM, un patērētājiem, jo lietotāji ir vairāk un vairāk veidus, kā izmantot šāda veida resursa viņu ikdienas dzīvi un darbu.

Nobeigumā

In vidū pagājušā gadsimta 2017. gadā šķita tālu nākotni, kad kuģi ceļo pa Visumu un roboti darīt visu darbu cilvēkiem. Faktiski, zinātne ir piepildīts ar "balto plankumu" un padarot izmisīgi mēģinājumi rast atbildes uz jautājumiem par cilvēces gadsimtiem ilgi traucē. Jautājumi funkcionēšanu valodas šeit ieņem goda vietā, un Ministru kabinets, un DATORLINGVISTIKA var palīdzēt mums, lai atbildētu uz tiem.

Apstrāde lielu datu kopu var noteikt veidus, kas iepriekš nepieejamas, prognozēt attīstību specifisku valodu funkcijas, lai izsekotu veidošanos vārdu gandrīz reālā laikā.

Praktiskā līmenī, globālie korpusi var redzēt, piemēram, kā potenciālu instrumentu, lai novērtētu sabiedrības noskaņojumu - internets ir nepārtraukti atjaunināta katru dienu, dažādi teksti radīti ar reālu lietotāju: šis komentāri un atsauksmes, un raksti, kā arī daudzi citi veidi runas.

Turklāt, strādājot ar iestādēm, veicina attīstību pašu aparatūru, kas ir iesaistīti informācijas iegūšanai, mēs esam iepazinušies ar pakalpojumu "Google" vai "Yandex", mašīntulkošanu, elektroniskās vārdnīcas.

Mēs varam droši apgalvot, ka corpus linguistics padara tikai pirmos soļus, un tuvākajā nākotnē būs uzplaukt.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 lv.birmiss.com. Theme powered by WordPress.