Introducere

Fundamentul comunicării între oameni îl constituie limbajul natural – înţelegere, prelucrare, generare, cu întregul său aparat care, din perspectiva inteligenţei artificiale, este format din cunoştinţe lingvistice: limba (maternă sau nu) cu morfologia, lexicul, sintaxa sa şi cunoştinţe extra-lingvistice precum domeniul discursului – semantica şi pragmatica comunicării / a discursului – şi cunoştinţe generale despre lume. Limba română, în contextul tehnologiei limbajului, cunoaşte o promovare din ce în ce mai susţinută, atât pe planul dezvoltării resurselor lingvistice monolingve şi/sau în context paralel, inclusiv al standardelor de utilizat, cât şi al tehnologiilor specifice şi al serviciilor informatice. Din această perspectivă am contribuit la crearea de resurse paralele şi standarde lingvistice pentru limba română.

Dintre multiplele aspecte ale prelucrării discursului, posibilitatea de a identifica şi analiza informaţia temporală este de mare importanţă pentru multe dintre aplicaţiile Prelucrării Limbajului Natural precum regăsirea şi extragerea informaţiei (de exemplu pentru interogarea conform cu criterii temporale a unei baze de date cu documente care se modifică în timp), structura temporală a discursului (crearea de modele pentru structura evenimenţială), sistemele de întrebare-răspuns (aflarea perioadei sau momentului în care s-a petrecut un anumit eveniment – pentru aflarea răspunsurilor la întrebări de genul Când a vizitat al doilea preşedinte cubanez ultima ţară nou intrată în Comunitatea Europeană?, Cât a durat războiul rece? sau pentru aflarea relaţiilor dintre evenimente (Ion a susţinut teza de doctorat înainte de Maria?), sistemele de inferenţe textuale (pentru determinarea evenimentelor coreferenţiale), sumarizarea multi-document (în ordonarea evenimentelor care determină ce conţinut se va transmite spre rezumat şi pentru etapa de generare a rezumatului – îmbinarea şi prezentarea corectă a informaţiilor), traducere automată (transferarea şi normalizarea referinţelor temporale, mapările dintre timpurile verbelor şi succesiunea timpurilor) etc. Informaţia temporală se regăseşte fie explicit (expresii temporale: 14 februarie 2017, amiază, o săptămână; evenimente: Reporterul a anunţat că greva preconizată va începe lunea viitoare.), fie implicit (săptămâna trecută, anul viitor, acum câteva ore) în aproape toate actele comunicării.

Activităţile de creare de corpusuri paralele, cu adnotări temporale importate din limba sursă pentru a fi studiate în limba ţintă, sunt din ce în ce mai susţinute, remarcându-se asemenea activităţi pentru spaniolă sau germană. Mai mult, studierea altor fenomene lingvistice în română, folosind importul adnotărilor din alte limbi (preponderent din engleză), s-a realizat cu succes pentru lanţurile de coreferinţe, colocaţii, relaţii sintactice sau semantice sau sensurile cuvintelor.

Schemele sau standardele folosite în captarea informaţiei temporale, precum şi competiţiile de evaluare temporală au cunoscut o dezvoltare fără precedent în ultimele două decenii. Menţionăm ca scheme MUC, TIMEX, STAG, TIMEX2, TimeML şi ISO-TimeML ca standard de adnotare temporală. Competiţiile ACE-TERN (2004, 2005, 2007, pe baza schemei TIMEX2) şi competiţiile TempEval 1 (2007) şi 2 (2010) au crescut, pornind de la o evaluare cu trei sarcini (în engleză – task) pentru o limbă (engleza) şi 7 sisteme la o evaluare cu 6 sarcini pentru şase limbi şi 18 sisteme participante.

În acest context general, prezentarea se încadrează în linia cercetărilor de prelucrare a discursului în context multilingv, cu aplicaţii la crearea de resurse computaţionale pentru limba română, şi cu accent preponderent pe marcarea informaţiei temporale şi localizarea standardului de reprezentare a acesteia.

Obiective

Pornind de la motivaţiile anterior prezentate, principalele obiective ale cercetărilor prezentate au fost următoarele:

1. Studierea celor mai relevante rezultate şi aplicaţii, precum şi a celor mai bune practici în domeniu.

2. Marcarea informaţiei temporale într-un corpus în limba română special creat.

3. Localizarea la limba română a standardului de referinţă în domeniul informaţiei temporale, ISO-TimeML.

4. Validarea procedurii urmate pentru dezvoltarea corpusului Ro-TimeBank (obiectivul 2) şi a adaptării standardului la limba română (obiectivul 3).

5. Generalizarea procedurii prin crearea unui prototip al unei aplicaţii care permite prelucrarea corpusurilor paralele.

Metodologie

1. Au fost studiate un număr de aproximativ 200 de lucrări (articole, studii, cărţi, recenzii, pagini web) pentru a putea urmări şi prezenta evoluţia din punct de vedere conceptual, lingvistic şi formal a informaţiei temporale în limbajul natural. Am avut în vedere o perspectivă multilingvă (engleză, italiană, franceză, spaniolă şi altele), accentul fiind pus pe limba română.

2. Am ales să folosim corpusul adnotat de referinţă în domeniu, TimeBank – în limba engleză, deoarece cercetări iniţiale au arătat că o adnotare manuală a temporalităţii într-un corpus în limba română este foarte costisitoare, atât ca timp cât şi ca resurse umane implicate şi, mai mult, adnotările sunt deseori incomplete, mai ales în lipsa unui ghid de adnotare bine pus la punct. Corpusul românesc a fost construit printr-o procedură de tip expand: traducerea textului din engleză în română a fost urmată de o preprocesare a textelor în ambele limbi care a permis apoi alinierea la nivel de cuvânt a celor două corpusuri. După o verificare şi corecţie manuală a alinierilor, adnotările din engleză au fost importate în limba română, pentru ca, în final, să parcurgem o altă etapă de corecţie.

3. Dintre toate schemele şi standardele de adnotare prezentate, am ales să folosim ISO-TimeML – standardul emergent de reprezentare a informaţiei temporale, care cuprinde multe dintre aspectele deja surprinse şi în scheme de adnotare anterioare acestuia.

Pe baza evidenţei lingvistice, a Gramaticii Academiei Române şi a standardului ISO, cu localizările la alte limbi romanice, am reuşit să adaptăm standardul ISO pentru a satisface regulile şi specificităţile limbii române.

4. Am realizat validarea procedurii de creare şi adnotare a corpusului românesc şi a adaptării standardului ISO la limba română printr-o abordare bazată pe învăţare automată a relaţiilor temporale – acele marcaje ale standardului care „înmagazinează” şi informaţiile legate de evenimente şi expresii temporale. Folosind colecţia WEKA, am testat performanţele a şase algoritmi prin metoda 10-fold cross-validation, pentru ca astfel să putem selecta unul dintre aceştia pentru antrenarea unui model ulterior folosit în evaluarea datelor.

5. Folosind procedura urmată în paşii 2 şi 3, am contribuit la dezvoltarea prototipului unei platforme de prelucrare a corpusurilor; în esenţă platforma este destinată specialiştilor lingvişti şi permite încărcarea unui corpus cu anumite adnotări (respectând o anumită schemă XSD), traducerea acestuia în altă limbă, în paralel cu obţinerea alinierilor la nivel de cuvânt, importul adnotărilor din limba sursă în limba ţintă şi prelucrarea paralelă (adăugare, modificare, ştergere) a adnotărilor astfel obţinute.

Contribuţii

Urmând etapele de lucru pe scurt descrise în secţiunea anterioară, principalele contribuţii şi rezultate ale cercetărilor sunt:

Pentru atingerea primului obiectiv, am realizat un inventar al reprezentărilor lingvistice ale informaţiei temporale din limbajul natural, atât din punct de vedere lingvistic – ca fundament al alegerii standardului de adnotare temporală, cât şi formal – al schemelor de adnotare – pentru perceperea diferenţelor şi îmbunătăţirilor dintre diferitele asemenea scheme.
Am inclus o expunere detaliată a principalelor scheme şi instrumente de adnotare a informaţiei temporale, incluzând tipul de abordare, limba pentru care a fost construit instrumentul, resursele folosite şi evaluarea acestuia – ca bază a cercetărilor viitoare.
Am creat corpusul Ro-TimeBank cu scopul de a reprezenta un corpus de referinţă în limba română pentru reprezentarea informaţiei temporale conform cu cele mai bune practici în domeniu.
Am îndeplinit al doilea obiectiv, punând la dispoziţia comunităţii de cercetare corpusul Ro-TimeBank în cadrul proiectului pan-european METANET4U (Enhancing the European Linguistic Infrastructure). Corpusul Ro-TimeBank, constituit actualmente şi ca livrabil în acest proiect, este unicul corpus de acest tip pus la dispoziţie de partenerii români, unicitatea constând în următoarele: corpusul este paralel, cu alinierile incluse; corpusul este adnotat pentru a surprinde informaţia temporală conform cu standardul ISO-TimeML atât pentru engleză, cât şi pentru română; pe lângă informaţia temporală, corpusul include şi marcaje ale numelor de entităţi şi ale numerelor.
Am adaptat standardul ISO-TimeML la limba română pe baza evidenţei lingvistice din corpsul Ro-TimeBank, a Gramaticii Academiei Române şi a standardului ISO-TimeML; principalele contribuţii în acest sens sunt includerea atributului mainevent, care indică dacă un eveniment (exprimat prin verb) este cel principal într-o frază, includerea de noi valori, specifice limbii române, pentru atributele care surprind timpul, aspectul şi modalitatea.
Concomitent cu adaptarea şi prezentarea standardului ISO-TimeML, am inclus un ghid de adnotare pentru limba română, ca parte a specificaţiilor din standardul de reprezentare a informaţiei temporale ISO-TimeML adaptat pentru română, realizând astfel obiectivul al treilea.
Am validat procedura de creare a corpusului Ro-TimeBank, prin compararea recunoaşterii relaţiilor temporale în română cu recunoaşterea acestora în limba engleză în cadrul competiţiei TempEval. Ca un rezultat secundar – corpusul românesc, prelucrat pentru a fi folosit la această validare poate fi folosit în campanii de evaluare viitoare.
Am contribuit la dezvoltarea unui prototip care automatizează procedura de lucru cu corpusurile paralele. Acest prototip poate contribui la dezvoltarea – mult mai uşoară, mai rapidă şi cu mai puţine erori – de corpusuri paralele cu diferite tipuri de adnotări.

Prezentare succintă

Exemplele din lucrare sunt în limbile română şi/sau engleză şi sunt selectate preponderent din corpusurile TimeBank, din corpusuri beletristice (mai ales romanul 1984 al lui George Orwell), din Gramatica Academiei Române, din standardul de reprezentare a informaţiei temporale ISO-TimeML sau, dacă nu, sunt special construite pentru a ilustra o anumită situaţie specifică. În încheierea lucrării sunt incluse consideraţiile finale: concluziile şi direcţiile de continuare a cercetărilor prezentate.

Informaţie temporală în texte

În acest capitol definim cadrul – prin prezentarea mai multor perspective sau puncte de vedere – şi introducem noţiunile (filosofice şi lingvistice) şi principalele aplicaţii şi rezultate (formale şi ontologice) relevante pentru adnotarea informaţiei temporale în texte.

Prezentăm, în paralel cu detaliile de conceptualizare, şi maniera în care limba ne permite să vorbim despre entităţile temporale. Descriem modalităţile de realizare lingvistică a evenimentelor şi stărilor, insistând asupra noţiunilor de timp, aspect şi mod gramatical. Aceste categorii vor fi adaptate în standardul ISO-TimeML la limba română. O atenţie deosebită este acordată stabilirii unui inventar al aparatului lingvistic disponibil pentru a vorbi despre timp şi entităţi temporale în limba română.

Realizăm o trecere în revistă a principalelor cercetări şi rezultate în domeniul adnotărilor temporale care folosesc marcaje proprii, neconforme cu scheme de adnotare deja consacrate – TIMEX2 sau TimeML. Pentru schema de adnotare TIMEX2 indicăm principiile şi regulile de adnotare, care vor fi apoi folosite ca bază în identificarea şi marcarea expresiilor temporale conform cu standardul ISO-TimeML.

Principalele corpusuri care conţin adnotări temporale sunt prezentate fie din perspectiva doar a unei scheme de adnotare (TIMEX2 sau TimeML), fie extinzând pe una dintre acestea, fie fără să fie conforme unei anumite scheme sau unui anumit standard de adnotare. Criteriile pe care le-am avut în vedere în selecţia corpusurilor studiate sunt: limba – limbile corpusului (engleză şi/sau alte limbi: italiană, spaniolă, franceză, germană, portugheză şi altele), domeniul corpusului (ştiri, beletristic, legislativ, medical etc.), întinderea corpusului, maniera de creare a corpusului, maniera de adnotare.

Scurta prezentare a instrumentelor de identificare, marcare şi normalizare a informaţiei temporale în texte are în vedere diferite criterii: schemele de adnotare folosită (TimeML, TIMEX2 sau independent), domeniul de aplicabilitate, limba pentru care au fost dezvoltate, sau maniera de abordare (reguli, învăţare automată sau hibridă), incluzând, eventual, şi resursele computaţionale folosite.

Definim conceptele cu care vom lucra: timpul este o noţiune abstractă faţă de care noi nu avem o experienţă imediată şi doar schimbările care se petrec în jurul nostru şi asupra noastră ne dau senzaţia de trecere a timpului. Prin urmare, vom defini un model al timpului care să ţină cont de tipurile de modificări care au loc. Evenimentele sunt, în general, fapte, activităţi care se întâmplă în lume, în timp ce stările pot fi văzute ca existenţa unui ansamblu de proprietăţi pe o perioadă dată. În ceea ce priveşte noţiunea de timp, există două concepţii principale legate de timp, descriind timpul ca fiind format din momente şi din intervale.

TimeML şi TimeBank pentru limba română

Pentru limba română cercetări anterioare au arătat că o adnotare manuală a temporalităţii într-un corpus în limba română este foarte costisitoare, atât ca timp, cât şi ca resurse umane implicate şi, mai mult, adnotările sunt deseori incomplete, mai ales în lipsa unui ghid de adnotare bine pus la punct. Încât, urmare şi a consideraţiilor din capitolul anterior, prezentăm standardul folosit pentru marcarea informaţiei temporale într-un corpus românesc special construit în acest sens. După ce facem o scurtă trecere în revistă a principalelor etape în dezvoltarea standardului, detaliem prezentarea standardului cu localizările specifice la limba română. În cadrul eforturilor de standardizare, au fost realizate ghiduri de adnotare şi adaptări incipiente ale standardului ISO-TimeML pentru italiană, coreană şi chineză. Ulterior, acesta a fost complet elaborat pentru italiană şi franceză.

Pentru adaptarea la limba română am urmărit, pe lângă standard şi Gramatica Academiei Române, şi aceste localizări, pentru a avea o cât mai mare uniformitate între marcarea elementelor temporale între aceste 3 limbi romanice. Pe baza şi a consideraţiilor din capitolul anterior, am propus – tabelul următor – noi valori pentru atributele tense (SIM_PAST şi PLUS_PAST, pe lângă PRESENT, PAST, FUTURE), aspect (PERFECTIVE, IMPERFECTIVE şi NONE), mood (CONDITIONAL, IMPERATIVE, SUBJONCTIVE şi NONE) şi vform (INFINITIVE, PARTICIPLE, GERUND şi NONE), în cazul evenimentelor exprimate prin verbe.

mod	Timp	verb	tense	mood	vform	aspect
indicativ	prezent	vin	PRESENT	NONE	NONE	NONE
indicativ	perfect compus	am venit	PAST	NONE	NONE	PERF
indicativ	perfect simplu	venii	SIM_PAST	NONE	NONE	PERF
indicativ	m.m.c. perfect	venisem	PLUS_PAST	NONE	NONE	PERF
indicativ	imperfect	veneam	PAST	NONE	NONE	IMPERF
indicativ	Viitor	voi veni	FUTURE	NONE	NONE	IMPERF
indicativ	viitor anterior	voi fi venit	FUTURE	NONE	NONE	PERF
conditional	prezent	aş veni	PRESENT	CONDITIONAL	NONE	NONE
conditional	perfect	aş fi venit	PAST	CONDITIONAL	NONE	NONE
imperativ		vino	PRESENT	IMPERATIVE	NONE	NONE
conjunctiv	prezent	să vin	PRESENT	SUBJONCTIVE	NONE	NONE
conjunctiv	perfect	să fi venit	PAST	SUBJONCTIVE	NONE	NONE
infinitiv		a veni	PRESENT	NONE	INFINITIVE	NONE
participiu		venit	PRESENT	NONE	PARTICIPLE	NONE
gerunziu		venind	PRESENT	NONE	GERUND	NONE
supin		de venit	PRESENT	NONE	NONE	NONE

Pentru atributul modality al marcajului EVENT am optat să restângem cele 8 clase de verbe indicate în Gramatica Academiei, realizând o grupare a acestora (în tabelul următor) care să permită şi o adnotare manuală cu cât mai puţine erori.

Clasa modală în limba română	Corespondenţă în limba engleză	Valoarea atributului modality
a imagina, a crede	imagine, believe	POSSIBILITY
a şti, a exista	know, exist	NECESSITY
a vrea, a putea	allow, permit, would	PERMISSION
a trebui, a face	must, ought to, have to, should	OBLIGATION

În prezentarea standardului ISO-TimeML am inclus exemple în limba română, uneori cu traducerile corespunzătoare în limba engleză. De asemenea, valorile indicate pentru unele atribute (de exemplu atributul value la tagul TIMEX3) sunt cele pe care le-ar completa un adnotator uman, pe baza întregii informaţii disponibile din document.

Partea a doua a capitolului este dedicată prezentării corpusului special creat pentru a capta informaţia temporală în texte româneşti: Ro-TimeBank a fost construit printr-o procedură de tip expand pornind de la corpusul de referinţă din acest domeniu, TimeBank 1.2. După o primă etapă de traducere a celor 183 fişiere de ştiri din limba engleză în limba română, folosind instrumentele ICIA, bitextul astfel obţinut a fost preprocesat (segmentare la nivel de cuvânt, adnotare morfo-sintactică şi lematizare) şi apoi aliniat la nivel de cuvânt. A urmat apoi un import al adnotărilor temporale din engleză în română, care a fost apoi evaluat şi validat; şi datorită modificărilor survenite de la schema TimeML 1.1 la standardul ISO-TimeML, am finalizat construirea Ro-TimeBank printr-o serie de transformări finale completate, de asemenea, de corecţii şi validări. Unele statistici generale între cele două corpusuri sunt date în tabelul următor. Elementele temporale absente în limba română se datorează lexicalizării diferite faţă de engleză. Procedura de creare a corpusului şi adaptare a standardului este validată printr-o metodă prezentată alt capitol al lucrării.

Marcaje TimeML	# RO	# EN	% final transfer
EVENTs	7926	7935	99.89
instances		7940
TIMEXes	1414	1414	100.00
SIGNALs	669	688	97.24
TLINKs	6311	6418	98.33
SLINKs	2908	2932	99.18
ALINKs	262	265	98.87
TOTAL	19490	19652	99.18

Platformă de prelucrare a corpusurilor paralele

Deoarece activitatea de construire a corpusului Ro-TimeBank, precum şi a altor resurse paralele similare, este una foarte laborioasă, consumatoare de timp şi resurse umane, dar şi supusă inerent greşelilor care se propagă dintr-o etapă în alta, prezentăm o platformă structurată în trei module după modelul MVC (Model-View-Controller): un modul de traduceri şi transfer al adnotărilor (utilizatorul încarcă în platformă un document într-o anumită limbă şi adnotat conform unei anumite scheme; textul este tradus în limba selectată de utilizator şi, pe baza alinierilor obţinute simultan cu traducerea, adnotările sunt importate pe textul în limba ţintă); modulul de editare paralelă permite lucrul simultan cu corpusul paralel astfel obţinut, cu aceleaşi adnotări, simplificând foarte mult activităţile de ştergere, adăugare sau modificare a adnotărilor în context paralel. Al treilea modul al platformei permite evaluarea adnotărilor asupra unui aceluiaşi fişier în context colaborativ.

Pentru realizarea platformei, includem o scurtă trecere în revistă a stadiului cerecetărilor în domeniu, prezentând unele dintre cele mai folosite instrumente cu funcţionalităţi corelate platformei noastre: instrumente de adnotare, de traducere şi aliniere, toate acestea şi pentru a justifica şi fundamenta alegerile făcute în construirea platformei noastre.

Fluxul de activităţi în platforma dezvoltată este, pe scurt, următorul:

1. Utilizatorul plasează textul pe platformă; textul este într-o limbă (recunoscută automat) care conţine adnotări ale anumitor fenomene lingvistice (am exemplificat cu adnotări temporale); adnotarea trebuie să aibă ataşată o schemă XSD (XML Schema Definition) pe baza căreia platforma face verificarea validităţii adnotărilor din text.

2. Textul simplu (cu adnotările îndepărtate) este tradus în limba ţintă, specificată de utilizator, folosind un serviciu web de traducere.

3. Cele două texte, din limba sursă şi cea ţintă, sunt aliniate automat la nivel de cuvânt.

4. Adnotările din limba sursă sunt transferate automat pe textul din limba ţintă.

5. Utilizatorul are apoi posibilitatea de a prelucra (adăuga, şterge, modifica) adnotările astfel obţinute folosind un sistem de editare paralelă integrat în platformă.

6. Un modul de statistici permite să se urmărească progresul unui proiect al unui utilizator sau compararea progresului propriu cu cel al altor utilizatori cu ale căror proiecte au un punct de plecare comun.

Platforma de prelucrare paralelă a corpusurilor are ca scop final facilitarea activităţilor specialiştilor, în speţă lingviştii, de creare, analiză, evalure sau corectare a adnotărilor în corpusuri paralele.

Recunoaşterea automată a relaţiilor temporale din texte în limba română

Capitolul prezintă o metodă de validare a modalităţii de creare a corpusului cu adnotări temporale: plecând de la corpusul şi rezultatele prezentate în competiţia TempEval 1, am folosit platforma WEKA de instrumente de învăţare automată pentru a realiza recunoaşterea relaţiilor temporale dintre entităţile temporale în limba română.

Abordările bazate pe învăţarea automată (Machine Learning) sunt din ce în ce mai frecvente în recunoaşterea informaţiei temporale în limbaj natural. La competiţiile de profil din domeniul informaţiei temporale, precum TERN şi TempEval, aceste abordări au fost foarte apropiate ca performanţe de sistemele bazate pe reguli. Deoarece avem la dispoziţie corpusul românesc Ro-TimeBank – echivalentul pentru limba română a corpusurilor TimeBank folosite la TempEval, am folosit o abordare bazată pe învăţare automată, folosind platforma WEKA, pentru a identifica relaţiile temporale în limbaj natural, urmând o abordare similară celor pentru limba engleză şi portugheză. Comparaţiile făcute între rezultatele obţinute pentru limba română şi rezultatele raportate pentru aceste două limbi sunt utile pentru a decide cât de adecvată este procedura de obţinere a corpusului românesc cu adnotări temporale descrisă în secțiunea corespunzătoare. Intuiţia este că obţinerea de rezultate comparabile va valida procedura urmată de noi. Mai mult, rezultatele arată că recunoaşterea relaţiilor temporale în limba română prin abordări de învăţare automată dau rezultate satisfăcătoare. Prin urmare, importul semantic al informaţiei temporale din limba engleză, precum şi validarea acestuia au produs un corpus pentru limba română care poate fi oricând folosit pentru activităţi similare celor din competiţiile TempEval pentru limba engleză.

Concluzii

Cercetările din spatele acestei lucrări, raportate prin 14 lucrări prezentate la conferinţe sau incluse în jurnale de specialitate, aduc o nouă lumină asupra prelucrării discursului în limba română, mai ales din perspectiva utilizării informaţiei temporale. Posibilităţile astfel deschise pot fi fructificate în multiple arii de cercetare din Inteligenţa Artificială şi, mai ales, în domeniul Prelucrării Limbajului Natural. Folosind experienţa, resursele şi instrumentele prezentate în această lucrare, câteva dintre direcţiile deschise pentru cercetări viitoare sunt:

Îmbogăţirea corpusului Ro-TimeBank cu documente din alte domenii lingvistice (legislativ, beletristic etc.), în care informaţia temporală să fie marcată conform cu standardul ISO-TimeML.
Folosirea adnotărilor temporale combinate cu cele de discurs pentru determinarea structurii temporale a discursului.
Evoluţia în timp a unor entităţi cu nume în diferite documente ale unei aceleiaşi colecţii; de exemplu, folosind toate documentele din Acquis-ul comunitar, se poate urmări cum se modifică (sau nu) în timp anumite entităţi.
Rezumarea automată multi-document şi cross-lingvistică folosind şi perspectiva temporală şi, eventual, plecând de la anumite teorii ale discursului (teoria centrelor, teoria nervurilor sau altele).
Folosirea ontologiilor temporale pentru a obţine inferenţe despre evenimente în timp.
Crearea de corpusuri paralele cu adnotări la alte niveluri de analiză a textelor.

Referințe

Forăscu, C., „Contribuţii la prelucrarea limbii române folosind metode de analiză a discursului”. Teză de doctorat, Academia Română, București, decembrie 2011.