Discuție:Ghid pentru structurare: Diferență între versiuni

De la Dexonline wiki
Jump to navigation Jump to search
Linia 20: Linia 20:
 
** '''[Matei]''' Unificarea presupune să nu avem lexeme separate pentru ''inginer s.m.'' și ''ingineră s.f.'' (DOOM2), ci un singur lexem '''inginer''' s.m. și f.
 
** '''[Matei]''' Unificarea presupune să nu avem lexeme separate pentru ''inginer s.m.'' și ''ingineră s.f.'' (DOOM2), ci un singur lexem '''inginer''' s.m. și f.
 
** '''[cata]''' S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în ''-iță'', cum ne trebuie la ''sudoriță''?
 
** '''[cata]''' S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în ''-iță'', cum ne trebuie la ''sudoriță''?
 +
*** '''[Matei]''' Nu avem, dar putem crea. Sau le lăsăm ca atare și adăugăm la structurare câte o mențiune: la ''sudor'' adăugăm ''fem. sudoriță'' și reciproc.
  
 
* Forme de bază multiple
 
* Forme de bază multiple
Linia 29: Linia 30:
 
* Diminutive, antonime, variante, etimologii, pronunții, modelele de flexiune valabile doar pentru anumite sensuri.
 
* Diminutive, antonime, variante, etimologii, pronunții, modelele de flexiune valabile doar pentru anumite sensuri.
 
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
 
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
 +
*** '''[Matei]''' ''Doctor'' - doar sensul DEX-1 are var. ''doftor'' și dim. ''doctoraș''. Cred că s-a rezolvat.
 
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
 
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
 
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens.
 
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens.
Linia 42: Linia 44:
 
* Nu e totuși nevoie de o asociere ''many-to-many'' între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
 
* Nu e totuși nevoie de o asociere ''many-to-many'' între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
  
* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''
+
* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''.
 
** '''[cata]''' Radu se opune unificării arborilor, pentru că se pierd informații istorice.
 
** '''[cata]''' Radu se opune unificării arborilor, pentru că se pierd informații istorice.
 
** '''[cata]''' Aș vrea să văd un exemplu concret pentru ''ciot / cioată / ciotur''.
 
** '''[cata]''' Aș vrea să văd un exemplu concret pentru ''ciot / cioată / ciotur''.
Linia 61: Linia 63:
 
*** „cuirasată” [MDN];
 
*** „cuirasată” [MDN];
 
*** „destinată luptei împotriva obiectivelor de pe mal” [MDN].
 
*** „destinată luptei împotriva obiectivelor de pe mal” [MDN].
 +
**** '''[Matei]''' Mi se pare ok.
  
 
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
 
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
Linia 66: Linia 69:
 
*** '''[Matei]''' Păi astea se încadrează la invariabile, nu văd necesitatea bifei.
 
*** '''[Matei]''' Păi astea se încadrează la invariabile, nu văd necesitatea bifei.
 
**** '''[cata]''' Da, dădeam doar un exemplu că nu tot ce conține bifă trebuie automat tratat ca lexem compus (pot fi și nume proprii etc.).
 
**** '''[cata]''' Da, dădeam doar un exemplu că nu tot ce conține bifă trebuie automat tratat ca lexem compus (pot fi și nume proprii etc.).
 +
**** '''[Matei]''' Păi nu tratăm automat. Etichetarea se face manual. Pentru nume proprii avem (creăm) modele. Totul e să putem pune 2 etichete (ex. M1+I, F1+AF1 etc.). Ar mai trebui implementate și 2 restricții: A - numai forme articulate; N - numai forme nearticulate.
  
 
== Rezolvate ==
 
== Rezolvate ==
Linia 115: Linia 119:
 
* 2.2 [verb reflexiv] ...
 
* 2.2 [verb reflexiv] ...
 
* 2.3 ...
 
* 2.3 ...
 +
** '''[Matei]''' Și dacă sensul 2.2 este '''și''' tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (sau creăm una generală [verb]).
  
 
Asta ar rezolva (toate!) problemele de mai jos:
 
Asta ar rezolva (toate!) problemele de mai jos:
Linia 132: Linia 137:
 
* Punem absolut toate sursele la „surse care atestă flexiunea”?
 
* Punem absolut toate sursele la „surse care atestă flexiunea”?
 
** '''[cata]''' Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord. '''[Matei]''' Da, sursele „normative” (DOOM, DEX, Ortografic) n-ar trebui menționate.
 
** '''[cata]''' Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord. '''[Matei]''' Da, sursele „normative” (DOOM, DEX, Ortografic) n-ar trebui menționate.
 +
<!--
 
* Lexemele omonime, sensurile (și subsensurile) ar trebui numerotate, altfel trimiterile dintr-o definiție nu mai au sens. V. aalenian. De stabilit modul de numerotare pentru diferitele paliere.
 
* Lexemele omonime, sensurile (și subsensurile) ar trebui numerotate, altfel trimiterile dintr-o definiție nu mai au sens. V. aalenian. De stabilit modul de numerotare pentru diferitele paliere.
 
** Asta creează probleme când trimiterea e la un alt lexem.
 
** Asta creează probleme când trimiterea e la un alt lexem.
 
** '''[cata]''' Despre ce paliere este vorba? Avem suport pentru numerotare, cred că această bulină este rezolvată. '''[Matei]''' Cred că da, putem șterge bulina.
 
** '''[cata]''' Despre ce paliere este vorba? Avem suport pentru numerotare, cred că această bulină este rezolvată. '''[Matei]''' Cred că da, putem șterge bulina.
 +
-->

Versiunea de la data 1 octombrie 2016 18:24

Principiu general: atomicitate

[cata] Am vorbit cu Radu și m-a convins să adoptăm un model atomic. Oriunde o etichetă sau proprietate se aplică doar unei părți a arborelui de sensuri, spargem arborele în două. La căutări, încărcăm toți arborii relevanți și îi afișăm.

De aici rezultă schema: un lexem este asociat cu exact un arbore de sensuri, dar mai multe lexeme pot fi asociate cu același arbore.

Propuneri de rezolvări

  • Corespondența între părți de vorbire și modele de flexiune
    • [cata] Pe principiul atomic, separăm lexemele muncitor s.m.f și muncitor adj., gravidă adj.f. și gravidă s.f. etc. Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate, dar pare răul cel mai mic.
    • [cata] Lista de tipuri și modele de flexiune trebuie completată cu toate părțile de vorbire.
    • [cata] Etichetele cu părți de vorbire rămân în continuare disponibile, pot fi utile.
    • (Modificare semnificativă față de propunerea anterioară: [cata] Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF și A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F. [Matei] De acord.)
  • Numerotarea sensurilor, exemplelor și etimologiilor
    • [cata] Scheme diferite de numerotare, folosind prefixele 'E' pentru etimologii și 'X' pentru exemple. De exemplu, dacă un sens are două subsensuri și trei exemple, acestea vor fi numerotate 1.1, 1.2, 1.X1, 1.X2, 1.X3. Dacă o etimologie E1 are la rândul ei o sub-etimologie pentru completări (nu exclud posibilitatea), aceasta s-ar numi E1.E1.
    • [cata] La afișare arătăm doar numerotările pentru sensuri, ca să nu speriem utilizatorii.
  • Unificarea lexemelor MF. [cata, Matei] sunt de acord cu asta
    • [Matei] Unificarea presupune să nu avem lexeme separate pentru inginer s.m. și ingineră s.f. (DOOM2), ci un singur lexem inginer s.m. și f.
    • [cata] S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în -iță, cum ne trebuie la sudoriță?
      • [Matei] Nu avem, dar putem crea. Sau le lăsăm ca atare și adăugăm la structurare câte o mențiune: la sudor adăugăm fem. sudoriță și reciproc.
  • Forme de bază multiple
    • [cata] Se rezolvă prin faptul că mai multe lexeme pot fi asociate cu același arbore de sensuri. Asta include și variantele de accent (agríș / ágriș).
  • Variante cu registru de folosire. Ex. ciot are variantele (popular) cioată, (rar) ciotur.
    • [cata] Etichetele să se poată aplica și pe lexem, nu doar pe sensuri.
  • Diminutive, antonime, variante, etimologii, pronunții, modelele de flexiune valabile doar pentru anumite sensuri.
    • [cata] Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
      • [Matei] Doctor - doar sensul DEX-1 are var. doftor și dim. doctoraș. Cred că s-a rezolvat.
    • [cata] Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
    • [cata] Diminutivele, antonimele și etimologiile deja există la nivel de sens.
    • [cata] La pronunție am găsit doar exemplul eu, pronunțat ieu ca pronume, dar eu ca substantiv (concept filozofic). Dacă sunt cazuri rarisime, un comentariu este suficient.
  • Ce facem cu DER, DE, și într-o mai mică măsură Scriban și Șăineanu.
    • [cata] Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța. [Matei] Cred că da.

Vezi și lista de probleme de pe GitHub.

Nerezolvate

  • Nu e totuși nevoie de o asociere many-to-many între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
  • Diferite dicționare consideră diferite variante ca fiind forma principală (ținterim, țintirim sau ciot, cioată). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, cimitir, respectiv parte rămasă.
    • [cata] Radu se opune unificării arborilor, pentru că se pierd informații istorice.
    • [cata] Aș vrea să văd un exemplu concret pentru ciot / cioată / ciotur.
  • Reconcilierea micilor variațiuni între definiții.
    • [Matei] Eu aş merge pe varianta cu definiţie succintă (explicaţiile mai ample se pot consulta în sursele menționate). Redactarea unei definiții cuprinzătoare e anevoioasă (şi subiectivă).
    • [Matei] Mă refer la definiții care au mici diferențe de la o sursă la alta. Ex.: monitor (navă) este definit ca:
      • „Navă fluvială de război, blindată, de tonaj mic, cu tunuri protejate cu turele - DEX”;
      • „Navă militară, maritimă sau fluvială, de tonaj mic, echipată cu armament de artilerie - NODEX”;
      • „Navă de război cuirasată, prevăzută cu artilerie grea - DN”;
      • „navă fluvială de tonaj mic, cuirasată, cu artilerie grea, destinată luptei împotriva obiectivelor de pe mal - MDN” etc.
        • toate sursele descriind în principiu o navă de război. Unele adaugă elemente de armament, altele de blindaj etc. Dacă compilăm toate sursele, iese o chestie destul de stufoasă...
    • [cata] Acum înțeleg. Pe de altă parte, dacă nu facem noi efortul acesta, va trebui să-l facă utilizatorul. Ca și în prezent, va trebui să citească 10 definiții pentru a găsi micile diferențe între ele. Sunt de acord cu abordarea ta, de definiție succintă (factor comun sau aproape comun), dacă putem cumva să creăm subsensuri care să arate completările aduse de unele surse. Cam așa:
      • Navă fluvială de război, de tonaj mic, echipată cu artilerie grea.
      • „blindată” [DEX];
      • „cu tunuri protejate cu turele” [DEX];
      • „maritimă sau fluvială” [NODEX];
      • „cuirasată” [MDN];
      • „destinată luptei împotriva obiectivelor de pe mal” [MDN].
        • [Matei] Mi se pare ok.
  • [Matei] Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
    • [cata] Da, ar fi frumos să facem și asta. Mă gândesc cum s-ar face. Cred că ar necesita o bifă explicită „lexem compus”, căci sunt și alte cuvinte cu cratimă care nu necesită asta (într-adins sau altele).
      • [Matei] Păi astea se încadrează la invariabile, nu văd necesitatea bifei.
        • [cata] Da, dădeam doar un exemplu că nu tot ce conține bifă trebuie automat tratat ca lexem compus (pot fi și nume proprii etc.).
        • [Matei] Păi nu tratăm automat. Etichetarea se face manual. Pentru nume proprii avem (creăm) modele. Totul e să putem pune 2 etichete (ex. M1+I, F1+AF1 etc.). Ar mai trebui implementate și 2 restricții: A - numai forme articulate; N - numai forme nearticulate.

Rezolvate

Etichete

Discuție despre etichete ierarhice.

  • Când punem etichete și când lăsăm paranteza respectivă?
    • Cred că ar trebui încet-încet să creăm etichete pentru toate parantezele.

[cata] Cred că avem nevoie de o ierarhie de etichete, nu doar de o listă. Am vorbit și cu Radu, care e de aceeași părere. De exemplu:

Exemplu de ierarhie -- clic pentru a o expanda.

  • parte de vorbire
    • substantiv
      • s.f.
      • s.m.
      • s.n.
      • s.m. și f.
    • adjectiv
    • pronume
      • pronume demonstrativ
      • pronume nehotărât
    • verb
      • verb tranzitiv
      • verb reflexiv
      • verb intranzitiv
  • grupă verb
    • grupa I
    • grupa a II-a
    • grupa a III-a
    • grupa a IV-a
  • regionalism
    • Moldova
    • Banat
    • Bucovina

O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.

  • 2 [verb tranzitiv] ...
  • 2.1 ...
  • 2.2 [verb reflexiv] ...
  • 2.3 ...
    • [Matei] Și dacă sensul 2.2 este și tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (sau creăm una generală [verb]).

Asta ar rezolva (toate!) problemele de mai jos:

  • Crearea unui câmp separat pentru partea de vorbire. Există cazuri de adj. fem. (ex. vectoare), care în prezent sunt încadrate eronat (s.f.).
  • [cata] Pentru asta ar fi bine să creăm mai multe părți de vorbire, în special pentru adverbe, prepoziții etc. Dacă nicăieri în definiție nu va mai apărea „adverb”, este important ca flexiunea să menționeze asta. [Matei] Mda.
    • [cata] Aceasta nu mai trebuie rezolvată. Tipul I este invariabil, iar din etichetele pe sens vom diferenția prepoziții, conjuncții etc. De fapt, toate modelele I1-I8 pot fi reunite la loc în I1 (după ce etichetăm corespunzător sensurile, desigur).
  • Unde punem mențiunea tranzitiv / intranzitiv / reflexiv pentru verbe?
  • Unde punem grupa verbului (I-IV)? Și cred că asta se poate generaliza la pronume nehotărâte, demonstrative etc.
  • [Matei] Eticheta s.m. și f. e necesară? Nu putem pune 2 etichete (s.m. și s.f.) în astfel de cazuri?
    • [cata] sigur, de ce nu.

Altele

  • Punem absolut toate sursele la „surse care atestă flexiunea”?
    • [cata] Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord. [Matei] Da, sursele „normative” (DOOM, DEX, Ortografic) n-ar trebui menționate.