Discuție:Ghid pentru structurare: Diferență între versiuni

De la Dexonline wiki
Jump to navigation Jump to search
Linia 100: Linia 100:
 
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens. Mă gândesc la variante, pronunții și modele de flexiune.
 
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens. Mă gândesc la variante, pronunții și modele de flexiune.
 
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
 
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
 +
** Da, ar fi frumos să facem și asta. Mă gândesc cum s-ar face. Cred că ar necesita o bifă explicită „lexem compus”, căci sunt și alte cuvinte cu cratimă care nu necesită asta (''într-adins'' sau altele).
  
 
Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].
 
Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].

Versiunea de la data 15 februarie 2016 13:03

[cata] Încerc să împart pe capitole chestiile astea.

Etichete

  • Când punem etichete și când lăsăm paranteza respectivă?
    • Cred că ar trebui încet-încet să creăm etichete pentru toate parantezele.

[cata] Cred că avem nevoie de o ierarhie de etichete, nu doar de o listă. Am vorbit și cu Radu, care e de aceeași părere. De exemplu:

Exemplu de ierarhie -- clic pentru a o expanda.

  • parte de vorbire
    • substantiv
      • s.f.
      • s.m.
      • s.n.
      • s.m. și f.
    • adjectiv
    • pronume
      • pronume demonstrativ
      • pronume nehotărât
    • verb
      • verb tranzitiv
      • verb reflexiv
      • verb intranzitiv
  • grupă verb
    • grupa I
    • grupa a II-a
    • grupa a III-a
    • grupa a IV-a
  • regionalism
    • Moldova
    • Banat
    • Bucovina

O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.

  • 2 [verb tranzitiv] ...
  • 2.1 ...
  • 2.2 [verb reflexiv] ...
  • 2.3 ...

Asta ar rezolva (toate!) problemele de mai jos:

  • Crearea unui câmp separat pentru partea de vorbire. Există cazuri de adj. fem. (ex. vectoare), care în prezent sunt încadrate eronat (s.f.).
  • [cata] Pentru asta ar fi bine să creăm mai multe părți de vorbire, în special pentru adverbe, prepoziții etc. Dacă nicăieri în definiție nu va mai apărea „adverb”, este important ca flexiunea să menționeze asta. [Matei] Mda.
    • [cata] Aceasta nu mai trebuie rezolvată. Tipul I este invariabil, iar din etichetele pe sens vom diferenția prepoziții, conjuncții etc. De fapt, toate modelele I1-I8 pot fi reunite la loc în I1 (după ce etichetăm corespunzător sensurile, desigur).
  • Unde punem mențiunea tranzitiv / intranzitiv / reflexiv pentru verbe?
  • Unde punem grupa verbului (I-IV)? Și cred că asta se poate generaliza la pronume nehotărâte, demonstrative etc.

Separarea între partea de vorbire și modelul de flexiune

[cata] Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF și A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F. [Matei] De acord.

Ca și restul etichetelor, partea de vorbire se aplică la toți descendenții în arbore (care nu poartă o altă etichetă din aceeași categorie).

Standardul de formatare a sensurilor

  • Ce standard adoptăm pentru ordonarea subsensurilor și a exemplelor? De exemplu, un lexem are un sens cu două subsensuri și trei exemple.
    • [cata] Propun ca subsensurile să fie primele (deci 1.1 și 1.2), iar exemplele 1.3, 1.4, 1.5. Are dezavantajul că exemplele se îndepărtează de sensul pe care îl definesc, mai ales dacă cele două subsensuri au și ele exemple sau altceva care să le lungească. Are însă avantajul că toate sensurile și subsensurile vor fi numerotate începând cu 1. Deci nu va apărea o situație în care sensul 1 are subsensurile 1.4 și 1.5 (dacă afișăm structura fără exemple).
  • Punem absolut toate sursele la „surse care atestă flexiunea”?
    • [cata] Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord.
  • Ce facem dacă variantele unui cuvânt au registru de folosire? Ex. ciot are variantele (popular) cioată, (rar) ciotur.
    • [cata] Deocamdată le listez în sensul unic al variantelor, cel care indică sursa.
  • Ce facem dacă un cuvânt este variantă a altuia, dar unele surse mai vechi îi dau și sensuri? Ex. ținterim este variantă a lui țintirim, dar Șăineanu îi dă și sensuri.
    • [cata] Propun să mutăm sensurile la forma de bază (modernă).

Neclasificate

  • Pe primul nivel se pune o definiție cât mai cuprinzătoare, având în vedere atât DEX cât și celelalte surse. Pe nivelul următor se adaugă sensuri restrânse, expresii, exemple etc. etichetate ca atare.
    • [Matei] Eu aş merge pe varianta cu definiţie succintă (explicaţiile mai ample se pot consulta în sursele menționate). Redactarea unei definiții cuprinzătoare e anevoioasă (şi subiectivă).
    • [cata] Cred că m-am exprimat prost: definiția se sparge natural în sensuri relativ mici (la romburi, la numerotări etc.). Nu stă toată cârnat în sensul 1. Dar aș vrea să apară toată în arborele de sensuri.
    • [Matei] Mă refer la definiții care au mici diferențe de la o sursă la alta. Ex.: monitor (navă) este definit ca:
      • „Navă fluvială de război, blindată, de tonaj mic, cu tunuri protejate cu turele - DEX”;
      • „Navă militară, maritimă sau fluvială, de tonaj mic, echipată cu armament de artilerie - NODEX”;
      • „Navă de război cuirasată, prevăzută cu artilerie grea - DN”;
      • „navă fluvială de tonaj mic, cuirasată, cu artilerie grea, destinată luptei împotriva obiectivelor de pe mal - MDN” etc.
        • toate sursele descriind în principiu o navă de război. Unele adaugă elemente de armament, altele de blindaj etc. Dacă compilăm toate sursele, iese o chestie destul de stufoasă...
  • Lexemele omonime, sensurile (și subsensurile) ar trebui numerotate, altfel trimiterile dintr-o definiție nu mai au sens. V. aalenian. De stabilit modul de numerotare pentru diferitele paliere.
    • Asta creează probleme când trimiterea e la un alt lexem.
    • [cata] Despre ce paliere este vorba? Avem suport pentru numerotare, cred că această bulină este rezolvată. [Matei] Cred că da, putem șterge bulina.
  • Unificarea lexemelor MF. [cata, Matei] sunt de acord cu asta
    • [cata] Nu mai știu cu ce sunt de acord. :-) Ce presupune unificarea?
    • [Matei] Unificarea presupune să nu avem lexeme separate pentru inginer s.m. și ingineră s.f. (DOOM2), ci un singur lexem inginer s.m. și f.
  • [Matei] Poate ar fi bine ca un lexem să poată avea multiple forme de bază (cu modele de flexiune diferite), ca să evităm crearea de lexeme multiple (eu nu văd rostul unui lexem separat vieţuitoare s.f. pe lângă vieţuitor adj. - având practic acelaşi sens).
    • [cata] Mă gândesc. Da, trebuie generalizată un pic structura. Tot aici aș include și variantele de accentuare (agríș / ágriș).
    • [cata] Apropo de variante de accent, recomandarea curentă nu este fantastică. Ghidul spune să unificăm lexemele și să păstrăm varianta secundară doar în rubrica „pronunții”. Dar astfel se pierd formele flexionare pentru varianta secundară de accent.
    • [Matei] Minunat ar fi să se genereze flexiunea și pentru varianta secundară! Ar fi posibil așa ceva?
      • [cata] Da, sigur. Ar fi aceeași situație ca și acum, când un lexem poate avea mai multe modele. Am renunța doar la restricția ca modelele să pornească de la aceeași formă de bază.
  • Trebuie să stabilim ce facem cu DER, DE, și într-o mai mică măsură Scriban și Șăineanu.
    • [cata] Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța. [Matei] Cred că da.

Funcții noi de implementat:

  • (posibil) Link în pagina de editare pentru selectarea altui lexem, fără a mai trece prin pagina moderatorului.
  • Atenţie! Diminutivele, antonimele, ca de altfel şi variantele, etimologiile, pronunţiile sau modelele de flexiune pot fi valabile doar pentru anumite sensuri. Cum rezolvăm?
    • [cata] Diminutivele, antonimele și etimologiile deja există la nivel de sens. Mă gândesc la variante, pronunții și modele de flexiune.
  • [Matei] Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
    • Da, ar fi frumos să facem și asta. Mă gândesc cum s-ar face. Cred că ar necesita o bifă explicită „lexem compus”, căci sunt și alte cuvinte cu cratimă care nu necesită asta (într-adins sau altele).

Vezi și lista de probleme de pe GitHub.