Discuție:Ghid pentru structurare: Diferență între versiuni

De la Dexonline wiki
Jump to navigation Jump to search
Linia 4: Linia 4:
  
 
De aici rezultă schema: un lexem este asociat cu exact un arbore de sensuri, dar mai multe lexeme pot fi asociate cu același arbore.
 
De aici rezultă schema: un lexem este asociat cu exact un arbore de sensuri, dar mai multe lexeme pot fi asociate cu același arbore.
 +
* [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Păi nu prea e așa. Un lexem (sau mai multe) se asociază cu o intrare, care are unul sau mai mulți arbori. Deci nu avem asociere lexem(e) - arbore.
  
'''[Matei]''' Păi nu prea e așa. Un lexem (sau mai multe) se asociază cu o intrare, care are unul sau mai mulți arbori. Deci nu avem asociere lexem(e) - arbore.
+
=== Unificarea lexemelor MF ===
 
+
* '''[cata]''', [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) sunt de acord cu unificarea.
=== Propuneri de rezolvări ===
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Unificarea presupune să nu avem lexeme separate pentru ''inginer s.m.'' și ''ingineră s.f.'' (DOOM2), ci un singur lexem '''inginer''' s.m. și f.
 
 
* Numerotarea sensurilor, exemplelor și etimologiilor
 
** '''[cata]''' Scheme diferite de numerotare, folosind prefixele 'E' pentru etimologii și 'X' pentru exemple. De exemplu, dacă un sens are două subsensuri și trei exemple, acestea vor fi numerotate 1.1, 1.2, 1.X1, 1.X2, 1.X3. Dacă o etimologie E1 are la rândul ei o sub-etimologie pentru completări (nu exclud posibilitatea), aceasta s-ar numi E1.E1.
 
** '''[cata]''' La afișare arătăm doar numerotările pentru sensuri, ca să nu speriem utilizatorii.
 
** Putem include aici și comentariile (adăugate de un moderator) și completările (cum este „... navă fluvială sau maritimă...” la intrarea ''monitor''). Deci o linie din arborele de sensuri va avea un tip care poate fi ''sens, exemplu, etimologie, comentariu, completare''.
 
 
 
* Unificarea lexemelor MF. '''[cata, Matei]''' sunt de acord cu asta
 
** '''[Matei]''' Unificarea presupune să nu avem lexeme separate pentru ''inginer s.m.'' și ''ingineră s.f.'' (DOOM2), ci un singur lexem '''inginer''' s.m. și f.
 
 
** '''[cata]''' S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în ''-iță'', cum ne trebuie la ''sudoriță''?
 
** '''[cata]''' S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în ''-iță'', cum ne trebuie la ''sudoriță''?
*** '''[Matei]''' Nu avem, dar putem crea. Sau le lăsăm ca atare și adăugăm la structurare lexemele respective (la intrarea ''sudor'' vom avea și lexemul ''sudor'' și lexemul ''sudoriță''; oricare formă căutată va trimite la această intrare).
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Nu avem. Le lăsăm ca atare și adăugăm la structurare lexemele respective (la intrarea ''sudor'' vom avea și lexemul ''sudor'' și lexemul ''sudoriță''; oricare formă căutată va trimite la această intrare).
  
* Diminutive, antonime, variante, etimologii, pronunții, modelele de flexiune valabile doar pentru anumite sensuri.
+
=== Variante, pronunții, modelele de flexiune valabile doar pentru anumite sensuri ===
 +
* Cum procedăm?
 
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
 
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
*** '''[Matei]''' ''Doctor'' - doar sensul DEX-1 are var. ''doftor'' și dim. ''doctoraș''.
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) ''Doctor'' - doar sensul DEX-1 are var. ''doftor''.
 
*** '''[cata]''' La pronunție am găsit doar exemplul ''eu'', pronunțat ''ieu'' ca pronume, dar ''eu'' ca substantiv (concept filozofic).
 
*** '''[cata]''' La pronunție am găsit doar exemplul ''eu'', pronunțat ''ieu'' ca pronume, dar ''eu'' ca substantiv (concept filozofic).
 
*** '''[cata]''' Exemple care admit vocativul doar pe unul dintre sensuri: ''frumos'', ''obtuz'', ''cățel'' (de usturoi), ''papagal / mops'' (ca unelte).
 
*** '''[cata]''' Exemple care admit vocativul doar pe unul dintre sensuri: ''frumos'', ''obtuz'', ''cățel'' (de usturoi), ''papagal / mops'' (ca unelte).
 +
**** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Ar mai fi ''bucureștean'' (s.m. vs adj.), ''brașoveancă'' (persoană vs ladă, căruță...) etc.
 
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
 
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens.
 
 
** '''[cata]''' Concret, propunerea mea de rezolvare este să folosim simple comentarii pentru pronunții, variante și flexiuni, cel puțin până încep să se adune situațiile.
 
** '''[cata]''' Concret, propunerea mea de rezolvare este să folosim simple comentarii pentru pronunții, variante și flexiuni, cel puțin până încep să se adune situațiile.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Pentru valabilitatea vocativului doar pe un sens nu e suficientă aplicarea etichetei?
  
* Ce facem cu DER, DE, și într-o mai mică măsură Scriban și Șăineanu.
+
=== Surse structurate ===
** '''[cata]''' Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța. '''[Matei]''' Cred că da.
+
* Ce facem cu DER, DE, DAR, DRAM ... și într-o mai mică măsură Scriban și Șăineanu?
 +
** '''[cata]''' Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Cred că da. Rămân nestructurate și sursele de sinonime / antonime, pentru că nu specifică cărui sens îi corespund respectivele sinonime / antonime.
  
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
+
* Ce surse menționăm pe fiecare sens / etimologie ?
** '''[cata]''' Da, ar fi frumos să facem și asta. Mă gândesc cum s-ar face. Cred că ar necesita o bifă explicită „lexem compus”, căci sunt și alte cuvinte cu cratimă care nu necesită asta (''într-adins'' sau altele).
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Propun împărțirea surselor în „familii” urmând să menționăm de fiecare dată doar „capul familiei”. Familiile ar fi:
*** '''[Matei]''' Păi astea se încadrează la invariabile, nu văd necesitatea bifei.
+
**:- DEX'09, care include toate edițiile precedente + DEX-S (dar fără DEXI, care pare să aibă diferențe semnificative);
**** '''[cata]''' Da, dădeam doar un exemplu că nu tot ce conține bifă trebuie automat tratat ca lexem compus (pot fi și nume proprii etc.).
+
**:- DLRLC cu DLRM, DLRC (aș zice că DLRLC primează);
**** '''[Matei]''' Păi nu tratăm automat. Etichetarea se face manual. Pentru nume proprii avem (creăm) modele. Totul e să putem pune 2 etichete (ex. M1+I, F1+AF1 etc.). Ar mai trebui implementate și 2 restricții: A - numai forme articulate; N - numai forme nearticulate.
+
**:- DN cu MDN'00+'08 și NODEX (cam oricare ar putea fi „capul familiei” - propun DN);
 +
**:- separat: MDA2 (cu MDA), DCR2, DEXI.
 +
** O altă abordare ar fi menționarea tuturor surselor (cu păstrarea capului de familie doar la afișare, ca să diminuăm zgomotul). Îngreunează munca de structurare.
  
* Lexemele omonime, sensurile (și subsensurile) ar trebui numerotate, altfel trimiterile dintr-o definiție nu mai au sens. V. aalenian. De stabilit modul de numerotare pentru diferitele paliere.
+
* Ce surse menționăm la „surse care atestă flexiunea”?
** Asta creează probleme când trimiterea e la un alt lexem.
+
** '''[cata]''' Cred ar fi prea mult zgomot să le punem pe toate. Mai bine doar acolo unde nu toate dicționarele sunt de acord.
** '''[cata]''' Despre ce paliere este vorba? Avem suport pentru numerotare, cred această bulină este rezolvată.
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Da, sursele „normative” (DOOM, DEX, Ortografic, DOR) n-ar trebui menționate.
*** '''[Matei]''' Nu chiar. Sistemul funcționează doar dacă lexemul la care se face trimitere a fost structurat. Altfel după paranteza pătrată nu apare nimic...
 
**** '''[cata]''' Rezolvare: trimiteri se fac către o intrare, cu evidență, putem reveni după ce intrarea aceea a fost structurată și modifica trimiterile să ducă spre un sens anume.
 
** Și etimologiile au (uneori) trimiteri (ex. Din auto^2). Sistemul cu paranteze nu funcționează în cazul lor. '''Rezolvare?'''
 
  
Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].
+
* În toate cazurile, sursele structurate (definiție / etimologie / flexiune) se marchează ca atare, chiar dacă nu sunt menționate pe sens / lexem.
 
 
=== Nerezolvate ===
 
  
 +
=== Variantă vs Formă principală ===
 
* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''.
 
* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''.
 
** '''[cata]''' Radu se opune unificării arborilor, pentru că se pierd informații istorice.
 
** '''[cata]''' Radu se opune unificării arborilor, pentru că se pierd informații istorice.
***'''[Matei]''' Eu nu înțeleg cum vedeți această chestiune, pentru că „varianta” este marcată prin eliminarea bifei „formă principală” de pe lexem. Deci ce facem? Dublăm lexemele ca să avem unul „variantă” menționat de o sursă veche (ex. zbenghi - DEX'98), plus unul „principal” menționat de o sursă mai nouă (DEX'09), la care se adaugă alte două lexeme (benghi) cu proprietatea inversă? Mi se pare absurd. Și ce legătură are cu arborii?
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Eu nu înțeleg cum vedeți această chestiune, pentru că „varianta” este marcată prin eliminarea bifei „formă principală” de pe lexem. Deci ce facem? Dublăm lexemele ca să avem unul „variantă” menționat de o sursă veche (ex. zbenghi - DEX'98), plus unul „principal” menționat de o sursă mai nouă (DEX'09), la care se adaugă alte două lexeme (benghi) cu proprietatea inversă? Mi se pare absurd. Și ce legătură are cu arborii?
 
** '''[cata]''' Aș vrea să văd un exemplu concret pentru ''ciot / cioată / ciotur''.
 
** '''[cata]''' Aș vrea să văd un exemplu concret pentru ''ciot / cioată / ciotur''.
  
* Reconcilierea micilor variațiuni între definiții.
+
=== Mici variațiuni între definiții ===
** '''[Matei]''' Eu aş merge pe varianta cu definiţie succintă (explicaţiile mai ample se pot consulta în sursele menționate). Redactarea unei definiții cuprinzătoare e anevoioasă (şi subiectivă).
+
* Pare că am ajuns la consens privind marcarea diferențelor, cu aplicarea etichetei [diferențiere]. Rămâne de stabilit modalitatea de afișare.
** '''[Matei]''' Mă refer la definiții care au mici diferențe de la o sursă la alta. Ex.: ''monitor (navă)'' este definit ca:
 
*** „Navă fluvială de război, '''blindată''', de tonaj mic, '''cu tunuri protejate cu turele''' - DEX”;
 
*** „Navă '''militară, maritimă''' sau fluvială, de tonaj mic, echipată '''cu armament''' de artilerie - NODEX”;
 
*** „Navă de război cuirasată, prevăzută cu artilerie grea - DN”;
 
*** „navă fluvială de tonaj mic, cuirasată, cu artilerie grea, '''destinată luptei împotriva obiectivelor de pe mal''' - MDN” etc.
 
**** toate sursele descriind în principiu o '''navă de război'''. Unele adaugă elemente de armament, altele de blindaj etc. Dacă compilăm toate sursele, iese o chestie destul de stufoasă...
 
** '''[cata]''' Acum înțeleg. Pe de altă parte, dacă nu facem noi efortul acesta, va trebui să-l facă utilizatorul. Ca și în prezent, va trebui să citească 10 definiții pentru a găsi micile diferențe între ele. Sunt de acord cu abordarea ta, de definiție succintă (factor comun sau aproape comun), dacă putem cumva să creăm subsensuri care să arate completările aduse de unele surse. Cam așa:
 
*** Navă fluvială de război, de tonaj mic, echipată cu artilerie grea.
 
*** „blindată” [DEX];
 
*** „cu tunuri protejate cu turele” [DEX];
 
*** „maritimă sau fluvială” [NODEX];
 
*** „cuirasată” [MDN];
 
*** „destinată luptei împotriva obiectivelor de pe mal” [MDN].
 
**** '''[Matei]''' Mi se pare ok, de rezolvat prezentarea completărilor.
 
  
* Unde tragem linia la gruparea lexemelor în aceeași intrare.
+
=== Unificarea intrărilor cu același sens ===
 +
* Unde tragem linia la gruparea lexemelor și arborilor în aceeași intrare?
 
** '''[cata]''' Matei a întâlnit vreo trei tipuri de situații:
 
** '''[cata]''' Matei a întâlnit vreo trei tipuri de situații:
 
*** Variante listate ca atare: {{d|ambreiare}} - {{d|ambreiere}}
 
*** Variante listate ca atare: {{d|ambreiare}} - {{d|ambreiere}}
Linia 76: Linia 58:
 
*** Cuvinte diferite ca formă, dar unde unul trimite la altul (diverse dicțioare îl pot adopta pe unul sau pe altul ca referință): {{d|celțiu}} - {{d|hafniu}}
 
*** Cuvinte diferite ca formă, dar unde unul trimite la altul (diverse dicțioare îl pot adopta pe unul sau pe altul ca referință): {{d|celțiu}} - {{d|hafniu}}
  
== Rezolvate ==
+
=== Unificarea intrărilor din aceeași „familie” ===
 +
* Putem grupa lexemele și arborii înrudiți în aceeași intrare?
 +
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Eu zic că e firesc să avem o singură intrare pentru '''brașovean (s.m.) + brașovean (adj.) + brașoveancă''' sau '''copia + copiere + copiat (s.n.) + copiat (adj.)'''.
 +
*** Rămâne de văzut dacă e ok să extindem procedura și pentru sensuri mai ample, ca de ex. '''intra (vb.) + intrare + intrat (s.n.) + intrat (adj.)''' (+ variantele).
  
 
=== Etichete ===
 
=== Etichete ===
 
<div class="toccolours mw-collapsible mw-collapsed">
 
Discuție despre etichete ierarhice.
 
<div class="mw-collapsible-content">
 
  
 
* Când punem etichete și când lăsăm paranteza respectivă?
 
* Când punem etichete și când lăsăm paranteza respectivă?
Linia 88: Linia 69:
 
** Paranteza se înlocuiește cu etichetă dacă este la începutul (sub)sensului și se aplică acestuia în totalitate. Dacă se aplică doar parțial, sau este plasată în cuprinsul (sub)sensului, trebuie să rămână.
 
** Paranteza se înlocuiește cu etichetă dacă este la începutul (sub)sensului și se aplică acestuia în totalitate. Dacă se aplică doar parțial, sau este plasată în cuprinsul (sub)sensului, trebuie să rămână.
  
'''[cata]''' Cred că avem nevoie de o ierarhie de etichete, nu doar de o listă. Am vorbit și cu Radu, care e de aceeași părere. De exemplu:
+
* Avem etichete ierarhizate.
 
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Ierarhia e bună pentru o vedere de ansamblu, dar poate duce la dublete ([masculin] poate fi și la [adjectiv] și la [substantiv]). Ar fi bună o modalitate de căutare a unei etichete.
<div class="toccolours mw-collapsible mw-collapsed" style="width: 400px">
 
Exemplu de ierarhie -- clic pentru a o expanda.
 
<div class="mw-collapsible-content">
 
* parte de vorbire
 
** substantiv
 
*** s.f.
 
*** s.m.
 
*** s.n.
 
*** s.m. și f.
 
** adjectiv
 
** pronume
 
*** pronume demonstrativ
 
*** pronume nehotărât
 
** verb
 
*** verb tranzitiv
 
*** verb reflexiv
 
*** verb intranzitiv
 
* grupă verb
 
** grupa I
 
** grupa a II-a
 
** grupa a III-a
 
** grupa a IV-a
 
* regionalism
 
** Moldova
 
** Banat
 
** Bucovina
 
</div>
 
</div>
 
 
 
'''Matei''' Ierarhia e bună pentru o vedere de ansamblu, dar poate duce la dublete ([masculin] poate fi și la [adjectiv] și la [substantiv]). Ar fi bună o modalitate de căutare a unei etichete, precum și una de căutare a lexemelor / arborilor unde a fost aplicată.
 
 
 
O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.
 
  
* 2 [verb tranzitiv] ...
+
* O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.
* 2.1 ...
+
*: 2 [tranzitiv] ...
* 2.2 [verb reflexiv] ...
+
*:: 2.1 ...
* 2.3 ...
+
*:: 2.2 [reflexiv] ...
** '''[Matei]''' Și dacă sensul 2.2 este '''și''' tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală [verb] apare pe lexem).
+
*:: 2.3 ...
** Etichetele trebuie să fie ordonabile. Acum sunt afișate alfabetic, ceea ce duce la situații gen [Moldova] [regionalism] [Transilvania]. - '''rezolvat'''.
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Și dacă sensul 2.2 este '''și''' tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală [verb] apare pe lexem). Exemplul de mai sus s-ar citi „sensul 2 și subsensurile 2.1, 2.2 și 2.3 sunt tranzitive, iar subsensul 2.2 este tranzitiv '''și''' reflexiv”.
** Etichetele nu trebuie să fie redundante. În loc de [substantiv masculin] și [substantiv feminin] putem avea [substantiv masculin și feminin]. - '''rezolvat'''.
 
  
Asta ar rezolva (toate!) problemele de mai jos:
+
=== Corespondența între părți de vorbire și modele de flexiune ===
 
+
* Pe principiul atomic, separăm lexemele ''muncitor'' s.m.f. și ''muncitor'' adj., ''gravidă'' adj.f. și ''gravidă'' s.f. etc.? Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate...
* Crearea unui câmp separat pentru '''partea de vorbire'''. Există cazuri de adj. fem. (ex. ''vectoare''), care în prezent sunt încadrate eronat (s.f.).
+
** '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F.
* '''[cata]''' Pentru asta ar fi bine să creăm mai multe părți de vorbire, în special pentru adverbe, prepoziții etc. Dacă nicăieri în definiție nu va mai apărea „adverb”, este important ca flexiunea să menționeze asta. - '''rezolvat'''. Toate modelele I1-I8 pot fi reunite la loc în I1 (după ce etichetăm corespunzător sensurile, desigur).
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) De acord.
* Unde punem mențiunea tranzitiv / intranzitiv / reflexiv pentru verbe?
 
* Unde punem grupa verbului (I-IV)? Și cred că asta se poate generaliza la pronume nehotărâte, demonstrative etc.
 
</div>
 
</div>
 
 
 
* Corespondența între părți de vorbire și modele de flexiune
 
** '''[cata]''' Pe principiul atomic, separăm lexemele ''muncitor'' s.m.f și ''muncitor'' adj., ''gravidă'' adj.f. și ''gravidă'' s.f. etc. Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate, dar pare răul cel mai mic.
 
** Varianta curentă: '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F. '''[Matei]''' De acord.
 
 
 
* Variante cu registru de folosire. Ex. {{d|ciot}} are variantele (popular) ''cioată'', (rar) ''ciotur''.
 
** '''[cata]''' Etichetele să se poată aplica și pe lexem, nu doar pe sensuri. - '''rezolvat'''.
 
  
 
=== Altele ===
 
=== Altele ===
 +
* Nu e totuși nevoie de o asociere ''many-to-many'' între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
 +
** '''[cata]''' Rezolvat, am introdus o tabelă ''Entry''.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Eu nu văd această asociere. Atât lexemele cât și arborii sunt asociați cu intrările. E nevoie de altceva?
  
* Punem absolut toate sursele la „surse care atestă flexiunea”?
+
=== Nerezolvate ===
** '''[cata]''' Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord. '''[Matei]''' Da, sursele „normative” (DOOM, DEX, Ortografic) n-ar trebui menționate.
 
  
* Forme de bază multiple
+
Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].
** '''[cata]''' Se rezolvă prin faptul că o intrare conține mai multe lexeme. Asta include și variantele de accent (''agríș / ágriș'').
 
 
 
* Nu e totuși nevoie de o asociere ''many-to-many'' între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
 
** '''[cata]''' Rezolvat, am introdus o tabelă ''Entry''. '''[Matei]''' Eu nu văd această asociere. Atât lexemele cât și arborii sunt asociați cu intrările. E nevoie de altceva?
 

Versiunea de la data 15 decembrie 2016 12:59

Principiu general: atomicitate

[cata] Am vorbit cu Radu și m-a convins să adoptăm un model atomic. Oriunde o etichetă sau proprietate se aplică doar unei părți a arborelui de sensuri, spargem arborele în două. La căutări, încărcăm toți arborii relevanți și îi afișăm.

De aici rezultă schema: un lexem este asociat cu exact un arbore de sensuri, dar mai multe lexeme pot fi asociate cu același arbore.

  • Matei GALL (discuție) Păi nu prea e așa. Un lexem (sau mai multe) se asociază cu o intrare, care are unul sau mai mulți arbori. Deci nu avem asociere lexem(e) - arbore.

Unificarea lexemelor MF

  • [cata], Matei GALL (discuție) sunt de acord cu unificarea.
    • Matei GALL (discuție) Unificarea presupune să nu avem lexeme separate pentru inginer s.m. și ingineră s.f. (DOOM2), ci un singur lexem inginer s.m. și f.
    • [cata] S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în -iță, cum ne trebuie la sudoriță?
      • Matei GALL (discuție) Nu avem. Le lăsăm ca atare și adăugăm la structurare lexemele respective (la intrarea sudor vom avea și lexemul sudor și lexemul sudoriță; oricare formă căutată va trimite la această intrare).

Variante, pronunții, modelele de flexiune valabile doar pentru anumite sensuri

  • Cum procedăm?
    • [cata] Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
      • Matei GALL (discuție) Doctor - doar sensul DEX-1 are var. doftor.
      • [cata] La pronunție am găsit doar exemplul eu, pronunțat ieu ca pronume, dar eu ca substantiv (concept filozofic).
      • [cata] Exemple care admit vocativul doar pe unul dintre sensuri: frumos, obtuz, cățel (de usturoi), papagal / mops (ca unelte).
        • Matei GALL (discuție) Ar mai fi bucureștean (s.m. vs adj.), brașoveancă (persoană vs ladă, căruță...) etc.
    • [cata] Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
    • [cata] Concret, propunerea mea de rezolvare este să folosim simple comentarii pentru pronunții, variante și flexiuni, cel puțin până încep să se adune situațiile.
      • Matei GALL (discuție) Pentru valabilitatea vocativului doar pe un sens nu e suficientă aplicarea etichetei?

Surse structurate

  • Ce facem cu DER, DE, DAR, DRAM ... și într-o mai mică măsură Scriban și Șăineanu?
    • [cata] Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța.
      • Matei GALL (discuție) Cred că da. Rămân nestructurate și sursele de sinonime / antonime, pentru că nu specifică cărui sens îi corespund respectivele sinonime / antonime.
  • Ce surse menționăm pe fiecare sens / etimologie ?
    • Matei GALL (discuție) Propun împărțirea surselor în „familii” urmând să menționăm de fiecare dată doar „capul familiei”. Familiile ar fi:
      - DEX'09, care include toate edițiile precedente + DEX-S (dar fără DEXI, care pare să aibă diferențe semnificative);
      - DLRLC cu DLRM, DLRC (aș zice că DLRLC primează);
      - DN cu MDN'00+'08 și NODEX (cam oricare ar putea fi „capul familiei” - propun DN);
      - separat: MDA2 (cu MDA), DCR2, DEXI.
    • O altă abordare ar fi menționarea tuturor surselor (cu păstrarea capului de familie doar la afișare, ca să diminuăm zgomotul). Îngreunează munca de structurare.
  • Ce surse menționăm la „surse care atestă flexiunea”?
    • [cata] Cred că ar fi prea mult zgomot să le punem pe toate. Mai bine doar acolo unde nu toate dicționarele sunt de acord.
      • Matei GALL (discuție) Da, sursele „normative” (DOOM, DEX, Ortografic, DOR) n-ar trebui menționate.
  • În toate cazurile, sursele structurate (definiție / etimologie / flexiune) se marchează ca atare, chiar dacă nu sunt menționate pe sens / lexem.

Variantă vs Formă principală

  • Diferite dicționare consideră diferite variante ca fiind forma principală (ținterim, țintirim sau ciot, cioată). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, cimitir, respectiv parte rămasă.
    • [cata] Radu se opune unificării arborilor, pentru că se pierd informații istorice.
      • Matei GALL (discuție) Eu nu înțeleg cum vedeți această chestiune, pentru că „varianta” este marcată prin eliminarea bifei „formă principală” de pe lexem. Deci ce facem? Dublăm lexemele ca să avem unul „variantă” menționat de o sursă veche (ex. zbenghi - DEX'98), plus unul „principal” menționat de o sursă mai nouă (DEX'09), la care se adaugă alte două lexeme (benghi) cu proprietatea inversă? Mi se pare absurd. Și ce legătură are cu arborii?
    • [cata] Aș vrea să văd un exemplu concret pentru ciot / cioată / ciotur.

Mici variațiuni între definiții

  • Pare că am ajuns la consens privind marcarea diferențelor, cu aplicarea etichetei [diferențiere]. Rămâne de stabilit modalitatea de afișare.

Unificarea intrărilor cu același sens

  • Unde tragem linia la gruparea lexemelor și arborilor în aceeași intrare?
    • [cata] Matei a întâlnit vreo trei tipuri de situații:
      • Variante listate ca atare: ambreiare - ambreiere
      • Variante nelistate ca atare, dar care fac trimitere una la alta bulonaj - bulonare
      • Cuvinte diferite ca formă, dar unde unul trimite la altul (diverse dicțioare îl pot adopta pe unul sau pe altul ca referință): celțiu - hafniu

Unificarea intrărilor din aceeași „familie”

  • Putem grupa lexemele și arborii înrudiți în aceeași intrare?
    • Matei GALL (discuție) Eu zic că e firesc să avem o singură intrare pentru brașovean (s.m.) + brașovean (adj.) + brașoveancă sau copia + copiere + copiat (s.n.) + copiat (adj.).
      • Rămâne de văzut dacă e ok să extindem procedura și pentru sensuri mai ample, ca de ex. intra (vb.) + intrare + intrat (s.n.) + intrat (adj.) (+ variantele).

Etichete

  • Când punem etichete și când lăsăm paranteza respectivă?
    • Cred că ar trebui încet-încet să creăm etichete pentru toate parantezele.
    • Paranteza se înlocuiește cu etichetă dacă este la începutul (sub)sensului și se aplică acestuia în totalitate. Dacă se aplică doar parțial, sau este plasată în cuprinsul (sub)sensului, trebuie să rămână.
  • Avem etichete ierarhizate.
    • Matei GALL (discuție) Ierarhia e bună pentru o vedere de ansamblu, dar poate duce la dublete ([masculin] poate fi și la [adjectiv] și la [substantiv]). Ar fi bună o modalitate de căutare a unei etichete.
  • O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.
    2 [tranzitiv] ...
    2.1 ...
    2.2 [reflexiv] ...
    2.3 ...
    • Matei GALL (discuție) Și dacă sensul 2.2 este și tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală [verb] apare pe lexem). Exemplul de mai sus s-ar citi „sensul 2 și subsensurile 2.1, 2.2 și 2.3 sunt tranzitive, iar subsensul 2.2 este tranzitiv și reflexiv”.

Corespondența între părți de vorbire și modele de flexiune

  • Pe principiul atomic, separăm lexemele muncitor s.m.f. și muncitor adj., gravidă adj.f. și gravidă s.f. etc.? Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate...
    • [cata] Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F.

Altele

  • Nu e totuși nevoie de o asociere many-to-many între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
    • [cata] Rezolvat, am introdus o tabelă Entry.
      • Matei GALL (discuție) Eu nu văd această asociere. Atât lexemele cât și arborii sunt asociați cu intrările. E nevoie de altceva?

Nerezolvate

Vezi și lista de probleme de pe GitHub.