Discuție:Ghid pentru structurare: Diferență între versiuni

De la Dexonline wiki
Jump to navigation Jump to search
 
(Nu s-au afișat 49 de versiuni intermediare efectuate de alți 3 utilizatori)
Linia 3: Linia 3:
 
'''[cata]''' Am vorbit cu Radu și m-a convins să adoptăm un model atomic. Oriunde o etichetă sau proprietate se aplică doar unei părți a arborelui de sensuri, spargem arborele în două. La căutări, încărcăm toți arborii relevanți și îi afișăm.
 
'''[cata]''' Am vorbit cu Radu și m-a convins să adoptăm un model atomic. Oriunde o etichetă sau proprietate se aplică doar unei părți a arborelui de sensuri, spargem arborele în două. La căutări, încărcăm toți arborii relevanți și îi afișăm.
  
De aici rezultă schema: un lexem este asociat cu exact un arbore de sensuri, dar mai multe lexeme pot fi asociate cu același arbore.
+
De aici rezultă schema: o intrare poate fi asociată cu mai mulți arbori și invers. Dacă avem nevoie să asociem o parte dintr-un arbore și cu alte intrări, atunci arborele trebuie spart.
  
=== Propuneri de rezolvări ===
+
=== Variante, sinonime, pronunții, modelele de flexiune valabile doar pentru anumite sensuri ===
  
* Corespondența între părți de vorbire și modele de flexiune
+
* Cum procedăm?
** '''[cata]''' Pe principiul atomic, separăm lexemele ''muncitor'' s.m.f și ''muncitor'' adj., ''gravidă'' adj.f. și ''gravidă'' s.f. etc. Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate, dar pare răul cel mai mic.
+
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
** '''[cata]''' Lista de tipuri și modele de flexiune trebuie completată cu toate părțile de vorbire.
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) ''Doctor'' - doar sensul DEX-1 are var. ''doftor''.
** '''[cata]''' Etichetele cu părți de vorbire rămân în continuare disponibile, pot fi utile.
+
*** '''[cata]''' La pronunție am găsit doar exemplul ''eu'', pronunțat ''ieu'' ca pronume, dar ''eu'' ca substantiv (concept filozofic).
** (Modificare semnificativă față de propunerea anterioară: '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF și A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F. '''[Matei]''' De acord.)
+
*** '''[cata]''' Exemple care admit vocativul doar pe unul dintre sensuri: ''frumos'', ''obtuz'', ''cățel'' (de usturoi), ''papagal / mops'' (ca unelte).
 +
**** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Ar mai fi ''bucureștean'' (s.m. vs adj.), ''brașoveancă'' (persoană vs ladă, căruță...) etc.
 +
**** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Pentru valabilitatea vocativului doar pe un sens nu e suficientă aplicarea etichetei?
 +
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 24 decembrie 2016 19:33 (EET) Nu văd cum se rezolvă prin spargerea arborelui. Variantele sunt lexeme asociate cu intrarea, care e asociată cu toți arborii rezultați, deci nu putem asocia o variantă (un lexem) cu un arbore.
 +
*** '''[cata]''' Putem extrage sensurile în cauză în arbori separați (deci să nu fie un sens 1.2.1. care să aibă o variantă). Așa este la ''cocoș'' de exemplu, unde sensul de animal are varianta ''cucoș'', nu și cel de categorie de box. Apoi trebuie spartă intrarea în două, una cu variantă, una fără.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Mda, vom ajunge până la urmă la „atomizarea” preconizată de Radu :-) Atenție! Sursele nu sunt întotdeauna de aceeași părere (și văd că nici noi cu ele!). DEX și DLRLC nu specifică că varianta ''cucoș'' se referă doar la unul din sensuri. Alta e situația la ''doctor'', unde ''doftor'' e clar doar pentru sensul 1 și eventual 4 (e vreo diferență între „variantă” și „în forma”?).
 +
** '''[cata]''' Concret, propunerea mea de rezolvare este să folosim simple comentarii pentru pronunții, variante și flexiuni, cel puțin până încep să se adune situațiile.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 24 decembrie 2016 19:33 (EET) Cred că vor fi destul de multe cazuri. O soluție ar fi să tratăm variantele similar cu sinonimele, antonimele etc.: o rubrică dedicată. '''Dezavantaj:''' asta presupune să le păstrăm ca intrări cu arbori goi. '''Avantaj'''ul ar fi că variantele pot primi etichete (ex. [regional], [învechit]), care acum nu pot fi puse decât pe lexem și nu sunt vizibile decât în tabul pentru paradigme.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 4 februarie 2017 10:56 (EET) Nici pentru sinonime nu avem rezolvare completă. Ex. ''spițereasă'' e sinonim cu ''farmacistă'', dar acesta nu există (ca lexem / intrare / arbore), ''apotecă'' e sinonim doar cu un sens al lui ''farmacie'' etc.
 +
 
 +
=== Surse structurate ===
 +
 
 +
* Ce facem cu DER, DE, DAR, DRAM ... și într-o mai mică măsură Scriban și Șăineanu?
 +
** '''[cata]''' Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Cred că da. Rămân nestructurate și sursele de sinonime / antonime, pentru că nu specifică cărui sens îi corespund respectivele sinonime / antonime.
 +
**** De acord, în cazurile neclare. Sper ca măcar o parte dintre definiții să nu fie prea polisemantice.
  
* Numerotarea sensurilor, exemplelor și etimologiilor
+
* Ce surse menționăm pe fiecare sens / etimologie ?
** '''[cata]''' Scheme diferite de numerotare, folosind prefixele 'E' pentru etimologii și 'X' pentru exemple. De exemplu, dacă un sens are două subsensuri și trei exemple, acestea vor fi numerotate 1.1, 1.2, 1.X1, 1.X2, 1.X3. Dacă o etimologie E1 are la rândul ei o sub-etimologie pentru completări (nu exclud posibilitatea), aceasta s-ar numi E1.E1.
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Propun împărțirea surselor în „familii” urmând să menționăm de fiecare dată doar „capul familiei”. Familiile ar fi:
** '''[cata]''' La afișare arătăm doar numerotările pentru sensuri, ca să nu speriem utilizatorii.
+
**:- DEX'09, care include toate edițiile precedente + DEX-S (dar fără DEXI, care pare să aibă diferențe semnificative);
 +
**:- DLRLC cu DLRM, DLRC (aș zice că DLRLC primează);
 +
**:- DN cu MDN'00+'08 și NODEX (cam oricare ar putea fi „capul familiei” - propun DN);
 +
**:- separat: MDA2 (cu MDA), DCR2, DEXI.
 +
** O altă abordare ar fi menționarea tuturor surselor (cu păstrarea capului de familie doar la afișare, ca să diminuăm zgomotul). Îngreunează munca de structurare.
 +
** Mi se pare riscant să menționăm doar familia (de exemplu DEX), căci uneori cuvintele dispar/apar între ediții. Cred că sunt de interes cel puțin prima și ultima atestare. Ai dreptate că munca se îngreunează. Dacă vrem să evităm asta, putem aplica aceste etichete doar pe sensurile care nu sunt „universal” acceptate. Rămâne să definim ce înseamnă „universal”. [[Utilizator:Cătălin.Frâncu|Cătălin.Frâncu]] ([[Discuție Utilizator:Cătălin.Frâncu|discuție]])
  
* Unificarea lexemelor MF. '''[cata, Matei]''' sunt de acord cu asta
+
* Ce surse menționăm la „surse care atestă flexiunea”?
** '''[Matei]''' Unificarea presupune să nu avem lexeme separate pentru ''inginer s.m.'' și ''ingineră s.f.'' (DOOM2), ci un singur lexem '''inginer''' s.m. și f.
+
** '''[cata]''' Cred că ar fi prea mult zgomot să le punem pe toate. Mai bine doar acolo unde nu toate dicționarele sunt de acord.
** '''[cata]''' S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în ''-iță'', cum ne trebuie la ''sudoriță''?
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Da, sursele „normative” (DOOM, DEX, Ortografic, DOR) n-ar trebui menționate.
  
* Forme de bază multiple
+
* În toate cazurile, sursele structurate (definiție / etimologie / flexiune) se marchează ca atare, chiar dacă nu sunt menționate pe sens / lexem.
** '''[cata]''' Se rezolvă prin faptul că mai multe lexeme pot fi asociate cu același arbore de sensuri. Asta include și variantele de accent (''agríș / ágriș'').
 
  
* Variante cu registru de folosire. Ex. {{d|ciot}} are variantele (popular) ''cioată'', (rar) ''ciotur''.
+
=== Variantă vs Formă principală ===
** '''[cata]''' Etichetele să se poată aplica și pe lexem, nu doar pe sensuri.
 
  
* Diminutive, antonime, variante, etimologii, pronunții, modelele de flexiune valabile doar pentru anumite sensuri.
+
* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''.
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
+
** '''[cata]''' Radu se opune unificării arborilor, pentru că se pierd informații istorice.
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
+
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Eu nu înțeleg cum vedeți această chestiune, pentru că „varianta” este marcată prin eliminarea bifei „formă principală” de pe lexem. Deci ce facem? Dublăm lexemele ca să avem unul „variantă” menționat de o sursă veche (ex. zbenghi - DEX'98), plus unul „principal” menționat de o sursă mai nouă (DEX'09), la care se adaugă alte două lexeme (benghi) cu proprietatea inversă? Mi se pare absurd. Și ce legătură are cu arborii?
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens.
+
** '''[cata]''' Aș vrea să văd un exemplu concret pentru ''ciot / cioată / ciotur''.
** '''[cata]''' La pronunție am găsit doar exemplul ''eu'', pronunțat ''ieu'' ca pronume, dar ''eu'' ca substantiv (concept filozofic). Dacă sunt cazuri rarisime, un comentariu este suficient.
 
  
* Ce facem cu DER, DE, și într-o mai mică măsură Scriban și Șăineanu.
+
=== Etichete pe lexeme ===
** '''[cata]''' Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța. '''[Matei]''' Cred că da.
 
  
Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].
+
Uneori informații ca [învechit] sau [popular] nu stau pe sens, ci pe o anumită formă a cuvântului (ex. ''zimbi'' este regionalism moldovenesc pentru ''zâmbi''). Mie mi se pare natural să traducem asta într-o etichetă pe lexem. [[Utilizator:Cătălin.Frâncu|Cătălin.Frâncu]] ([[Discuție Utilizator:Cătălin.Frâncu|discuție]])
  
 
=== Nerezolvate ===
 
=== Nerezolvate ===
  
* Nu e totuși nevoie de o asociere ''many-to-many'' între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
+
Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].
 +
 
 +
==== Atenționare la modificări asupra sensurilor și intrărilor „legate” ====
 +
* [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 24 ianuarie 2017 13:19 (EET) Mă refer la sensuri legate prin trimiteri. Atenționarea ar fi necesară, deoarece la spargerea sau ștergerea unui astfel de sens, legătura se pierde sau se mută către un sens incorect.
 +
* Același fenomen se întâmplă și în cazul intrărilor legate prin sinonimie, antonimie etc.
  
* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''
+
==== Definiții noi ====
** '''[cata]''' Radu se opune unificării arborilor, pentru că se pierd informații istorice.
+
* [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 3 februarie 2017 18:38 (EET) De stabilit procedura pentru definițiile nou introduse (asociate cu intrări structurate).
** '''[cata]''' Aș vrea să văd un exemplu concret pentru ''ciot / cioată / ciotur''.
 
  
* Reconcilierea micilor variațiuni între definiții.
+
==== Etichete ====
** '''[Matei]''' Eu aş merge pe varianta cu definiţie succintă (explicaţiile mai ample se pot consulta în sursele menționate). Redactarea unei definiții cuprinzătoare e anevoioasă (şi subiectivă).
 
** '''[Matei]''' Mă refer la definiții care au mici diferențe de la o sursă la alta. Ex.: ''monitor (navă)'' este definit ca:
 
*** „Navă fluvială de război, '''blindată''', de tonaj mic, '''cu tunuri protejate cu turele''' - DEX”;
 
*** „Navă '''militară, maritimă''' sau fluvială, de tonaj mic, echipată '''cu armament''' de artilerie - NODEX”;
 
*** „Navă de război cuirasată, prevăzută cu artilerie grea - DN”;
 
*** „navă fluvială de tonaj mic, cuirasată, cu artilerie grea, '''destinată luptei împotriva obiectivelor de pe mal''' - MDN” etc.
 
**** toate sursele descriind în principiu o '''navă de război'''. Unele adaugă elemente de armament, altele de blindaj etc. Dacă compilăm toate sursele, iese o chestie destul de stufoasă...
 
** '''[cata]''' Acum înțeleg. Pe de altă parte, dacă nu facem noi efortul acesta, va trebui să-l facă utilizatorul. Ca și în prezent, va trebui să citească 10 definiții pentru a găsi micile diferențe între ele. Sunt de acord cu abordarea ta, de definiție succintă (factor comun sau aproape comun), dacă putem cumva să creăm subsensuri care să arate completările aduse de unele surse. Cam așa:
 
*** Navă fluvială de război, de tonaj mic, echipată cu artilerie grea.
 
*** „blindată” [DEX];
 
*** „cu tunuri protejate cu turele” [DEX];
 
*** „maritimă sau fluvială” [NODEX];
 
*** „cuirasată” [MDN];
 
*** „destinată luptei împotriva obiectivelor de pe mal” [MDN].
 
  
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
+
* Avem etichete ierarhizate.
** '''[cata]''' Da, ar fi frumos facem și asta. Mă gândesc cum s-ar face. Cred că ar necesita o bifă explicită „lexem compus”, căci sunt și alte cuvinte cu cratimă care nu necesită asta (''într-adins'' sau altele).
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Ierarhia e bună pentru o vedere de ansamblu, dar poate duce la dublete ([masculin] poate fi și la [adjectiv] și la [substantiv]). Ar fi bună o modalitate de căutare a unei etichete.
*** '''[Matei]''' Păi astea se încadrează la invariabile, nu văd necesitatea bifei.
+
*** [[Utilizator:Cătălin.Frâncu|Cătălin.Frâncu]] ([[Discuție Utilizator:Cătălin.Frâncu|discuție]]) Am deschis tichetul [https://github.com/dexonline/dexonline/issues/539 #539]. Încă nu știu dacă procedăm corect cu etichetele compuse [substantiv masculin] sau dacă ar fi mai simplu avem [substantiv], [masculin], [propriu], [articulat]... În al doilea caz, n-am mai avea motive să avem duplicate.
**** '''[cata]''' Da, dădeam doar un exemplu că nu tot ce conține bifă trebuie automat tratat ca lexem compus (pot fi și nume proprii etc.).
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) De acord cu renunțarea la etichete compuse (îngreunează structurarea, dar majoritatea lexemelor sunt etichetate). Nu știu dacă există o soluție pentru afișarea ordonată a etichetelor (avem ordonare manuală, dar la modificări globale, totul se strică; ex. [substantiv masculin și feminin] [admite vocativul] a fost spart în [admite vocativul] [substantiv masculin] și [admite vocativul] [substantiv feminin], cu inversarea etichetelor).
  
 
== Rezolvate ==
 
== Rezolvate ==
 +
 +
Subiecte pentru care avem un consens. Unde este de implementat, am deschis tichete pe GitHub. Eventual poate mai sunt principii de scos de aici și de inclus în Ghid, după care putem șterge aceste secțiuni.
 +
 +
=== Mici variațiuni între definiții ===
 +
* Pare că am ajuns la consens privind marcarea diferențelor, cu aplicarea etichetei [diferențiere]. Rămâne de stabilit modalitatea de afișare.
 +
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 16 decembrie 2016 09:28 (EET) Ar fi bine ca în locul etichetei [diferențiere], aceste subsensuri să aibă un „tip” dedicat, similar cu etimologiile și exemplele. S-ar evita astfel să fie numerotate printre celelalte subsensuri „reale”.
 +
*** Am deschis tichetul [https://github.com/dexonline/dexonline/issues/540 #540].
 +
'''S-a înlocuit eticheta cu un tip separat, s-a rezolvat afișarea.'''
 +
 +
=== Unificarea intrărilor cu același sens ===
 +
* Unde tragem linia la gruparea lexemelor și arborilor în aceeași intrare?
 +
** '''[cata]''' Matei a întâlnit vreo trei tipuri de situații:
 +
*** Variante listate ca atare: {{d|ambreiare}} - {{d|ambreiere}}
 +
*** Variante nelistate ca atare, dar care fac trimitere una la alta {{d|bulonaj}} - {{d|bulonare}}
 +
*** Cuvinte diferite ca formă, dar unde unul trimite la altul (diverse dicționare îl pot adopta pe unul sau pe altul ca referință): {{d|celțiu}} - {{d|hafniu}}
 +
** [[Utilizator:Cătălin.Frâncu|Cătălin.Frâncu]] ([[Discuție Utilizator:Cătălin.Frâncu|discuție]]) Cred că am ajuns la consensul că în situațiile (1) și (2) avem o singură intrare, iar în situația (3) nu.
 +
'''Concluzie''': Rămân intrări separate în toate situațiile. Doar variantele „pure” (indicate ca atare) se includ în aceeași intrare.
  
 
=== Etichete ===
 
=== Etichete ===
 
<div class="toccolours mw-collapsible mw-collapsed">
 
Discuție despre etichete ierarhice.
 
<div class="mw-collapsible-content">
 
  
 
* Când punem etichete și când lăsăm paranteza respectivă?
 
* Când punem etichete și când lăsăm paranteza respectivă?
 
** Cred că ar trebui încet-încet să creăm etichete pentru toate parantezele.
 
** Cred că ar trebui încet-încet să creăm etichete pentru toate parantezele.
 +
** Paranteza se înlocuiește cu etichetă dacă este la începutul (sub)sensului și se aplică acestuia în totalitate. Dacă se aplică doar parțial, sau este plasată în cuprinsul (sub)sensului, trebuie să rămână.
  
'''[cata]''' Cred că avem nevoie de o ierarhie de etichete, nu doar de o listă. Am vorbit și cu Radu, care e de aceeași părere. De exemplu:
+
* O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.
 +
*: 2 [tranzitiv] ...
 +
*:: 2.1 ...
 +
*:: 2.2 [reflexiv] ...
 +
*:: 2.3 ...
 +
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Și dacă sensul 2.2 este '''și''' tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală [verb] apare pe lexem). Exemplul de mai sus s-ar citi „sensul 2 și subsensurile 2.1, 2.2 și 2.3 sunt tranzitive, iar subsensul 2.2 este tranzitiv '''și''' reflexiv”.
 +
*** [[Utilizator:Cătălin.Frâncu|Cătălin.Frâncu]] ([[Discuție Utilizator:Cătălin.Frâncu|discuție]]) De acord. Oare ar ajuta să punem explicit [tranzitiv] [reflexiv] pe 2.2, pentru claritate?
 +
'''Concluzie''': O etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală apare pe lexem).
 +
 
 +
=== Corespondența între părți de vorbire și modele de flexiune ===
 +
* Pe principiul atomic, separăm lexemele ''muncitor'' s.m.f. și ''muncitor'' adj., ''gravidă'' adj.f. și ''gravidă'' s.f. etc.? Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate...
 +
** '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F.
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) De acord.
 +
'''Concluzie''': Rămân lexeme separate, chiar dacă se suprapun. Modelul MF dispare (se sparge).
 +
 
 +
=== Pronunție (accentuare / silabisire) ===
 +
[Tavi] Cred că ar fi folositor să "recuperăm" și această informație și să o adăugăm la structurare. Ex. https://www.collinsdictionary.com/dictionary/english/either
 +
: [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Eu am pus în Ghid indicații în acest sens (la Editare lexem). Dacă e nevoie de adăugiri sau reformulare ... aștept sugestii.<br/>Problema e (după cum sublinia Radu) că aceste informații nu sunt vizibile pe pagina cu rezultate, decât pe tabul declinări/conjugări...
 +
: [[Utilizator:Cătălin.Frâncu|Cătălin.Frâncu]] ([[Discuție Utilizator:Cătălin.Frâncu|discuție]]) Când am structurat DOR am preluat informațiile de silabisire și pronunție! În prezent avem peste 15.000 de silabisiri ''(abiologie, abisinian...)'' și peste 1.400 de pronunții ''(actiniu, aftershave...)''. Nu sunt afișate nicăieri public, dar evident putem face ceva în privința asta. Până atunci, le puteți vedea în pagina de căutare a lexemului.
 +
'''Concluzie''': Păstrăm structura actuală (pe lexem), urmând ca afișarea să se rezolve ulterior.
 +
 
 +
=== Unificarea lexemelor MF ===
 +
* '''[cata]''', [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) sunt de acord cu unificarea.
 +
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Unificarea presupune să nu avem lexeme separate pentru ''inginer s.m.'' și ''ingineră s.f.'' (DOOM2), ci un singur lexem '''inginer''' s.m. și f.
 +
** '''[cata]''' S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în ''-iță'', cum ne trebuie la ''sudoriță''?
 +
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Nu avem. Le lăsăm ca atare și adăugăm la structurare lexemele respective (la intrarea ''sudor'' vom avea și lexemul ''sudor'' și lexemul ''sudoriță''; oricare formă căutată va trimite la această intrare).
 +
'''Concluzie''': Lexemele '''nu''' trebuie unificate (dimpotrivă). Lexemele și intrările rămân separate, dar arborele poate fi comun.
  
<div class="toccolours mw-collapsible mw-collapsed" style="width: 400px">
+
=== Unificarea intrărilor din aceeași „familie” ===
Exemplu de ierarhie -- clic pentru a o expanda.
+
* Putem grupa lexemele și arborii înrudiți în aceeași intrare?
<div class="mw-collapsible-content">
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Eu zic că e firesc să avem o singură intrare pentru '''brașovean (s.m.) + brașovean (adj.) + brașoveancă''' sau '''copia + copiere + copiat (s.n.) + copiat (adj.)'''.
* parte de vorbire
+
*** Rămâne de văzut dacă e ok să extindem procedura și pentru sensuri mai ample, ca de ex. '''intra (vb.) + intrare + intrat (s.n.) + intrat (adj.)''' (+ variantele).
** substantiv
+
'''Concluzie''': '''Nu''' se grupează lexemele. Se pot grupa arbori cu același sens. Pentru gruparea intrărilor înrudite (familie de cuvinte) se va implementa o procedură separată.
*** s.f.
 
*** s.m.
 
*** s.n.
 
*** s.m. și f.
 
** adjectiv
 
** pronume
 
*** pronume demonstrativ
 
*** pronume nehotărât
 
** verb
 
*** verb tranzitiv
 
*** verb reflexiv
 
*** verb intranzitiv
 
* grupă verb
 
** grupa I
 
** grupa a II-a
 
** grupa a III-a
 
** grupa a IV-a
 
* regionalism
 
** Moldova
 
** Banat
 
** Bucovina
 
</div>
 
</div>
 
  
O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.
+
=== Ortografie, formatare ===
 +
* Ce normă ortografică folosim?
 +
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Pentru toate definițiile structurate se folosește ortografia actuală.
 +
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Pentru exemple se folosește ortografia din sursa care dă exemplul.
 +
*** '''[Radu]''' Pentru consecvență trebuie folosită ortografia actuală permanent.
 +
**** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Asta îngreunează structurarea. Nu se poate converti automat ulterior?
 +
'''Concluzie''': Ortografia actuală pentru definiții. Ortografia din sursă pentru exemple care constituie citate din opere sau publicații; pentru celelalte se utilizează ortografia actuală.<br/>Ortografia veche din exemple se va converti automat într-o fază ulterioară.
  
* 2 [verb tranzitiv] ...
+
* Ce formatare folosim?
* 2.1 ...
+
** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) Pentru definiții folosim text normal, pentru exemple folosim ''litere aplecate'' (textul) și MAJUSCULE (autorul), pentru etimologii folosim '''litere îngroșate''' sau combinații. Vezi exemplificări în ghid.
* 2.2 [verb reflexiv] ...
 
* 2.3 ...
 
  
Asta ar rezolva (toate!) problemele de mai jos:
+
=== Abrevieri, simboluri ===
 +
[[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 13 ianuarie 2017 10:36 (EET) Cum includem în structurare abrevierile și simbolurile indicate de anumite surse (de regulă DOOM^2)?
 +
* Un subsens separat, cu eticheta adecvată [abreviere] / [simbol]; sau
 +
* Un comentariu (cu eticheta adecvată).
 +
Parcă a doua variantă ar fi mai corectă, acestea nefiind un subsens aparte (am câteva inserate fără etichete, trebuie să le depistez).
  
* Crearea unui câmp separat pentru '''partea de vorbire'''. Există cazuri de adj. fem. (ex. ''vectoare''), care în prezent sunt încadrate eronat (s.f.).
+
'''Concluzie''': Comentariu la final (după etimologie), cu etichetă corespunzătoare.
* '''[cata]''' Pentru asta ar fi bine să creăm mai multe părți de vorbire, în special pentru adverbe, prepoziții etc. Dacă nicăieri în definiție nu va mai apărea „adverb”, este important ca flexiunea să menționeze asta. '''[Matei]''' Mda.
 
** '''[cata]''' Aceasta nu mai trebuie rezolvată. Tipul I este invariabil, iar din etichetele pe sens vom diferenția prepoziții, conjuncții etc. De fapt, toate modelele I1-I8 pot fi reunite la loc în I1 (după ce etichetăm corespunzător sensurile, desigur).
 
* Unde punem mențiunea tranzitiv / intranzitiv / reflexiv pentru verbe?
 
* Unde punem grupa verbului (I-IV)? Și cred că asta se poate generaliza la pronume nehotărâte, demonstrative etc.
 
* '''[Matei]''' Eticheta '''s.m. și f.''' e necesară? Nu putem pune 2 etichete ('''s.m.''' și '''s.f.''') în astfel de cazuri?
 
** '''[cata]''' sigur, de ce nu.
 
</div>
 
</div>
 
  
=== Altele ===
+
=== Etichete pe arbori ===
  
* Punem absolut toate sursele la „surse care atestă flexiunea”?
+
[[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 12 ianuarie 2017 11:58 (EET) Cred că ar fi util să putem pune etichete direct pe un arbore. Exemple:
** '''[cata]''' Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord. '''[Matei]''' Da, sursele „normative” (DOOM, DEX, Ortografic) n-ar trebui menționate.
+
* arbori omonimi, asociați cu același lexem care are etichete multiple: ''mai (lună)'' și ''mai (adv.)''. Am evita dublarea lexemului (mi se pare absurd să avem un lexem etichetat [adverb] și un altul identic etichetat [substantiv masculin invariabil]) sau necesitatea etichetării fiecărui sens (nu știu dacă eticheta [adverb] e suficient de explicită plasată doar pe primul sens de la ''mai (adv.)'').
* Lexemele omonime, sensurile (și subsensurile) ar trebui numerotate, altfel trimiterile dintr-o definiție nu mai au sens. V. aalenian. De stabilit modul de numerotare pentru diferitele paliere.
+
* arbore cu multiple sensuri având o etichetă comună: ''stropși''. Am evita repetarea etichetei [popular] pe toate sensurile.
** Asta creează probleme când trimiterea e la un alt lexem.
+
'''S-a implementat.''' Putem pune etichete pe arbori sau pe intrări. Modul de afișare a lor va fi stabilit ulterior.
** '''[cata]''' Despre ce paliere este vorba? Avem suport pentru numerotare, cred că această bulină este rezolvată. '''[Matei]''' Cred că da, putem șterge bulina.
 

Versiunea curentă din 2 noiembrie 2017 12:30

Principiu general: atomicitate

[cata] Am vorbit cu Radu și m-a convins să adoptăm un model atomic. Oriunde o etichetă sau proprietate se aplică doar unei părți a arborelui de sensuri, spargem arborele în două. La căutări, încărcăm toți arborii relevanți și îi afișăm.

De aici rezultă schema: o intrare poate fi asociată cu mai mulți arbori și invers. Dacă avem nevoie să asociem o parte dintr-un arbore și cu alte intrări, atunci arborele trebuie spart.

Variante, sinonime, pronunții, modelele de flexiune valabile doar pentru anumite sensuri

  • Cum procedăm?
    • [cata] Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
      • Matei GALL (discuție) Doctor - doar sensul DEX-1 are var. doftor.
      • [cata] La pronunție am găsit doar exemplul eu, pronunțat ieu ca pronume, dar eu ca substantiv (concept filozofic).
      • [cata] Exemple care admit vocativul doar pe unul dintre sensuri: frumos, obtuz, cățel (de usturoi), papagal / mops (ca unelte).
        • Matei GALL (discuție) Ar mai fi bucureștean (s.m. vs adj.), brașoveancă (persoană vs ladă, căruță...) etc.
        • Matei GALL (discuție) Pentru valabilitatea vocativului doar pe un sens nu e suficientă aplicarea etichetei?
    • [cata] Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
      • Matei GALL (discuție) 24 decembrie 2016 19:33 (EET) Nu văd cum se rezolvă prin spargerea arborelui. Variantele sunt lexeme asociate cu intrarea, care e asociată cu toți arborii rezultați, deci nu putem asocia o variantă (un lexem) cu un arbore.
      • [cata] Putem extrage sensurile în cauză în arbori separați (deci să nu fie un sens 1.2.1. care să aibă o variantă). Așa este la cocoș de exemplu, unde sensul de animal are varianta cucoș, nu și cel de categorie de box. Apoi trebuie spartă intrarea în două, una cu variantă, una fără.
      • Matei GALL (discuție) Mda, vom ajunge până la urmă la „atomizarea” preconizată de Radu :-) Atenție! Sursele nu sunt întotdeauna de aceeași părere (și văd că nici noi cu ele!). DEX și DLRLC nu specifică că varianta cucoș se referă doar la unul din sensuri. Alta e situația la doctor, unde doftor e clar doar pentru sensul 1 și eventual 4 (e vreo diferență între „variantă” și „în forma”?).
    • [cata] Concret, propunerea mea de rezolvare este să folosim simple comentarii pentru pronunții, variante și flexiuni, cel puțin până încep să se adune situațiile.
      • Matei GALL (discuție) 24 decembrie 2016 19:33 (EET) Cred că vor fi destul de multe cazuri. O soluție ar fi să tratăm variantele similar cu sinonimele, antonimele etc.: o rubrică dedicată. Dezavantaj: asta presupune să le păstrăm ca intrări cu arbori goi. Avantajul ar fi că variantele pot primi etichete (ex. [regional], [învechit]), care acum nu pot fi puse decât pe lexem și nu sunt vizibile decât în tabul pentru paradigme.
      • Matei GALL (discuție) 4 februarie 2017 10:56 (EET) Nici pentru sinonime nu avem rezolvare completă. Ex. spițereasă e sinonim cu farmacistă, dar acesta nu există (ca lexem / intrare / arbore), apotecă e sinonim doar cu un sens al lui farmacie etc.

Surse structurate

  • Ce facem cu DER, DE, DAR, DRAM ... și într-o mai mică măsură Scriban și Șăineanu?
    • [cata] Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța.
      • Matei GALL (discuție) Cred că da. Rămân nestructurate și sursele de sinonime / antonime, pentru că nu specifică cărui sens îi corespund respectivele sinonime / antonime.
        • De acord, în cazurile neclare. Sper ca măcar o parte dintre definiții să nu fie prea polisemantice.
  • Ce surse menționăm pe fiecare sens / etimologie ?
    • Matei GALL (discuție) Propun împărțirea surselor în „familii” urmând să menționăm de fiecare dată doar „capul familiei”. Familiile ar fi:
      - DEX'09, care include toate edițiile precedente + DEX-S (dar fără DEXI, care pare să aibă diferențe semnificative);
      - DLRLC cu DLRM, DLRC (aș zice că DLRLC primează);
      - DN cu MDN'00+'08 și NODEX (cam oricare ar putea fi „capul familiei” - propun DN);
      - separat: MDA2 (cu MDA), DCR2, DEXI.
    • O altă abordare ar fi menționarea tuturor surselor (cu păstrarea capului de familie doar la afișare, ca să diminuăm zgomotul). Îngreunează munca de structurare.
    • Mi se pare riscant să menționăm doar familia (de exemplu DEX), căci uneori cuvintele dispar/apar între ediții. Cred că sunt de interes cel puțin prima și ultima atestare. Ai dreptate că munca se îngreunează. Dacă vrem să evităm asta, putem aplica aceste etichete doar pe sensurile care nu sunt „universal” acceptate. Rămâne să definim ce înseamnă „universal”. Cătălin.Frâncu (discuție)
  • Ce surse menționăm la „surse care atestă flexiunea”?
    • [cata] Cred că ar fi prea mult zgomot să le punem pe toate. Mai bine doar acolo unde nu toate dicționarele sunt de acord.
      • Matei GALL (discuție) Da, sursele „normative” (DOOM, DEX, Ortografic, DOR) n-ar trebui menționate.
  • În toate cazurile, sursele structurate (definiție / etimologie / flexiune) se marchează ca atare, chiar dacă nu sunt menționate pe sens / lexem.

Variantă vs Formă principală

  • Diferite dicționare consideră diferite variante ca fiind forma principală (ținterim, țintirim sau ciot, cioată). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, cimitir, respectiv parte rămasă.
    • [cata] Radu se opune unificării arborilor, pentru că se pierd informații istorice.
      • Matei GALL (discuție) Eu nu înțeleg cum vedeți această chestiune, pentru că „varianta” este marcată prin eliminarea bifei „formă principală” de pe lexem. Deci ce facem? Dublăm lexemele ca să avem unul „variantă” menționat de o sursă veche (ex. zbenghi - DEX'98), plus unul „principal” menționat de o sursă mai nouă (DEX'09), la care se adaugă alte două lexeme (benghi) cu proprietatea inversă? Mi se pare absurd. Și ce legătură are cu arborii?
    • [cata] Aș vrea să văd un exemplu concret pentru ciot / cioată / ciotur.

Etichete pe lexeme

Uneori informații ca [învechit] sau [popular] nu stau pe sens, ci pe o anumită formă a cuvântului (ex. zimbi este regionalism moldovenesc pentru zâmbi). Mie mi se pare natural să traducem asta într-o etichetă pe lexem. Cătălin.Frâncu (discuție)

Nerezolvate

Vezi și lista de probleme de pe GitHub.

Atenționare la modificări asupra sensurilor și intrărilor „legate”

  • Matei GALL (discuție) 24 ianuarie 2017 13:19 (EET) Mă refer la sensuri legate prin trimiteri. Atenționarea ar fi necesară, deoarece la spargerea sau ștergerea unui astfel de sens, legătura se pierde sau se mută către un sens incorect.
  • Același fenomen se întâmplă și în cazul intrărilor legate prin sinonimie, antonimie etc.

Definiții noi

  • Matei GALL (discuție) 3 februarie 2017 18:38 (EET) De stabilit procedura pentru definițiile nou introduse (asociate cu intrări structurate).

Etichete

  • Avem etichete ierarhizate.
    • Matei GALL (discuție) Ierarhia e bună pentru o vedere de ansamblu, dar poate duce la dublete ([masculin] poate fi și la [adjectiv] și la [substantiv]). Ar fi bună o modalitate de căutare a unei etichete.
      • Cătălin.Frâncu (discuție) Am deschis tichetul #539. Încă nu știu dacă procedăm corect cu etichetele compuse [substantiv masculin] sau dacă ar fi mai simplu să avem [substantiv], [masculin], [propriu], [articulat]... În al doilea caz, n-am mai avea motive să avem duplicate.
    • Matei GALL (discuție) De acord cu renunțarea la etichete compuse (îngreunează structurarea, dar majoritatea lexemelor sunt etichetate). Nu știu dacă există o soluție pentru afișarea ordonată a etichetelor (avem ordonare manuală, dar la modificări globale, totul se strică; ex. [substantiv masculin și feminin] [admite vocativul] a fost spart în [admite vocativul] [substantiv masculin] și [admite vocativul] [substantiv feminin], cu inversarea etichetelor).

Rezolvate

Subiecte pentru care avem un consens. Unde este de implementat, am deschis tichete pe GitHub. Eventual poate mai sunt principii de scos de aici și de inclus în Ghid, după care putem șterge aceste secțiuni.

Mici variațiuni între definiții

  • Pare că am ajuns la consens privind marcarea diferențelor, cu aplicarea etichetei [diferențiere]. Rămâne de stabilit modalitatea de afișare.
    • Matei GALL (discuție) 16 decembrie 2016 09:28 (EET) Ar fi bine ca în locul etichetei [diferențiere], aceste subsensuri să aibă un „tip” dedicat, similar cu etimologiile și exemplele. S-ar evita astfel să fie numerotate printre celelalte subsensuri „reale”.
      • Am deschis tichetul #540.

S-a înlocuit eticheta cu un tip separat, s-a rezolvat afișarea.

Unificarea intrărilor cu același sens

  • Unde tragem linia la gruparea lexemelor și arborilor în aceeași intrare?
    • [cata] Matei a întâlnit vreo trei tipuri de situații:
      • Variante listate ca atare: ambreiare - ambreiere
      • Variante nelistate ca atare, dar care fac trimitere una la alta bulonaj - bulonare
      • Cuvinte diferite ca formă, dar unde unul trimite la altul (diverse dicționare îl pot adopta pe unul sau pe altul ca referință): celțiu - hafniu
    • Cătălin.Frâncu (discuție) Cred că am ajuns la consensul că în situațiile (1) și (2) avem o singură intrare, iar în situația (3) nu.

Concluzie: Rămân intrări separate în toate situațiile. Doar variantele „pure” (indicate ca atare) se includ în aceeași intrare.

Etichete

  • Când punem etichete și când lăsăm paranteza respectivă?
    • Cred că ar trebui încet-încet să creăm etichete pentru toate parantezele.
    • Paranteza se înlocuiește cu etichetă dacă este la începutul (sub)sensului și se aplică acestuia în totalitate. Dacă se aplică doar parțial, sau este plasată în cuprinsul (sub)sensului, trebuie să rămână.
  • O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.
    2 [tranzitiv] ...
    2.1 ...
    2.2 [reflexiv] ...
    2.3 ...
    • Matei GALL (discuție) Și dacă sensul 2.2 este și tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală [verb] apare pe lexem). Exemplul de mai sus s-ar citi „sensul 2 și subsensurile 2.1, 2.2 și 2.3 sunt tranzitive, iar subsensul 2.2 este tranzitiv și reflexiv”.

Concluzie: O etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală apare pe lexem).

Corespondența între părți de vorbire și modele de flexiune

  • Pe principiul atomic, separăm lexemele muncitor s.m.f. și muncitor adj., gravidă adj.f. și gravidă s.f. etc.? Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate...
    • [cata] Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F.

Concluzie: Rămân lexeme separate, chiar dacă se suprapun. Modelul MF dispare (se sparge).

Pronunție (accentuare / silabisire)

[Tavi] Cred că ar fi folositor să "recuperăm" și această informație și să o adăugăm la structurare. Ex. https://www.collinsdictionary.com/dictionary/english/either

Matei GALL (discuție) Eu am pus în Ghid indicații în acest sens (la Editare lexem). Dacă e nevoie de adăugiri sau reformulare ... aștept sugestii.
Problema e (după cum sublinia Radu) că aceste informații nu sunt vizibile pe pagina cu rezultate, decât pe tabul declinări/conjugări...
Cătălin.Frâncu (discuție) Când am structurat DOR am preluat informațiile de silabisire și pronunție! În prezent avem peste 15.000 de silabisiri (abiologie, abisinian...) și peste 1.400 de pronunții (actiniu, aftershave...). Nu sunt afișate nicăieri public, dar evident putem face ceva în privința asta. Până atunci, le puteți vedea în pagina de căutare a lexemului.

Concluzie: Păstrăm structura actuală (pe lexem), urmând ca afișarea să se rezolve ulterior.

Unificarea lexemelor MF

  • [cata], Matei GALL (discuție) sunt de acord cu unificarea.
    • Matei GALL (discuție) Unificarea presupune să nu avem lexeme separate pentru inginer s.m. și ingineră s.f. (DOOM2), ci un singur lexem inginer s.m. și f.
    • [cata] S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în -iță, cum ne trebuie la sudoriță?
      • Matei GALL (discuție) Nu avem. Le lăsăm ca atare și adăugăm la structurare lexemele respective (la intrarea sudor vom avea și lexemul sudor și lexemul sudoriță; oricare formă căutată va trimite la această intrare).

Concluzie: Lexemele nu trebuie unificate (dimpotrivă). Lexemele și intrările rămân separate, dar arborele poate fi comun.

Unificarea intrărilor din aceeași „familie”

  • Putem grupa lexemele și arborii înrudiți în aceeași intrare?
    • Matei GALL (discuție) Eu zic că e firesc să avem o singură intrare pentru brașovean (s.m.) + brașovean (adj.) + brașoveancă sau copia + copiere + copiat (s.n.) + copiat (adj.).
      • Rămâne de văzut dacă e ok să extindem procedura și pentru sensuri mai ample, ca de ex. intra (vb.) + intrare + intrat (s.n.) + intrat (adj.) (+ variantele).

Concluzie: Nu se grupează lexemele. Se pot grupa arbori cu același sens. Pentru gruparea intrărilor înrudite (familie de cuvinte) se va implementa o procedură separată.

Ortografie, formatare

  • Ce normă ortografică folosim?
    • Matei GALL (discuție) Pentru toate definițiile structurate se folosește ortografia actuală.
    • Matei GALL (discuție) Pentru exemple se folosește ortografia din sursa care dă exemplul.
      • [Radu] Pentru consecvență trebuie folosită ortografia actuală permanent.

Concluzie: Ortografia actuală pentru definiții. Ortografia din sursă pentru exemple care constituie citate din opere sau publicații; pentru celelalte se utilizează ortografia actuală.
Ortografia veche din exemple se va converti automat într-o fază ulterioară.

  • Ce formatare folosim?
    • Matei GALL (discuție) Pentru definiții folosim text normal, pentru exemple folosim litere aplecate (textul) și MAJUSCULE (autorul), pentru etimologii folosim litere îngroșate sau combinații. Vezi exemplificări în ghid.

Abrevieri, simboluri

Matei GALL (discuție) 13 ianuarie 2017 10:36 (EET) Cum includem în structurare abrevierile și simbolurile indicate de anumite surse (de regulă DOOM^2)?

  • Un subsens separat, cu eticheta adecvată [abreviere] / [simbol]; sau
  • Un comentariu (cu eticheta adecvată).

Parcă a doua variantă ar fi mai corectă, acestea nefiind un subsens aparte (am câteva inserate fără etichete, trebuie să le depistez).

Concluzie: Comentariu la final (după etimologie), cu etichetă corespunzătoare.

Etichete pe arbori

Matei GALL (discuție) 12 ianuarie 2017 11:58 (EET) Cred că ar fi util să putem pune etichete direct pe un arbore. Exemple:

  • arbori omonimi, asociați cu același lexem care are etichete multiple: mai (lună) și mai (adv.). Am evita dublarea lexemului (mi se pare absurd să avem un lexem etichetat [adverb] și un altul identic etichetat [substantiv masculin invariabil]) sau necesitatea etichetării fiecărui sens (nu știu dacă eticheta [adverb] e suficient de explicită plasată doar pe primul sens de la mai (adv.)).
  • arbore cu multiple sensuri având o etichetă comună: stropși. Am evita repetarea etichetei [popular] pe toate sensurile.

S-a implementat. Putem pune etichete pe arbori sau pe intrări. Modul de afișare a lor va fi stabilit ulterior.