Diferență între revizuiri ale paginii „Discuție:Ghid pentru structurare”

De la dexonline wiki
Sari la navigare Sari la căutare
(→‎Etichete pe arbori: secțiune nouă)
Linia 108: Linia 108:
** '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F.
** '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F.
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) De acord.
*** [[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) De acord.
== Etichete pe arbori ==
[[Utilizator:Matei GALL|Matei GALL]] ([[Discuție Utilizator:Matei GALL|discuție]]) 12 ianuarie 2017 11:58 (EET) Cred că ar fi util să putem pune etichete direct pe un arbore. Exemple:
* arbori omonimi, asociați cu același lexem care are etichete multiple: ''mai (lună)'' și ''mai (adv.)''. Am evita dublarea lexemului (mi se pare absurd să avem un lexem etichetat [adverb] și un altul identic etichetat [substantiv masculin invariabil]) sau necesitatea etichetării fiecărui sens (nu știu dacă eticheta [adverb] e suficient de explicită plasată doar pe primul sens de la ''mai (adv.)'').
* arbore cu multiple sensuri având o etichetă comună: ''stropși''. Am evita repetarea etichetei [popular] pe toate sensurile.

Versiunea de la data 12 ianuarie 2017 11:58

Principiu general: atomicitate

[cata] Am vorbit cu Radu și m-a convins să adoptăm un model atomic. Oriunde o etichetă sau proprietate se aplică doar unei părți a arborelui de sensuri, spargem arborele în două. La căutări, încărcăm toți arborii relevanți și îi afișăm.

De aici rezultă schema: o intrare poate fi asociată cu mai mulți arbori și invers. Dacă avem nevoie să asociem o parte dintr-un arbore și cu alte intrări, atunci arborele trebuie spart.

Unificarea lexemelor MF

  • [cata], Matei GALL (discuție) sunt de acord cu unificarea.
    • Matei GALL (discuție) Unificarea presupune să nu avem lexeme separate pentru inginer s.m. și ingineră s.f. (DOOM2), ci un singur lexem inginer s.m. și f.
    • [cata] S-ar putea să nu putem fi riguroși. Avem un model pentru MF care să facă femininul în -iță, cum ne trebuie la sudoriță?
      • Matei GALL (discuție) Nu avem. Le lăsăm ca atare și adăugăm la structurare lexemele respective (la intrarea sudor vom avea și lexemul sudor și lexemul sudoriță; oricare formă căutată va trimite la această intrare).

Variante, pronunții, modelele de flexiune valabile doar pentru anumite sensuri

  • Cum procedăm?
    • [cata] Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
      • Matei GALL (discuție) Doctor - doar sensul DEX-1 are var. doftor.
      • [cata] La pronunție am găsit doar exemplul eu, pronunțat ieu ca pronume, dar eu ca substantiv (concept filozofic).
      • [cata] Exemple care admit vocativul doar pe unul dintre sensuri: frumos, obtuz, cățel (de usturoi), papagal / mops (ca unelte).
        • Matei GALL (discuție) Ar mai fi bucureștean (s.m. vs adj.), brașoveancă (persoană vs ladă, căruță...) etc.
        • Matei GALL (discuție) Pentru valabilitatea vocativului doar pe un sens nu e suficientă aplicarea etichetei?
    • [cata] Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
      • Matei GALL (discuție) 24 decembrie 2016 19:33 (EET) Nu văd cum se rezolvă prin spargerea arborelui. Variantele sunt lexeme asociate cu intrarea, care e asociată cu toți arborii rezultați, deci nu putem asocia o variantă (un lexem) cu un arbore.
    • [cata] Concret, propunerea mea de rezolvare este să folosim simple comentarii pentru pronunții, variante și flexiuni, cel puțin până încep să se adune situațiile.
      • Matei GALL (discuție) 24 decembrie 2016 19:33 (EET) Cred că vor fi destul de multe cazuri. O soluție ar fi să tratăm variantele similar cu sinonimele, antonimele etc.: o rubrică dedicată. Dezavantaj: asta presupune să le păstrăm ca intrări cu arbori goi. Avantajul ar fi că variantele pot primi etichete (ex. [regional], [învechit]), care acum nu pot fi puse decât pe lexem și nu sunt vizibile decât în tabul pentru paradigme.

Surse structurate

  • Ce facem cu DER, DE, DAR, DRAM ... și într-o mai mică măsură Scriban și Șăineanu?
    • [cata] Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța.
      • Matei GALL (discuție) Cred că da. Rămân nestructurate și sursele de sinonime / antonime, pentru că nu specifică cărui sens îi corespund respectivele sinonime / antonime.
        • De acord, în cazurile neclare. Sper ca măcar o parte dintre definiții să nu fie prea polisemantice.
  • Ce surse menționăm pe fiecare sens / etimologie ?
    • Matei GALL (discuție) Propun împărțirea surselor în „familii” urmând să menționăm de fiecare dată doar „capul familiei”. Familiile ar fi:
      - DEX'09, care include toate edițiile precedente + DEX-S (dar fără DEXI, care pare să aibă diferențe semnificative);
      - DLRLC cu DLRM, DLRC (aș zice că DLRLC primează);
      - DN cu MDN'00+'08 și NODEX (cam oricare ar putea fi „capul familiei” - propun DN);
      - separat: MDA2 (cu MDA), DCR2, DEXI.
    • O altă abordare ar fi menționarea tuturor surselor (cu păstrarea capului de familie doar la afișare, ca să diminuăm zgomotul). Îngreunează munca de structurare.
  • Ce surse menționăm la „surse care atestă flexiunea”?
    • [cata] Cred că ar fi prea mult zgomot să le punem pe toate. Mai bine doar acolo unde nu toate dicționarele sunt de acord.
      • Matei GALL (discuție) Da, sursele „normative” (DOOM, DEX, Ortografic, DOR) n-ar trebui menționate.
  • În toate cazurile, sursele structurate (definiție / etimologie / flexiune) se marchează ca atare, chiar dacă nu sunt menționate pe sens / lexem.

Variantă vs Formă principală

  • Diferite dicționare consideră diferite variante ca fiind forma principală (ținterim, țintirim sau ciot, cioată). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, cimitir, respectiv parte rămasă.
    • [cata] Radu se opune unificării arborilor, pentru că se pierd informații istorice.
      • Matei GALL (discuție) Eu nu înțeleg cum vedeți această chestiune, pentru că „varianta” este marcată prin eliminarea bifei „formă principală” de pe lexem. Deci ce facem? Dublăm lexemele ca să avem unul „variantă” menționat de o sursă veche (ex. zbenghi - DEX'98), plus unul „principal” menționat de o sursă mai nouă (DEX'09), la care se adaugă alte două lexeme (benghi) cu proprietatea inversă? Mi se pare absurd. Și ce legătură are cu arborii?
    • [cata] Aș vrea să văd un exemplu concret pentru ciot / cioată / ciotur.

Unificarea intrărilor din aceeași „familie”

  • Putem grupa lexemele și arborii înrudiți în aceeași intrare?
    • Matei GALL (discuție) Eu zic că e firesc să avem o singură intrare pentru brașovean (s.m.) + brașovean (adj.) + brașoveancă sau copia + copiere + copiat (s.n.) + copiat (adj.).
      • Rămâne de văzut dacă e ok să extindem procedura și pentru sensuri mai ample, ca de ex. intra (vb.) + intrare + intrat (s.n.) + intrat (adj.) (+ variantele).

Ortografie, formatare

  • Ce normă ortografică folosim?
    • Matei GALL (discuție) Pentru toate definițiile structurate se folosește ortografia actuală.
    • Matei GALL (discuție) Pentru exemple se folosește ortografia din sursa care dă exemplul.
      • [Radu] Pentru consecvență trebuie folosită ortografia actuală permanent.
  • Ce formatare folosim?
    • Matei GALL (discuție) Pentru definiții folosim text normal, pentru exemple folosim litere aplecate, pentru etimologii folosim litere îngroșate sau combinații. Vezi exemplificări în ghid.

Nerezolvate

Vezi și lista de probleme de pe GitHub.

Rezolvate

Subiecte pentru care avem un consens. Unde este de implementat, am deschis tichete pe GitHub. Eventual poate mai sunt principii de scos de aici și de inclus în Ghid, după care putem șterge aceste secțiuni.

Mici variațiuni între definiții

  • Pare că am ajuns la consens privind marcarea diferențelor, cu aplicarea etichetei [diferențiere]. Rămâne de stabilit modalitatea de afișare.
    • Matei GALL (discuție) 16 decembrie 2016 09:28 (EET) Ar fi bine ca în locul etichetei [diferențiere], aceste subsensuri să aibă un „tip” dedicat, similar cu etimologiile și exemplele. S-ar evita astfel să fie numerotate printre celelalte subsensuri „reale”.
      • Am deschis tichetul #540.

Unificarea intrărilor cu același sens

  • Unde tragem linia la gruparea lexemelor și arborilor în aceeași intrare?
    • [cata] Matei a întâlnit vreo trei tipuri de situații:
      • Variante listate ca atare: ambreiare - ambreiere
      • Variante nelistate ca atare, dar care fac trimitere una la alta bulonaj - bulonare
      • Cuvinte diferite ca formă, dar unde unul trimite la altul (diverse dicționare îl pot adopta pe unul sau pe altul ca referință): celțiu - hafniu
    • Cătălin.Frâncu (discuție) Cred că am ajuns la consensul că în situațiile (1) și (2) avem o singură intrare, iar în situația (3) nu.

Etichete

  • Când punem etichete și când lăsăm paranteza respectivă?
    • Cred că ar trebui încet-încet să creăm etichete pentru toate parantezele.
    • Paranteza se înlocuiește cu etichetă dacă este la începutul (sub)sensului și se aplică acestuia în totalitate. Dacă se aplică doar parțial, sau este plasată în cuprinsul (sub)sensului, trebuie să rămână.
  • Avem etichete ierarhizate.
    • Matei GALL (discuție) Ierarhia e bună pentru o vedere de ansamblu, dar poate duce la dublete ([masculin] poate fi și la [adjectiv] și la [substantiv]). Ar fi bună o modalitate de căutare a unei etichete.
      • Cătălin.Frâncu (discuție) Am deschis tichetul #539. Încă nu știu dacă procedăm corect cu etichetele compuse [substantiv masculin] sau dacă ar fi mai simplu să avem [substantiv], [masculin], [propriu], [articulat]... În al doilea caz, n-am mai avea motive să avem duplicate.
  • O etichetă se aplică tuturor subsensurilor (care nu poartă o altă etichetă). De exemplu, în arborele de mai jos sensurile 2, 2.1 și 2.3 sunt tranzitive, iar 2.2 este reflexiv.
    2 [tranzitiv] ...
    2.1 ...
    2.2 [reflexiv] ...
    2.3 ...
    • Matei GALL (discuție) Și dacă sensul 2.2 este și tranzitiv? Ar fi mai bine să judecâm „global”: o etichetă se aplică tuturor subsensurilor (chiar dacă poartă și o altă etichetă). Iar dacă subsensurile nu au o etichetă comună, sensul nu are niciuna (eticheta generală [verb] apare pe lexem). Exemplul de mai sus s-ar citi „sensul 2 și subsensurile 2.1, 2.2 și 2.3 sunt tranzitive, iar subsensul 2.2 este tranzitiv și reflexiv”.

Corespondența între părți de vorbire și modele de flexiune

  • Pe principiul atomic, separăm lexemele muncitor s.m.f. și muncitor adj., gravidă adj.f. și gravidă s.f. etc.? Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate...
    • [cata] Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F.

Etichete pe arbori

Matei GALL (discuție) 12 ianuarie 2017 11:58 (EET) Cred că ar fi util să putem pune etichete direct pe un arbore. Exemple:

  • arbori omonimi, asociați cu același lexem care are etichete multiple: mai (lună) și mai (adv.). Am evita dublarea lexemului (mi se pare absurd să avem un lexem etichetat [adverb] și un altul identic etichetat [substantiv masculin invariabil]) sau necesitatea etichetării fiecărui sens (nu știu dacă eticheta [adverb] e suficient de explicită plasată doar pe primul sens de la mai (adv.)).
  • arbore cu multiple sensuri având o etichetă comună: stropși. Am evita repetarea etichetei [popular] pe toate sensurile.