Diferență între revizuiri ale paginii „Discuție:Ghid pentru structurare”

fără descrierea modificării
Linia 6: Linia 6:


=== Propuneri de rezolvări ===
=== Propuneri de rezolvări ===
* Corespondența între părți de vorbire și modele de flexiune
** '''[cata]''' Pe principiul atomic, separăm lexemele ''muncitor'' s.m.f și ''muncitor'' adj., ''gravidă'' adj.f. și ''gravidă'' s.f. etc. Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate, dar pare răul cel mai mic.
** Varianta curentă: '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF și A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F. '''[Matei]''' De acord.


* Numerotarea sensurilor, exemplelor și etimologiilor
* Numerotarea sensurilor, exemplelor și etimologiilor
Linia 23: Linia 19:
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
** '''[cata]''' Matei, ai niște exemple pentru fiecare? M-ar ajuta mult.
*** '''[Matei]''' ''Doctor'' - doar sensul DEX-1 are var. ''doftor'' și dim. ''doctoraș''. Cred că s-a rezolvat.
*** '''[Matei]''' ''Doctor'' - doar sensul DEX-1 are var. ''doftor'' și dim. ''doctoraș''. Cred că s-a rezolvat.
*** '''[cata]''' La pronunție am găsit doar exemplul ''eu'', pronunțat ''ieu'' ca pronume, dar ''eu'' ca substantiv (concept filozofic).
*** '''[cata]''' Exemple care admit vocativul doar pe unul dintre sensuri: ''frumos'', ''obtuz'', ''cățel'' (de usturoi), ''papagal / mops'' (ca unelte).
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
** '''[cata]''' Abordarea atomică ar fi să spargem arborele de sensuri astfel încât fiecare arbore rezultat să admită proprietatea pe toate sensurile sale.
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens.
** '''[cata]''' Diminutivele, antonimele și etimologiile deja există la nivel de sens.
** '''[cata]''' La pronunție am găsit doar exemplul ''eu'', pronunțat ''ieu'' ca pronume, dar ''eu'' ca substantiv (concept filozofic). Dacă sunt cazuri rarisime, un comentariu este suficient.
** '''[cata]''' Concret, propunerea mea de rezolvare este să folosim simple comentarii pentru pronunții, variante și flexiuni, cel puțin până încep să se adune situațiile.


* Ce facem cu DER, DE, și într-o mai mică măsură Scriban și Șăineanu.
* Ce facem cu DER, DE, și într-o mai mică măsură Scriban și Șăineanu.
** '''[cata]''' Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța. '''[Matei]''' Cred că da.
** '''[cata]''' Este ok să aștepte până în „versiunea 2”. Dacă structurăm DEX-urile, NODEX, DN, MDN, DLRLC, Ortografic, DOOM2, deja vom fi redus enorm redundanța. '''[Matei]''' Cred că da.
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
** '''[cata]''' Da, ar fi frumos să facem și asta. Mă gândesc cum s-ar face. Cred că ar necesita o bifă explicită „lexem compus”, căci sunt și alte cuvinte cu cratimă care nu necesită asta (''într-adins'' sau altele).
*** '''[Matei]''' Păi astea se încadrează la invariabile, nu văd necesitatea bifei.
**** '''[cata]''' Da, dădeam doar un exemplu că nu tot ce conține bifă trebuie automat tratat ca lexem compus (pot fi și nume proprii etc.).
**** '''[Matei]''' Păi nu tratăm automat. Etichetarea se face manual. Pentru nume proprii avem (creăm) modele. Totul e să putem pune 2 etichete (ex. M1+I, F1+AF1 etc.). Ar mai trebui implementate și 2 restricții: A - numai forme articulate; N - numai forme nearticulate.


Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].
Vezi și [https://github.com/dexonline/dexonline/labels/structurare lista de probleme de pe GitHub].


=== Nerezolvate ===
=== Nerezolvate ===
* Nu e totuși nevoie de o asociere ''many-to-many'' între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?


* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''.
* Diferite dicționare consideră diferite variante ca fiind forma principală (''ținterim, țintirim'' sau ''ciot, cioată''). Dacă le preluăm ca atare, atunci va apărea redundanță la afișare: două definiții care ambele zic, în esență, ''cimitir'', respectiv ''parte rămasă''.
Linia 56: Linia 58:
*** „destinată luptei împotriva obiectivelor de pe mal” [MDN].
*** „destinată luptei împotriva obiectivelor de pe mal” [MDN].
**** '''[Matei]''' Mi se pare ok.
**** '''[Matei]''' Mi se pare ok.
* '''[Matei]''' Flexiune pentru lexemele compuse. Ca profan, nu mi se pare greu. Trebuie detectată prezența cratimei sau a spațiului și creată posibilitatea combinării a două modele de flexiune (unul pentru prima parte și unul pentru ultima parte; lexemele cu mai mult de 2 părți au invariabilă partea din mijloc; invariabilă poate fi și ultima parte; cazul pentru prima parte invariabilă este rezolvat).
** '''[cata]''' Da, ar fi frumos să facem și asta. Mă gândesc cum s-ar face. Cred că ar necesita o bifă explicită „lexem compus”, căci sunt și alte cuvinte cu cratimă care nu necesită asta (''într-adins'' sau altele).
*** '''[Matei]''' Păi astea se încadrează la invariabile, nu văd necesitatea bifei.
**** '''[cata]''' Da, dădeam doar un exemplu că nu tot ce conține bifă trebuie automat tratat ca lexem compus (pot fi și nume proprii etc.).
**** '''[Matei]''' Păi nu tratăm automat. Etichetarea se face manual. Pentru nume proprii avem (creăm) modele. Totul e să putem pune 2 etichete (ex. M1+I, F1+AF1 etc.). Ar mai trebui implementate și 2 restricții: A - numai forme articulate; N - numai forme nearticulate.


== Rezolvate ==
== Rezolvate ==
Linia 124: Linia 120:
</div>
</div>
</div>
</div>
* Corespondența între părți de vorbire și modele de flexiune
** '''[cata]''' Pe principiul atomic, separăm lexemele ''muncitor'' s.m.f și ''muncitor'' adj., ''gravidă'' adj.f. și ''gravidă'' s.f. etc. Fiecare lexem are arborele lui de sensuri. Asta va genera forme flexionare duplicate, dar pare răul cel mai mic.
** Varianta curentă: '''[cata]''' Propun ca partea / părțile de vorbire să fie etichete pe fiecare sens, ca mai sus. Modelul de flexiune va servi doar ca să arate lista de forme generate, nu și partea de vorbire. Asta va rezolva cazurile ca MF + A (ar fi aberant să avem două modele de flexiune practic identice) sau „gravidă” care este adjectiv, dar încadrat la F. '''[Matei]''' De acord.
* Variante cu registru de folosire. Ex. {{d|ciot}} are variantele (popular) ''cioată'', (rar) ''ciotur''.
** '''[cata]''' Etichetele să se poată aplica și pe lexem, nu doar pe sensuri.


=== Altele ===
=== Altele ===
Linia 129: Linia 132:
* Punem absolut toate sursele la „surse care atestă flexiunea”?
* Punem absolut toate sursele la „surse care atestă flexiunea”?
** '''[cata]''' Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord. '''[Matei]''' Da, sursele „normative” (DOOM, DEX, Ortografic) n-ar trebui menționate.
** '''[cata]''' Cred că ar fi prea mult zgomot. Mai bine doar acolo unde nu toate dicționarele sunt de acord. '''[Matei]''' Da, sursele „normative” (DOOM, DEX, Ortografic) n-ar trebui menționate.
* Lexemele omonime, sensurile (și subsensurile) ar trebui numerotate, altfel trimiterile dintr-o definiție nu mai au sens. V. aalenian. De stabilit modul de numerotare pentru diferitele paliere.
* Lexemele omonime, sensurile (și subsensurile) ar trebui numerotate, altfel trimiterile dintr-o definiție nu mai au sens. V. aalenian. De stabilit modul de numerotare pentru diferitele paliere.
** Asta creează probleme când trimiterea e la un alt lexem.
** Asta creează probleme când trimiterea e la un alt lexem.
** '''[cata]''' Despre ce paliere este vorba? Avem suport pentru numerotare, cred că această bulină este rezolvată.
** '''[cata]''' Despre ce paliere este vorba? Avem suport pentru numerotare, cred că această bulină este rezolvată.
*** '''[Matei]''' Nu chiar. Sistemul funcționează doar dacă lexemul la care se face trimitere a fost structurat. Altfel după paranteza pătrată nu apare nimic...
*** '''[Matei]''' Nu chiar. Sistemul funcționează doar dacă lexemul la care se face trimitere a fost structurat. Altfel după paranteza pătrată nu apare nimic...
* Forme de bază multiple
* Forme de bază multiple
** '''[cata]''' Se rezolvă prin faptul că mai multe lexeme pot fi asociate cu același arbore de sensuri. Asta include și variantele de accent (''agríș / ágriș'').
** '''[cata]''' Se rezolvă prin faptul că mai multe lexeme pot fi asociate cu același arbore de sensuri. Asta include și variantele de accent (''agríș / ágriș'').
* Variante cu registru de folosire. Ex. {{d|ciot}} are variantele (popular) ''cioată'', (rar) ''ciotur''.
 
** '''[cata]''' Etichetele să se poată aplica și pe lexem, nu doar pe sensuri.
* Nu e totuși nevoie de o asociere ''many-to-many'' între lexeme și arbori de sensuri? Mai exact, nu e niciodată nevoie ca un lexem să fie asociat cu mai mulți arbori?
** '''[cata]''' Rezolvat, am introdus o tabelă ''Entry''.