Discuție:Curățenie prin lexeme

De la dexonline wiki
Sari la navigare Sari la căutare

Nu uitați că vă puteți semna cu ~~~. Puteți insera semnătura + data cu ~~~~.

Lucruri de acoperit:

Lexeme arhaice

Motivație: sunt 10.000 de lexeme asociate cu o singură definiție, din Scriban. Circa 1.700 sunt scrieri cu î în loc de â (răspîntie, constrînge). Altele sunt ortografii vechi de tot felul (comunizm, vîrsnic). Primul impuls a fost să asociem definițiile cu lexemele moderne și să ștergem lexemele arhaice. Totuși, pare că suntem de acord să păstrăm și formele arhaice, că pot fi utile.

Soluții dezbătute:

Câmp pe lexem pentru ultima atestare

Propusă de Cătălin. Are avantajul că poate fi calculat automat, știind anul fiecărui dicționar din care avem definiții. La căutare, putem filtra (tacit) lexemele atestate înainte de anul X (1950, să zicem).

Observație Radu: Nu lexemul are informație temporară, ci fiecare sens
Cred că și la sensuri se poate calcula automat aceeași informație, căci sensurile sunt etichetate cu sursele din care sunt compilate. Cătălin.Frâncu (discuție)

Marcăm lexemele ca variante

Propusă de Cătălin. La căutare, căutăm doar prin formele recomandate.

Dezavantaj: există variante „mai permise” (mănăstire) și variante clar incorecte astăzi (zmîntînă).

Radu: Pînă nu facem lista cu toate cazurile posibile (sau măcar cele care contează) nu cred că are sens să luăm vreo decizie de schimbare.

Adică lista cu lexemele? Sau cu tipurile de situații care apar? Cătălin.Frâncu (discuție)

Matei: Și mie mi se pare mai interesantă ideea (2), care e similară și cu ceea ce vrem să facem la structurare. Am putea apoi să marcăm cumva variantele ieșite din uz (zmântână, înădi), ca să le diferențiem de cele care se mai acceptă (mânăstire), menționate de surse mai noi. Există site-uri care organizează jocuri de cuvinte având ca referință dexonline (ex. scrabble) și e o întreagă discuție dacă să accepte cuvinte de acest fel (mai ales că nici noi nu le-am tratat unitar). Am veni astfel și în ajutorul lor.

Ne creăm propria listă

Propusă de Radu. Oricum vom avea nevoie de lista asta la structurare.

Nu înțeleg ce înseamnă asta; credeam că toată lista de lexeme este „propria listă” (Cătălin.Frâncu).

Tavi: Mi se pare buna ideea lui Radu. De asemenea cred ca e folositor sa nu pierdem aceasta informatie, si numai pentru a permite studiul si consultarea din lucrari vechi, permitind astfel gasirea termenilor si dupa ortografia din acel moment.


Cuvinte străine (din expresii din DE)

Matei: [...] lexemele cuvinte străine, generate la importul expresiilor. Expresiile pot rămâne, dar trebuie asociate cu lexemele românești corespunzătoare traducerii, iar cuvintele străine trebuie eliminate.

De acord, acelea chiar nu au ce căuta într-o listă de cuvinte românești. Dar, pentru ca definițiile să rămână accesibile, trebuie neapărat să facem asocierea cu lexemele românești. Cătălin.Frâncu (discuție)

Nume proprii

Propusă de Radu.

Nu mai bine le păstrăm, dar le etichetăm ca substantive proprii? Le putem exclude din lista de autocompletare, dar, dacă cineva caută explicit Oedip, ar putea fi util. Sau dacă vreodată ne creăm un corector ortografic. Și mai este un argument: definițiile respective ar deveni inaccesibile, ceea ce chiar e păcat. Deci ar fi trei variante până acum:

Ștergere

Veto: Cătălin, Matei

Etichetare cu un model morfologic dedicat

De exemplu, putem crea modelul I100, sau, mai clar, SP100. Inițial modelul va fi invariabil, ca să nu ne apucăm de șapte lucruri deodată (etichetarea numelor proprii e un efort în sine). Cătălin.Frâncu (discuție)

  1. Există modele pentru nume proprii de persoane (invariabile) și pentru altele care pot fi flexionate (ex. unele toponime: Berlinul, Angliei etc.). Există însă și toponime exotice, care probabil nu pot fi flexionate. Trebuie doar parcursă lista și etichetate (eventual adăugate modele noi)...
  2. Ar mai fi de discutat modelul de flexiune pentru cele cu aspect de plural (București, Adunați etc.). Le flexionăm la singular sau la plural (Bucureștiului, Adunațiul, sau Bucureștilor, Adunații)? Poate unele au ambele forme (Iași)... Matei GALL (discuție)
    • Hm, acesta ar fi un argument bun pentru etichete „nume propriu”. Modelele SP sunt de fapt modele M / F / N cu restricții. Ar fi mai simplu să avem Iași cu modelul M123 și etichetat cu „nume propriu” (pe care chiar îl putem rafina: „oraș”, „râu”, „persoană”). Cătălin.Frâncu (discuție) 26 noiembrie 2015 11:42 (EET)

Propun să asociem toate definițiile referitoare la persoane astfel:

  • Pentru persoane române sau al căror nume de botez este util de avut ca lexem (Mihai, Vasile etc.), folosim două lexeme: numele și prenumele.
  • Pentru persoane străine sau al căror nume de botez nu este util ca lexem în sine, dar care sunt cunoscute și prin numele complet (ex. Michael Jackson), folosim două lexeme: numele de familie (Jackson) și combinația prenume-nume (Michael Jackson).
  • Pentru persoane care sunt arareori descrise prin numele complet (ex. Niels Henrik Abel, matematician), folosim doar un lexem: numele de familie (Abel).

Acestea trebuie create cu un model diferit de T1 (folosim I3 dacă nu avem altul mai clar). Astfel putem avea o evidență a lexemelor încă neprocesate. Cătălin.Frâncu (discuție) 7 decembrie 2015 11:05 (EET)

Convențiile lui Cătălin

Am trecut prin vreo 5.000 de lexeme și am urmat aceste convenții. Sunt multe cazuri mărunte. Sunt de acord cu orice modificări.

  • Scopuri principale:
    • Definițiile să poată fi găsite la căutări.
    • Un corector ortografic construit cu datele noastre să știe și numele proprii frecvente (Mihai, București).
    • Nu facem un scop din a aduna cât mai multe nume proprii. Există enciclopedii specializate pentru aceasta.
  • Majuscule: lexemele proprii trebuie scrise cu majusculă / majuscule / cratime. Întrucât DE scrie tot termenul cu majuscule, recomand Wikipedia pentru edificare.
  • Accent: este util să-l adăugați, dar nu faceți un efort pentru asta. Avem unealta pentru adăugarea asistată a accentelor, care accelerează procesul.
  • Model pentru lexemele proprii: dacă nu știți exact, folosiți I3 pentru nume proprii, I4 pentru termeni străini, I6 pentru abrevieri, simboluri chimice etc. Vom rafina în viitor modelul I3.
  • Model pentru lexemele comune: dacă nu știți exact, lăsați-le T1 și un moderator se va ocupa de ele.
tipul de definiție exemplu lexeme create explicații
persoane române Arghezi, Tudor Arghezi; Tudor lexem pentru numele de familie; lexem pentru numele mic, dacă este rezonabil de des întâlnit
persoane române cu nume mic obscur Mihăescu, Gib Mihăescu lexem doar pentru numele de familie
persoane străine Cauchy, Augustin Louis Cauchy lexem doar pentru numele de familie
persoane străine cunoscute și prin numele complet Jackson, Michael Joseph Jackson; Michael Jackson lexem pentru numele de familie; lexem pentru numele complet
toponimice Brașov Brașov lexem pentru nume
toponimice care au sens și ca cuvânt comun Aliman Aliman (I3); aliman (N1) lexem propriu; lexem comun
toponimice compuse din cuvinte comune Coarnele Caprei
Piatra Mare
Coasta de Azur
corn (N11); capră (F11)
piatră; mare
coastă; azur
lexem pentru fiecare cuvânt comun
toponimice compuse cu cuvinte subordonate Bolintin Deal Bolintin (I3); deal (N24) lexem pentru numele de bază; lexem comun pentru calificativ
toponimice cu determinant Munții Dobrogei Dobrogea (I3); munte (M46) lexem propriu doar pentru numele propriu-zis; lexem comun pentru determinant
toponimice străine Ciudad Bolivar Ciudad Bolivar (I3) lexem pentru numele întreg
nume proprii cu mai multe ortografii Clistene / Cleisthenes Clistene Lexem doar pentru prima formă. Eventual restul formelor vor fi consemnate ca definiții cu trimitere, dacă există.
simboluri chimice Cf Cf (I6) Lexem cu modelul I6, cu literă mare. Se aplică și când există deja un lexem (confer, în acest caz).
substanțe chimice cloruri clorură (F43) DE are obiceiul să le treacă la plural. Dacă există și lexemul la singular, asociați definiția doar cu acela.
specii ascomicete ascomicetă (F43) DE are obiceiul să le treacă la plural. Dacă există și lexemul la singular, asociați definiția doar cu acela.
expresii în limbi străine aquila non capit muscas vultur; prinde; muscă Lexemele corespunzătoare în românește, cu excepția celor de legătură, prepoziții, conjuncții, verbul a fi, unele adverbe etc.

Sistem de etichete (ca la sensuri)

Aici ne interesează eticheta „nume propriu”, dar am mai avea utilizări pentru un astfel de sistem: „ieșit din uz”, „vocabular de bază”. Cătălin.Frâncu (discuție)