Discuție:Curățenie prin lexeme

De la dexonline wiki
Sari la navigare Sari la căutare

Nu uitați că vă puteți semna cu ~~~. Puteți insera semnătura + data cu ~~~~.

Lucruri de acoperit:

Lexeme arhaice

Motivație: sunt 10.000 de lexeme asociate cu o singură definiție, din Scriban. Circa 1.700 sunt scrieri cu î în loc de â (răspîntie, constrînge). Altele sunt ortografii vechi de tot felul (comunizm, vîrsnic). Primul impuls a fost să asociem definițiile cu lexemele moderne și să ștergem lexemele arhaice. Totuși, pare că suntem de acord să păstrăm și formele arhaice, că pot fi utile.

Soluții dezbătute:

Câmp pe lexem pentru ultima atestare

Propusă de Cătălin. Are avantajul că poate fi calculat automat, știind anul fiecărui dicționar din care avem definiții. La căutare, putem filtra (tacit) lexemele atestate înainte de anul X (1950, să zicem).

Observație Radu: Nu lexemul are informație temporară, ci fiecare sens
Cred că și la sensuri se poate calcula automat aceeași informație, căci sensurile sunt etichetate cu sursele din care sunt compilate. Cătălin.Frâncu (discuție)

Marcăm lexemele ca variante

Propusă de Cătălin. La căutare, căutăm doar prin formele recomandate.

Dezavantaj: există variante „mai permise” (mănăstire) și variante clar incorecte astăzi (zmîntînă).

Radu: Pînă nu facem lista cu toate cazurile posibile (sau măcar cele care contează) nu cred că are sens să luăm vreo decizie de schimbare.

Adică lista cu lexemele? Sau cu tipurile de situații care apar? Cătălin.Frâncu (discuție)

Matei: Și mie mi se pare mai interesantă ideea (2), care e similară și cu ceea ce vrem să facem la structurare. Am putea apoi să marcăm cumva variantele ieșite din uz (zmântână, înădi), ca să le diferențiem de cele care se mai acceptă (mânăstire), menționate de surse mai noi. Există site-uri care organizează jocuri de cuvinte având ca referință dexonline (ex. scrabble) și e o întreagă discuție dacă să accepte cuvinte de acest fel (mai ales că nici noi nu le-am tratat unitar). Am veni astfel și în ajutorul lor.

Ne creăm propria listă

Propusă de Radu. Oricum vom avea nevoie de lista asta la structurare.

Nu înțeleg ce înseamnă asta; credeam că toată lista de lexeme este „propria listă” (Cătălin.Frâncu).

Tavi: Mi se pare buna ideea lui Radu. De asemenea cred ca e folositor sa nu pierdem aceasta informatie, si numai pentru a permite studiul si consultarea din lucrari vechi, permitind astfel gasirea termenilor si dupa ortografia din acel moment.


Cuvinte străine (din expresii din DE)

Matei: [...] lexemele cuvinte străine, generate la importul expresiilor. Expresiile pot rămâne, dar trebuie asociate cu lexemele românești corespunzătoare traducerii, iar cuvintele străine trebuie eliminate.

De acord, acelea chiar nu au ce căuta într-o listă de cuvinte românești. Dar, pentru ca definițiile să rămână accesibile, trebuie neapărat să facem asocierea cu lexemele românești. Cătălin.Frâncu (discuție)

Nume proprii

Propusă de Radu.

Nu mai bine le păstrăm, dar le etichetăm ca substantive proprii? Le putem exclude din lista de autocompletare, dar, dacă cineva caută explicit Oedip, ar putea fi util. Sau dacă vreodată ne creăm un corector ortografic. Și mai este un argument: definițiile respective ar deveni inaccesibile, ceea ce chiar e păcat. Deci ar fi trei variante până acum:

Ștergere

Veto: Cătălin, Matei

Etichetare cu un model morfologic dedicat

De exemplu, putem crea modelul I100, sau, mai clar, SP100. Inițial modelul va fi invariabil, ca să nu ne apucăm de șapte lucruri deodată (etichetarea numelor proprii e un efort în sine). Cătălin.Frâncu (discuție)

  1. Există modele pentru nume proprii de persoane (invariabile) și pentru altele care pot fi flexionate (ex. unele toponime: Berlinul, Angliei etc.). Există însă și toponime exotice, care probabil nu pot fi flexionate. Trebuie doar parcursă lista și etichetate (eventual adăugate modele noi)...
  2. Ar mai fi de discutat modelul de flexiune pentru cele cu aspect de plural (București, Adunați etc.). Le flexionăm la singular sau la plural (Bucureștiului, Adunațiul, sau Bucureștilor, Adunații)? Poate unele au ambele forme (Iași)... Matei GALL (discuție)

Sistem de etichete (ca la sensuri)

Aici ne interesează eticheta „nume propriu”, dar am mai avea utilizări pentru un astfel de sistem: „ieșit din uz”, „vocabular de bază”. Cătălin.Frâncu (discuție)