Diferență între revizuiri ale paginii „Discuție:Curățenie prin lexeme”

De la dexonline wiki
Sari la navigare Sari la căutare
Linia 80: Linia 80:
* Persoane române: lexem pentru numele de familie; lexem pentru numele mic, dacă este rezonabil de des întâlnit (nu vrem un lexem pentru Eutichie).
* Persoane române: lexem pentru numele de familie; lexem pentru numele mic, dacă este rezonabil de des întâlnit (nu vrem un lexem pentru Eutichie).
* Persoane străine: lexem pentru numele de familie.
* Persoane străine: lexem pentru numele de familie.
** Persoane străine al căror nume de botez nu este util ca lexem în sine, dar care sunt cunoscute și prin numele complet (Michael Jackson): lexem pentru numele de familie (Jackson) și lexem pentru combinația prenume-nume (Michael Jackson). Ideea este că cineva poate căuta „Michael Jackson” sau doar „Jackson”.
* Toponimice: lexem pentru nume
* Toponimice: lexem pentru nume
** Toponimice compuse: în situații ca Icsuleștii de Jos, lexemul Icsulești și lexemul (comun) jos. La fel și pentru Bolintin Deal / Vale, Piatra Mare etc.
** Toponimice compuse: în situații ca Icsuleștii de Jos, lexemul Icsulești și lexemul (comun) jos. La fel și pentru Bolintin Deal / Vale, Piatra Mare etc.

Versiunea de la data 4 ianuarie 2016 13:16

Nu uitați că vă puteți semna cu ~~~. Puteți insera semnătura + data cu ~~~~.

Lucruri de acoperit:

Lexeme arhaice

Motivație: sunt 10.000 de lexeme asociate cu o singură definiție, din Scriban. Circa 1.700 sunt scrieri cu î în loc de â (răspîntie, constrînge). Altele sunt ortografii vechi de tot felul (comunizm, vîrsnic). Primul impuls a fost să asociem definițiile cu lexemele moderne și să ștergem lexemele arhaice. Totuși, pare că suntem de acord să păstrăm și formele arhaice, că pot fi utile.

Soluții dezbătute:

Câmp pe lexem pentru ultima atestare

Propusă de Cătălin. Are avantajul că poate fi calculat automat, știind anul fiecărui dicționar din care avem definiții. La căutare, putem filtra (tacit) lexemele atestate înainte de anul X (1950, să zicem).

Observație Radu: Nu lexemul are informație temporară, ci fiecare sens
Cred că și la sensuri se poate calcula automat aceeași informație, căci sensurile sunt etichetate cu sursele din care sunt compilate. Cătălin.Frâncu (discuție)

Marcăm lexemele ca variante

Propusă de Cătălin. La căutare, căutăm doar prin formele recomandate.

Dezavantaj: există variante „mai permise” (mănăstire) și variante clar incorecte astăzi (zmîntînă).

Radu: Pînă nu facem lista cu toate cazurile posibile (sau măcar cele care contează) nu cred că are sens să luăm vreo decizie de schimbare.

Adică lista cu lexemele? Sau cu tipurile de situații care apar? Cătălin.Frâncu (discuție)

Matei: Și mie mi se pare mai interesantă ideea (2), care e similară și cu ceea ce vrem să facem la structurare. Am putea apoi să marcăm cumva variantele ieșite din uz (zmântână, înădi), ca să le diferențiem de cele care se mai acceptă (mânăstire), menționate de surse mai noi. Există site-uri care organizează jocuri de cuvinte având ca referință dexonline (ex. scrabble) și e o întreagă discuție dacă să accepte cuvinte de acest fel (mai ales că nici noi nu le-am tratat unitar). Am veni astfel și în ajutorul lor.

Ne creăm propria listă

Propusă de Radu. Oricum vom avea nevoie de lista asta la structurare.

Nu înțeleg ce înseamnă asta; credeam că toată lista de lexeme este „propria listă” (Cătălin.Frâncu).

Tavi: Mi se pare buna ideea lui Radu. De asemenea cred ca e folositor sa nu pierdem aceasta informatie, si numai pentru a permite studiul si consultarea din lucrari vechi, permitind astfel gasirea termenilor si dupa ortografia din acel moment.


Cuvinte străine (din expresii din DE)

Matei: [...] lexemele cuvinte străine, generate la importul expresiilor. Expresiile pot rămâne, dar trebuie asociate cu lexemele românești corespunzătoare traducerii, iar cuvintele străine trebuie eliminate.

De acord, acelea chiar nu au ce căuta într-o listă de cuvinte românești. Dar, pentru ca definițiile să rămână accesibile, trebuie neapărat să facem asocierea cu lexemele românești. Cătălin.Frâncu (discuție)

Nume proprii

Propusă de Radu.

Nu mai bine le păstrăm, dar le etichetăm ca substantive proprii? Le putem exclude din lista de autocompletare, dar, dacă cineva caută explicit Oedip, ar putea fi util. Sau dacă vreodată ne creăm un corector ortografic. Și mai este un argument: definițiile respective ar deveni inaccesibile, ceea ce chiar e păcat. Deci ar fi trei variante până acum:

Ștergere

Veto: Cătălin, Matei

Etichetare cu un model morfologic dedicat

De exemplu, putem crea modelul I100, sau, mai clar, SP100. Inițial modelul va fi invariabil, ca să nu ne apucăm de șapte lucruri deodată (etichetarea numelor proprii e un efort în sine). Cătălin.Frâncu (discuție)

  1. Există modele pentru nume proprii de persoane (invariabile) și pentru altele care pot fi flexionate (ex. unele toponime: Berlinul, Angliei etc.). Există însă și toponime exotice, care probabil nu pot fi flexionate. Trebuie doar parcursă lista și etichetate (eventual adăugate modele noi)...
  2. Ar mai fi de discutat modelul de flexiune pentru cele cu aspect de plural (București, Adunați etc.). Le flexionăm la singular sau la plural (Bucureștiului, Adunațiul, sau Bucureștilor, Adunații)? Poate unele au ambele forme (Iași)... Matei GALL (discuție)
    • Hm, acesta ar fi un argument bun pentru etichete „nume propriu”. Modelele SP sunt de fapt modele M / F / N cu restricții. Ar fi mai simplu să avem Iași cu modelul M123 și etichetat cu „nume propriu” (pe care chiar îl putem rafina: „oraș”, „râu”, „persoană”). Cătălin.Frâncu (discuție) 26 noiembrie 2015 11:42 (EET)

Propun să asociem toate definițiile referitoare la persoane astfel:

  • Pentru persoane române sau al căror nume de botez este util de avut ca lexem (Mihai, Vasile etc.), folosim două lexeme: numele și prenumele.
  • Pentru persoane străine sau al căror nume de botez nu este util ca lexem în sine, dar care sunt cunoscute și prin numele complet (ex. Michael Jackson), folosim două lexeme: numele de familie (Jackson) și combinația prenume-nume (Michael Jackson).
  • Pentru persoane care sunt arareori descrise prin numele complet (ex. Niels Henrik Abel, matematician), folosim doar un lexem: numele de familie (Abel).

Acestea trebuie create cu un model diferit de T1 (folosim I3 dacă nu avem altul mai clar). Astfel putem avea o evidență a lexemelor încă neprocesate. Cătălin.Frâncu (discuție) 7 decembrie 2015 11:05 (EET)

Convențiile lui Cătălin

Am trecut prin vreo 5.000 de lexeme și am urmat aceste convenții. Sunt multe cazuri mărunte. Sunt de acord cu orice modificări.

  • Nume proprii: lexemul trebuie scris cu majusculă / majuscule / cratime. Întrucât DE scrie tot termenul cu majuscule, recomand Wikipedia pentru orientare.
  • Accent: este util să-l adăugați, dar nu faceți un efort pentru asta. Avem unealta pentru adăugarea asistată a accentelor, care accelerează procesul
  • Model: dacă nu știți exact, folosiți I3 pentru nume proprii, I4 pentru termeni străini, I6 pentru abrevieri, simboluri chimice etc. Dacă întâlniți substantive / adjective cu modelul T1 și nu știți ce model li se potrivește, lăsați-le T1.
    • La final, cineva competent va trece prin lexemele rămase cu T1. Cândva în viitor putem rafina modelul I3.
  • Persoane române: lexem pentru numele de familie; lexem pentru numele mic, dacă este rezonabil de des întâlnit (nu vrem un lexem pentru Eutichie).
  • Persoane străine: lexem pentru numele de familie.
    • Persoane străine al căror nume de botez nu este util ca lexem în sine, dar care sunt cunoscute și prin numele complet (Michael Jackson): lexem pentru numele de familie (Jackson) și lexem pentru combinația prenume-nume (Michael Jackson). Ideea este că cineva poate căuta „Michael Jackson” sau doar „Jackson”.
  • Toponimice: lexem pentru nume
    • Toponimice compuse: în situații ca Icsuleștii de Jos, lexemul Icsulești și lexemul (comun) jos. La fel și pentru Bolintin Deal / Vale, Piatra Mare etc.
    • Când toponimicul are sens și ca substantiv comun (Stâna de Vale, Piatra Mare), propun asocierea și cu substantivul comun (nu am fost însă consecvent).
    • Când toponimicul are mai multe cuvinte, dar fără sens individual (Csik-Szereda), creăm un singur lexem pentru toată denumirea.
    • Toponimice străine: lexem pentru numele întreg.
  • Simboluri chimice: lexem separat cu modelul I6, notat cu literă mare (C - carbon, N - azot) sau literă mare + literă mică (Ca - calciu). Facem asta și când există deja un lexem (Cf - californium, dar și confer)
  • Substanțe chimice: DE are obiceiul să le treacă la plural uneori. Dacă avem definit și lexemul la singular, asociați definiția doar cu acela.
  • Expresii în limbi străine: asociați-le cu cuvintele traduse în românește.

Sistem de etichete (ca la sensuri)

Aici ne interesează eticheta „nume propriu”, dar am mai avea utilizări pentru un astfel de sistem: „ieșit din uz”, „vocabular de bază”. Cătălin.Frâncu (discuție)