Chestiuni de discutat și de rezolvat

De la Dexonline wiki
Jump to navigation Jump to search

Listă de probleme

Cuvântul lunii

  • Matei GALL (discuție): Când se schimbă? Idem pentru Articolul lunii. Poate nu e potrivită titulatura (dacă nu se schimbă lunar)...
    • Cătălin: Nu mai știu exact care e regula, că am tot dezbătut cu Doru și cu Radu. Ar fi mai bine chiar să găsim unul pe lună, dar a doua variantă într-adevăr ar fi să-l redenumim în „cuvântul momentului” sau altceva. În primul caz, pentru ianuarie am putea pune ceva legat de amnistie, superimunitate sau altceva.
    • Radu: Cuvîntul lunii a fost proiectat de mine să fie schimbat lunar, însă a fost la un moment dat o discuție din care s-a ajuns la concluzia că e mai bine să fie actualizat cînd apare un eveniment interesant (adică poate fi și de mai multe ori pe lună, dar și o dată la cîteva luni). Probabil că ar trebui să reluăm discuția și să clarificăm și acest aspect.

Secțiuni pentru surse

  • Matei GALL (discuție): Trebuie mai multe secțiuni: arhaice, ortografice, enciclopedice etc. Reîncadrarea surselor în secțiunea corectă. Văd că „Sinonime” e la „oficial”, pe când celelalte trei (DS, DS5 și Sinonime'82) sunt la „specializat”. N-ar fi rău să existe niște precizări în pagina de editare a suselor.
    • Cătălin: Pentru surse, da, ar fi bine să luăm niște decizii unitare. Cred că Radu are niște criterii, trebuie doar publicate undeva.
  • Matei GALL (discuție): Pe lângă cele referitoare la dicționarele de sinonime, mai am următoarele observații:
    - D. Religios e „neoficial”, deși pare mai degrabă de „specialitate”;
    - DOR e „specializat”, pe când DO, Ortografic DOOM... sunt oficiale;
    - DER e „oficial”, deși pare mai degrabă „specializat” (etimologie);
    - la „specializate” aș include și alte „arhaisme” (pe lângă DRAM): Șăineanu, Scriban, DLRLV etc. Am marca astfel într-un fel că „nu recomandăm utilizarea acestor cuvinte sau forme flexionare”. Sau mai bine să creăm o categorie de surse „arhaice” (la care aș bloca și funcția de semnalare a greșelilor, pentru că aproape toate se referă la ortografierea respectivă)...

Etichetă pe sursă

Sinonime

  • Radu: există sensuri comune pentru sinonime (chiar parțiale) și care trebuie să nu se repete. Avem de dat o singură explicație la cuminecătură, împărtășanie, euharistie și grijanie (în mod cert nu ne dorim să repetăm definiția de 4 ori). Alternativa e să avem o singură dată definiția întreagă, iar restul sinonimelor să refere cuvîntul de bază (de fapt sensul X al cuvîntului de bază). Dar alegerea cuvîntului de bază e cam la discreția moderatorului, ceea ce nu e ok... În ambele cazuri, sensurile ar trebui să fie într-un tabel separat, cu id-uri separate (chiar dacă avem unul numeric, trebuie să existe și unul în cuvinte. de obicei se folosește synsetul).
  • Cătălin: Cât despre sensurile comune: de acord. Eu aveam ursuz / posac / morocănos și altele. Dacă înțeleg bine, tu propui o relație many-to-many între lexeme și sensuri? (În prezent relația este one-to-many). De asemenea, ce facem dacă sinonimia nu este chiar perfectă, dacă numai 4 sensuri din 5 coincid? Poate ar trebui regândită și relația de sinonimie așa cum există acum. Acum doar sensurile, nu și lexemele, pot avea sinonime.

Etichetare temporală

  • Radu: Etichetarea temporală a sensurilor. Cred că, chiar dacă nu avem posibilitatea în acest moment, putem să permitem adăugarea informațiilor despre apariția unui anumit sens (evident, cu o referință către un text sau chiar cu exemplul copiat de acolo). Si dacă avem text, avem și anul. Sigur, anumite sensuri care nu mai sînt folosite pot fi etichetate și cu arhaic.

Surse pentru variante

  • Cătălin: cum indicăm sursele pentru variante? Trebuie să notăm ce surse le consemnează, dar în designul curent nu avem unde (căci variantele nu pot avea sensuri).
    • Matei GALL (discuție): între timp s-a implementat bifa pe lexem pentru variante. Intrările variantelor sunt unificate cu intrarea principală. Varianta poate avea arbore (gol) cu menționarea sursei, dar îmi pare inutil, deoarece varianta e menționată în definiție (deci are aceeași sursă).

Flexiuni multiple doar pentru anumite sensuri

  • Cătălin: (aveți vreun exemplu)? Cred că nu vom avea prea curând suportul software pentru asta. Sună fioros. Le putem specifica explicit în sensuri. Ca să le ținem socoteala, putem folosi o etichetă specială (care poate nici să nu fie afișată utilizatorilor obișnuiți).

Alte tipuri de relații

  • Cătălin: Oricum, voi generaliza sistemul să permită și alte tipuri de relații („scaun” este un fel de „mobilă” etc.).
    • Matei GALL (discuție): pentru cuvinte cu sensuri similare / apropiate / înrudite folosim unificarea într-o singură intrare (cârciumar + cîrciumăriță + cârciumăreasă + variantele).

Comentarii la definiții

  • Matei GALL (discuție): ar fi bine ca rubrica de comentarii să aibă câmpuri multiple, pentru a le putea adăuga separat (să nu se mai "amestece" cum a fost în cazul trilionului).
    • Cătălin: Avem un tichet deschis pentru comentarii multiple: https://github.com/CatalinFrancu/dexonline/issues/384. Radu e împotrivă. Aș fi de acord cu o „distilare”, dar vor fi acele 1% din cazuri când nu cădem de acord. Bine, pe acelea le putem expanda într-un articol (cum am procedat cu milion/bilion).

Ordonarea surselor

  • Matei GALL (discuție): s-a discutat mult pe această temă, dar nu s-a făcut mare lucru.
    • în pagina lexemului apare (acum) „Epitete” pe prima poziție, iar ortograficele (care dau indicații despre flexiune) apar după DEX, DLRLC etc.
    • în pagina intrării ortograficele (inutile) apar înainte de DN, MDN și multe altele cu explicații.
  • Radu: Prezentasem într-o vreme cum am putea să avem alte categorii în locul celor de acum, care par mai mult sau mai puțin trase de păr. Recunosc că am avut un an ceva mai agitat și nu am avut timp să mă ocup prea tare de chestia aia, dar trebuie să facem cumva să împingem definițiile „bune” în sus și, eventual, să le mutăm în altă parte pe cele neimportante.
  • Cătălin: nici eu nu-s mare fan al definițiilor din DOR. Mi se pare că împing conținutul util al paginii în jos pentru majoritatea cuvintelor, pentru care flexiunea este clară. Doar pentru cele cu probleme de flexiune mi se pare util să vezi DOR/DOOM înaintea sensurilor.
    • Am deschis un tichet pentru ascunderea definițiilor identice (mă tot țineam).
      • Radu: Păi chestia asta se întîmplă în mai puțin de 5% din cazuri, așa că nu cred că este o prioritate. În plus, se va aplica doar la căutări generale. Mai bine facem un algoritm ceva mai general care să ascundă definițiile neinteresante (care să includă și pe cele identice).

Definiții cu sursă greșită

  • Matei GALL (discuție): Tavi a introdus multe definiții incomplete, cu surse „neoficial” sau „dexonline” sau greșite. Poate face o verificare și corectează. Ex. karatist, inclus în DOOM, la care Tavi a răspuns „Sursa termenului cu cele patru forme (sg/pl, m/f) este de fapt DO (nu DOOM, am gresit cind am inclus indicatia dictionarului). "Comasarea" lor plus definitia si a etimologia imi apartin. In acest caz, in loc de DOOM, cred ca ar trebui sa transfer intrarea la "neoficiale".”
    • Matei GALL (discuție): Sper să nu mai fie şi altele :-)
      • Tavi: S-ar putea sa mai fie (introduse in aceeasi perioada). Voi face o cautare dupa "DOOM" si "tavi".

Site-uri diferite

  • Cătălin: zice Radu că vrea să creăm, la un moment dat, dictionar.explicativ.ro și dictionar.morfologic.ro. Planuri cu bătaie lungă, știu, dar nu strică.

Dicționare în ownCloud

  • Matei GALL (discuție): în folderul pdf-uri sunt numai 13 fişiere (litere).
    • Radu: Țin minte că le-am pus pe toate, dar ai dreptate, nu sînt toate fișierele! Încerc să le pun din nou.
  • Matei GALL (discuție): DLRC şi DEX'84 au câte un singur fişier, care nu mi se încarcă; or fi prea mari fişierele şi calculatorul meu prea slăbuţ?
    • Radu: Sînt fișiere mari. Vrei să le împart pe litere? (Dar în weekend, cînd oi avea timp)
      • Matei GALL (discuție): Da, fişierele mari ar fi bine să fie împărţite, eu am un calculator prăpădit cu resurse slabe. Nu e grabă, dar când vei avea timp, poate le spargi în bucăţi acceptabile. Ar fi bun şi DLRC dacă vei avea timp să te ocupi. Nu trebuie neapărat pe litere, cred că 4-5 bucăţi ar merge...
  • Matei GALL (discuție): Parcă ziceaţi că aveţi şi alte dicţionare în format digital (MDN); acestea nu pot fi plasate aici ca să le putem accesa?
    • Radu: O să pun aici tot ce am, încetul cu încetul. Recunosc că am făcut o pauză, dar dacă îmi mai zici (semn că folosește cineva !) îl mai aduc la zi!

Abrevieri, simboluri

  • Matei GALL (discuție): Cred că ar trebui să convenim o "politică" în privinţa diferitelor abrevieri, simboluri chimice, sigle etc. Unele apar în surse cuvânt-titlu, altele sunt menţionate doar în explicaţii. Drept urmare unele figurează ca lexem, altele nu (şi nu pot fi găsite la căutare nici măcar bifând "căutare în tot textul"). Eu cred că n-ar fi rău să avem lexem pentru fiecare (asociat cu definiţia în care apare, dacă nu e cuvât-titlu). Pentru asta ar trebui făcută o căutare în baza de date pentru a găsi cuvinte prezente în explicaţii care nu au lexem asociat. Vom găsi în acest fel şi unele forme incorecte (greşeli de tipar) strecurate în definiţii...
    • Radu: Perfect de acord. La final putem avea și un dicționar de abrevieri :) Și, în plus, putem parsa definițiile mai bine. Într-un mod similar ar trebui să procedăm și cu operele citate (există cel puțin în DLRLC). Avem două tipuri de abrevieri:
      - cele ale unui anume dicționar (în principiu cam toate dicționarele au o listă de abrevieri) – p-astea sigur merită să le prelucrăm;
      - restul: putem crea un dicționar de prescurtări pe care să îl construim în timp – aici trebuie discutat, dar sigur nu ne doare să creăm sursa (în cel mai rău caz nu o să punem abrevieri acolo);
      • Cătălin: Am apucat să generez lista de unități de măsură. O includ la sfârșit. Unele trebuie puricate manual, dar în rest pot crea automat lexemele, dacă vi se pare că arată în regulă. Includ la sfârșit și interogarea MySQL folosită, pentru posteritate. [select concat('http://dexonline.ro/definitie/', lexicon), substr(internalRep, locate('#simb.#', internalRep) + length('#simb.# ')) from Definition where status = 0 and sourceId = 19 and internalRep like '%simb.%' and lexicon in (select lexicon from Definition where status = 0 and sourceId = 1 and internalRep like '%unitate%de măsură%') order by lexicon into outfile '/tmp/simboluri.txt';]

Linkuri incorecte

  • Matei GALL (discuție): Funcţia "clic pentru a naviga la acest cuvânt" dă rezultate aproximative în cazul cuvintelor neasociate cu un lexem. E normal să fie aşa. Problema e "supărătoare" - şi cred că poate fi eliminată - în cazul etimologiilor, la cuvintele străine. Poate găsiţi o cale de a dezactiva funcţia în astfel de situaţii (dacă cuvântul e precedat de o abreviere gen "fr.", "lat." etc.). Iată un exemplu: http://dexonline.ro/definitie/fuzet%C4%83/875213 - clic pe fusette duce la musette.
    • Cătălin: Asta e una din problemele pe care n-aș rezolva-o cu cazuri particulare, „dacă ești după abreviere atunci fă asta” etc. Problema va fi rezolvată corect de structurare -- pur și simplu, clicul pe cuvânt nu trebuie să meargă pentru sensurile etichetate „etimologie”.

Flexiuni arhaice

  • Matei GALL (discuție): Referitor la flexiunile arhaice, sunt multe în Scriban (gen înădi, înoi etc.) și au create lexemele respective. Cred că ar trebui asociate cu lexemul modern și șterse formele arhaice.
    • Cătălin: Am apucat să scriu un progrămel care să extragă lexemele asociate doar cu definiții din Scriban. Surpriză! Sunt aproape 10.000. :-) Din acestea, vreo 1.700 sunt scrieri cu „î” în loc de „â”, iar vreo 300 sunt substantive terminate în „-izm” în loc de „-ism”. Pentru restul de 8.000 mă aștept să mai găsim reguli, dar nu-mi sar în ochi. Încerc să rezolv astăzi câteva zeci, ca să-mi fac o idee. Ar fi perfect să creez o pagină cu toate, inclusiv cu aceste situații frecvente, ca să le putem rezolva printr-un singur click. Am creat pagina Curățenie prin lexeme.

Definiții DOR

  • Matei GALL (discuție) Deși sursa pare să aibă multe definiții (vreo 80000 parcă) și cred că sunt preluate toate, văd că gradul de utilizare afișat în pagina de Surse este mic (<5%). Pare ceva în neregulă.
    • Radu: Da, pentru că sursa este ascunsă. O să fixez query-ul, ca să ia în calcul (pentru moderatori) și definițiile ascunse.
  • Matei GALL (discuție): Pe (toate) lexemele etichetate automat din DOR apare eticheta cu sursa, ceea ce e derutant pentru utilizatori, deoarece această sursă e ascunsă. Ar trebui scoasă eticheta.

Ghid pentru structurare

  • Matei GALL (discuție): Idei pentru structurare puteți pune aici: http://goo.gl/y2Lm9M.
    • Radu: OK, Încep să scriu și eu p-acolo.
      • Matei GALL (discuție): Asta era pe 1 feb. 2016!
      • Cătălin: Radule, poate apuci să comentezi și tu pe discuția din wiki. Sau măcar să dai ok-uri unde ești de acord. Sunt multe chestii micuțe unde probabil n-ai obiecții și ar fi bine să le implementăm și să le ștergem din discuție.
        • Matei GALL (discuție): Asta era pe 15 feb., într-un mesaj legat în principal de unificarea lexemelor (intrărilor) inginer + ingineră, viețuitor + viețuitoare etc. Au mai fost și alte mesaje cu discuții despre structurare, nu le mai menționez aici. În general, problemele au fost notate în ghid (discuție); o să încerc să mai fac un pic de ordine și pe acolo...

Vocativ

  • Matei GALL (discuție): mai multe mesaje, fără o concluzie în privința pașilor următori. S-au implementat restricțiile și eticheta pe lexem, dar a rămas de cercetat dacă mai sunt modele de creat, cum depistăm lexemele care admit vocativul etc.

Import, pregătire dicționare

  • Radu: O să am nevoie de încă cineva care să poată face în paralel cu mine partea cea mai complicată, cea editarea definițiilor cîte una pe linie! La unele dicționare merge mai ușor (mai ales cele care au intrarea cu litere aldine sau cu capitale), dar la altele e de lucru. Se oferă cineva? :)
    • Matei GALL (discuție): Sigur, dacă e ceva ce pot face (și îmi permite PC-ul), nu mă dau de-o parte...
    • Cătălin: Hm, eu nu prea m-aș băga...
    • Radu: Deci Matei da, Cătă nu. Tavi?

Prefixe și sufixe

  • Radu: Dacă am ajuns la un consens ca toate numele proprii să înceapă cu capitală, putem ajunge și la consensul ca toate lexemele corespunzătoare prefixelor și sufixelor să aibă cratimă? Că am văzut ambele variante și nu cred că e ok (iar dacă nu au cratima distinctivă poluează lexemele în același mod precum numele proprii)!
    • Matei GALL (discuție): N-am nimic împotriva cratimei, dacă prin cod este eliminată la generarea LOC (o parte sunt incluse în LOC) și la generarea formei formNoAccent (cred că asta e!) folosită la extragerea unor liste de cuvinte (fără diacritice, accent) utilizabile la scrabble sau alte jocuri.
    • Cătălin: Nu zic nu nici eu, pare mai logic. Dar trebuie câteva modificări de implementare:
      - Căutarea să meargă și cu, și fără. De exemplu, acum avem lexemele „hialo” (94430) și „hialo-” (156826), care răspund la căutările „hialo” și „hialo-”. Ar trebui să răspundă ambele la ambele căutări.
      - Similar, o căutare după „alebard” redirectează (corect) la „alebard-”, dar cu eroare, ceea ce e neplăcut.
      - Căutarea de omonime (pe pagina de omonime a lexemului nu raportează perechile cu/fără ca fiind omonime. Chiar dacă uniformizăm lexemele, omonimia rămâne în cazuri ca „mini”, „des” etc.
      Radu, vrei să te ocupi tu de asta? Sau deschidem un tichet, dar eu nu mai țin de mult pasul. :-)
  • Radu: Nu am o problemă să nu folosim cratima dacă le încadrăm la IP și IS (ca să le pot diferenția cînd am nevoie).

Situație financiară (plată articole)

  • Matei GALL (discuție): (după un schimb de mesaje cu Radu) Și dacă tot veni vorba, avem vreo evidență exactă a sumelor cheltuite pentru articole? Cât, cui? Și cine a negociat tarifele pentru compilații / tehnoredactare (că așa scrie în pagina http://wiki.dexonline.ro/wiki/Ofert%C4%83_pentru_lingvi%C8%99ti)?
    • Cătălin: Da, are Radu un document Google. L-am căutat prin drive-ul firmei, dar nu-l găsesc. Poate îl publici undeva, Radu?