Manifestul dexonline

De la dexonline wiki
Versiunea din 22 iunie 2024 02:20, autor: Radu Borza (discuție | contribuții)
(dif) ← Versiunea anterioară | Versiunea curentă (dif) | Versiunea următoare → (dif)
Sari la navigare Sari la căutare

Preambul

Dacă statisticile înseamnă ceva, dexonline este, în prezent, un site util. El este vizitat lunar de peste 5.000.000 de vizitatori „unici” care fac circa 30.000.000 de căutări[1].

Nu am ajuns aici pe drumul optim. Ar fi o nebunie să susținem că am făcut totul perfect din prima zi. Am fi putut ajunge unde suntem mult mai repede, am putea avea un site mai rapid, am fi putut economisi o bună parte din volumul de muncă manuală pe care am depus-o, am fi putut strânge mai multe fonduri, am putea avea mai multe dicționare. Mai ales, există cu siguranță oameni și foruri care ar putea face o treabă mai bună decât facem noi.

Dar realitatea vieții este că adesea cel care concretizează un proiect nu este savantul care l-a studiat toată viața; nu este inginerul care știe să dimensioneze perfect sistemul; nu este afaceristul care investește bani; nu este altruistul care ține morțiș să lase ceva în urmă; și nu este vizionarul care anticipează impactul social al acelui proiect.

Cel care concretizează un proiect este cel care, până la urmă, se apucă de treabă. Este cel care nu așteaptă la infinit ca experții să-și delege unul altuia responsabilitatea, nici nu încearcă la nesfârșit să proiecteze soluția perfectă. Așa am fost noi. Nu pretindem să fim experți în domeniile de mai sus, dar avem câte puțin din fiecare (din unele chiar mai mult) și, în plus, am fost primii care am spus „eu chiar aș putea să fac asta”.

dexonline nu este perfect, dar a răspuns și răspunde unei nevoi stringente, pe care nimeni altcineva nu a satisfăcut-o practic. Publicul cere un dicționar cu o prezență activă pe Internet și noi, deși probabil nu suntem cei mai potriviți, răspundem acestei cerințe.

De aici decurge modul în care ne achităm de diverse sarcini.

Rolul pe care ni-l asumăm

În primul rând, noi suntem paznicii, nu autorii, acestor definiții. Le-am preluat textual din diverse surse, dar simțim că nu avem autoritatea de a le modifica. Putem face adnotări pe marginea lor, dar atât. Primim destul de des e-mailuri critice care ne acuză că nu avem o definiție bună pentru cutare sau cutare cuvânt. Noi suntem mai mult ingineri decât lingviști. Abordarea noastră este să căutăm dicționare noi care să explice mai bine anumiți termeni. Ar fi util ca undeva pe Internet să existe un dicționar perfect întreținut de lingviști; sperăm ca, până atunci, dexonline să vă servească acceptabil.

În al doilea rând, noi știm că lumea are așteptări de la noi. Suntem adesea trași la răspundere pentru definiții controversate, cum ar fi teflon, baptism sau homosexualitate. Suntem și consultați pe probleme de exprimare. Primim zeci de mesaje pe lună, dintre care unele ne întreabă cum se scrie sau cum se pronunță corect o expresie. Încercăm să răspundem la fiecare din aceste mesaje, iar pentru unele petrecem câteva ore citind și discutând între noi. Cu timpul, colectivul nostru de voluntari a ajuns să includă și oameni cu doctorate în filologie. Dar chiar și așa nu avem toate răspunsurile.

În al treilea rând, noi nu avem șef. Și cel mai mare avantaj în a nu avea șef este că nimeni nu îți poate dicta ce să faci. Frontiera proiectului, lista de lucruri pe care le avem de făcut, este vastă și este în creștere. Când finalizăm un sub-proiect, fie el tehnic sau de gestiune a datelor, de obicei el ne deschide posibilități pentru alte trei, asemenea Hidrei din Lerna. Noi încercăm să lucrăm la sub-proiecte pe care publicul le cere, pentru că în definitiv pentru public facem întregul demers. Dar se va întâmpla, și vă cerem să nu ne judecați, ca unele lucruri să rămână neimplementate cu anii. Suntem pasionați, dar nu ne este străină nici lenea, nici repulsia. Un bun exemplu este cuvântul zilei, o funcție pe care lumea a solicitat-o timp de peste cinci ani până a fost implementată.

Bază de date liberă

Porțiuni mari din baza de date a dexonline sunt oferite sub Licența Publică Generală GNU (GNU GPL). Orice program sau document emis sub această licență se numește liber. Prin aceasta, înțelegem că licența GNU GPL vă oferă vouă, ca utilizatori ai bazei noastre de date, unele libertăți fundamentale:

  1. libertatea de a folosi această bază de date în orice fel găsiți de cuviință;
  2. libertatea de a studia baza de date și de a o modifica pentru a vă servi mai bine;
  3. libertatea de a distribui cópii și altor oameni;
  4. libertatea de a publica versiuni modificate ale acestei baze de date.

Am ajuns la concluzia că GNU GPL este singura licență admisibilă pentru baza noastră de date din nenumărate motive.

Primul motiv este spiritul civic. După cunoștințele noastre, dexonline deține de departe cel mai amplu set de definiții din limba română în format digital, cu excepția unor seturi care par iremediabil pierdute pentru publicul larg (vezi secțiunea Limba română, resursă publică). Să ne permitem să îngrădim accesul la această bază de date ar fi o barbarie.

Al doilea motiv este protejarea documentului. „Protejare” în adevăratul sens al cuvântului, nu în sensul fățarnic pe care îl au în vedere cei care spun „acest document este protejat de copyright”. Protejezi cu adevărat un document nu atunci când restricționezi copierea lui, ci dimpotrivă, atunci când încurajezi și facilitezi diseminarea lui (vezi secțiunea Exemple. Lista Oficială de Cuvinte pentru un exemplu).

Al treilea motiv este întrajutorarea. Când nu faci pe polițistul, ci lași oamenii să folosească un produs în orice fel cred ei de cuviință, vei avea plăcuta surpriză că o parte din oameni au capacitatea și plăcerea să îmbunătățească produsul tău și, cel mai adesea, aleg să îți ofere și ție îmbunătățirile lor, astfel că toată lumea câștigă.

Al patrulea motiv este perpetuarea libertății. Licența GNU GPL spune că, dacă alegeți să redistribuiți documentul, el trebuie redistribuit tot sub licența GPL sau una compatibilă. Cu alte cuvinte, licența GPL garantează că orice versiuni modificate ale documentului vor continua să respecte cele patru libertăți fundamentale ale utilizatorilor.

Al cincilea motiv este prevenirea apariției unei piețe negre pentru baza de definiții. Până în anul 2004, când am elucidat aceste nelămuriri și am ales o licență liberă pentru distribuire, ne confruntam tot timpul cu încercări ale oamenilor de a face rost de o copie a bazei de date. De multe ori, serverul a fost suprasolicitat pentru că cineva scrisese un program care să descarce sistematic toate paginile cu definiții. Am înțeles dorința oamenilor de a copia baza de date și am preferat să facem din copiere un aliat al nostru, nu un dușman.

Al șaselea motiv este recunoștința. Noi înșine am făcut acest proiect folosind exclusiv tehnologii libere (în principal sistemul de operare GNU/Linux, serverul web Apache HTTP, serverul de baze de date MySQL și limbajul de programare PHP). Am primit donații pentru finanțarea puținelor cheltuieli pe care le-am avut. Am simțit că recunoștința umană ne obligă să înapoiem binele primit.

În limba engleză, exprimări ca „free software” sau „free document” sunt inerent ambigue, deoarece „free” are două sensuri: „liber”, dar și „gratuit”. Mulți vorbitori de engleză confundă cele două sensuri și consideră că „free software” înseamnă numai „software gratuit”. Din fericire, în română nu există acest raport de omonimie. Când spunem „document liber”, ne referim în mod inechivoc la dorința noastră ca voi să aveți libertatea de a folosi baza noastră de date în orice scop.

Limba română, resursă publică (?)

Considerăm că, în tot ceea ce fac, oamenii trebuie să ia decizii de ordin moral. Nu este bine să te eschivezi, să spui „nu știu, eu doar lucrez aici, dar sincer nu mă interesează implicațiile etice a ceea ce fac”. Această atitudine amorală este, în fapt, o atitudine imorală, pentru că indiferența este rădăcina multor rele pe lume.

Acest lucru este în special adevărat pentru oamenii care creează, care se uită în jurul lor, văd o lipsă și au capacitatea să o suplinească. Acești oameni sunt extraordinar de rari și de prețioși, deoarece sunt la o intersecție unică de talent înnăscut, educație, experiență și hărnicie pe care alți oameni nu o au.

Când niște oameni ca aceștia produc obiecte sau lucrări de valoare, dar apoi le este indiferent ce se întâmplă cu aceste lucrări și cât de limitat este accesul la ele, este un lucru trist. Când lucrările în cauză sunt documente de o valoare monumentală pentru limba și cultura română, este de-a dreptul o tragedie.

Exact acest lucru se întâmplă cu DEX-ul și cu multe alte opere de referință. Ele sunt produse cu bani publici, dar drepturile de copiere asupra lor sunt cedate, în exclusivitate, unor edituri particulare. Acest fenomen a fost posibil datorită unei atitudini amorale a cercetătorilor Institutului de Lingvistică: „uite, noi am lucrat la acest document, ne-am primit salariile pentru el, dar sincer nu ne interesează ce se întâmplă cu el”.

Academia Română este finanțată în proporție de peste 70% de la bugetul de stat și din fonduri externe nerambursabile[2]. În aceste condiții, considerăm firesc ca DEX și orice alte roade ale cercetării Academiei să intre direct în domeniul public, nicidecum ca drepturile de copiere să fie cedate, în exclusivitate, unei edituri comerciale. Aceasta cu atât mai mult cu cât Academia Română are și propria sa editură, Editura Academiei Române, finanțată tot de la bugetul de stat[3].

Situația Academiei Române și a cercetătorilor săi este una duală, de stăpân și de supus. Ei sunt conducătorii unei generații, cele mai luminate capete în viață ale României, iar cuvântul lor are greutate de lege (literalmente: încercați să dați examenul de bacalaureat fără să vă conformați ultimelor norme ortografice). În același timp însă, ei sunt asemenea compozitorilor de curte: produc opere la cerere, dar nu pentru un împărat, ci pentru o societate care le cere acest lucru și se bazează pe roadele muncii lor. Din acest punct de vedere, se cuvine ca nimeni să nu aibă dreptul de a restricționa copierea lucrărilor rezultate. Ele aparțin societății și domeniul public este singurul loc unde pot fi puse. De altfel, conform legii dreptului de autor (cap. III, art. 9, lit. b și f) textele normative nu pot beneficia de protecția dreptului de autor, așadar, luând exemplul DOOM2, fie acesta nu reprezintă o normă, fie trebuie să aparțină domeniului public.

DEX-ul nu este un caz singular. Aceleași limitări drastice sunt impuse și asupra Dicționarului tezaur al limbii române, o operă titanică pe lângă care DEX-ul pălește (circa 15.000 de pagini). Această lucrare este acum în curs de digitizare prin finanțarea Ministerului Educației, Cercetării și Tineretului (așadar, prin fonduri publice). Totuși, nu se știe încă ce drepturi de copiere vor exista asupra formei digitale rezultate, iar autorii și echipa de digitizare nu militează pentru un rezultat public. Cel mai trist este că, pentru accelerarea digitizării, se face apel la contribuții voluntare pentru compararea originalului cu forma digitală. Acești voluntari muncesc cu bună credință, dar se pare că nu se vor bucura de roadele muncii lor[4].

Sic vos non vobis nidificatis aves;
Sic vos non vobis villera fertis, oves;
Sic vos non vobis mellificatis apes;
Sic vos non vobis fertis aratra boves.
  
Astfel voi, dar nu pentru voi, clădiți cuiburi, păsărilor;
Astfel voi, dar nu pentru voi, purtați lână, oilor;
Astfel voi, dar nu pentru voi, faceți miere, albinelor;
Astfel voi, dar nu pentru voi, trageți plugul, boilor.

Privind în afara cadrului lingvistic, în aceeași situație se află și codul de legi, arhiva Monitorului Oficial, jurisprudența, tezaurul muzical, literar și al altor arte. Din interesele diverselor grupuri, și cu înlesnirea unui spirit civic adormit, am ajuns să avem acces limitat la înseși valorile culturale și sociale care ne definesc ca națiune.

Legi, etică și tehnologie

Considerăm că cruciada dusă, la nivel internațional, împotriva copierii de orice fel va avea efecte devastatoare pe termen lung asupra diseminării informației și asupra progresului intelectual.

Legile trebuie să se conformeze eticii și nu invers. La rândul ei, etica trebuie să încorporeze progresul tehnologic. Noile posibilități deschise de progresul tehnologic, în special în domeniul informaticii, trebuie dezbătute de întreaga societate pentru a decide ce este și ce nu este acceptabil din punct de vedere moral. În loc de aceasta, noi ne încăpățânăm să interzicem tehnologii fascinante pentru că nu se mulează peste niște noțiuni învechite de proprietate și de drepturi de autor.

Suntem în fața unei campanii mincinoase duse de grupuri care au interesul financiar să păstreze statu-quoul. Un exemplu elocvent este propaganda pentru încetățenirea unor termeni falși:

  • Proprietate intelectuală -- Folosirea acestui termen evită exact dezbaterea amintită mai sus și induce ideea greșită că am răspuns deja la întrebarea dacă un document este „proprietate” sau nu. Acest termen nu are niciun sens, ci acoperă o gamă largă de concepte foarte diferite: drepturi de copiere, patente, mărci înregistrate etc. În plus, el conduce mintea ascultătorului spre noțiuni de proprietate fizică neaplicabile unor bunuri digitale.
  • Piraterie -- Copierea unui document este echivalată cu parșivenie cu atacarea unei nave și omorârea oamenilor.
  • Operă protejată -- Drepturile de copiere nu protejează o operă. A proteja înseamnă a feri de daune sau de distrugere. O operă nu este distrusă dacă se fac mai multe copii ale ei; chiar dimpotrivă.

Toate aceste cuvinte sunt folosite cu tentă, pentru a păcăli ascultătorul neatent și a-l determina să susțină tabăra greșită. Aceasta este exact definiția propagandei.

Noțiunea de proprietate în lumea digitală este fundamental diferită de noțiunea de proprietate în lumea fizică. În lumea fizică, dacă eu îi iau un obiect cuiva, acela nu îl mai are. În lumea digitală, dacă eu fac o copie după documentul cuiva, amândoi avem câte o copie perfectă, iar originalul este neafectat. Din această cauză, copierea digitală trebuie judecată de la zero, pe baze etice complet noi, nu respinsă a priori printr-o analogie simplistă și nejustificată cu furtul fizic.

Dorim să încurajăm autoritățile române cu putere de decizie în aceste privințe să nu se alinieze orbește și cu umilință la această campanie internațională; cel puțin, nu înainte de a se consulta cu societatea română care le-a acordat privilegiul de a veghea la bunăstarea ei.

Relația cu Institutul de Lingvistică al Academiei Române

Cu tristețe subliniem că nu a existat niciodată o colaborare în adevăratul sens al cuvântului între Institutul de Lingvistică și dexonline. Au existat conversații ocazionale și o îngăduință din partea Institutului de Lingvistică pentru care suntem recunoscători, dar atât.

Și este mare păcat. În primii ani ai proiectului, noi ne-am fi asumat cu bucurie rolul de simpli „transcriitori” și am fi înmânat întregul site Institutului de Lingvistică odată ce DEX-ul a fost gata.

Totuși, Institutul pare prea puțin preocupat de prezența pe Internet. Chiar și atunci când Ministerul Educației și firma Siveco au dorit crearea unui portal de dicționare pe site-ul Ministerului[5], ei au colaborat tot cu noi, nu cu Institutul de Lingvistică.

Este păcat că Institutul de Lingvistică trăiește într-un turn de fildeș. Nu pentru că nu ar merita: suntem convinși (fără sarcasm) că preocupările lor sunt ezoterice și deasupra nivelului de înțelegere al publicului larg. Totuși, limba acestui public larg evoluează; oamenii au întrebări și dispute de ordin lingvistic și Internetul este primul loc unde vin să caute răspunsuri. Deplângem faptul că Institutul de Lingvistică ignoră pulsul societății pe umerii căreia, totuși, s-a ridicat.

Trebuie menționat că atunci când spunem „Institutul de Lingvistică” nu ne referim numai la cel din București („Al. Rosetti - Iorgu Iordan”), deși acesta figurează (în mod ciudat, când ne-am fi așteptat la o colaborare între toate institutele de lingvistică din țară) ca autor al DOOM2 și DEX09, ci am înglobat în acest termen orice institut filologic subordonat Academiei (și avem aici cel puțin pe cele afișate pe site-ul Academiei: cel din Iași – „Al. Philippide” și cel din Cluj – „Sextil Pușcariu”). Limba română (corectă) nu se vorbește numai la București.

Exemple. Lista Oficială de Cuvinte

Principiile enumerate în acest manifest sunt viabile și dau rezultate fantastice. Oamenii se folosesc de datele pe care noi le punem la dispoziție și produc documente și programe noi, pe care la rândul lor le distribuie liber. Câștigul pentru limba și cultura română este incontestabil. Vizitați, de exemplu, pagina de unelte pentru o listă de programe-client pe care le puteți instala pe calculatoarele voastre personale sau pe telefoanele mobile pentru a putea consulta definițiile și în absența unei conexiuni la Internet. Noi nu ne-am făcut niciodată timp să lucrăm la astfel de programe-client dar, pentru că am pus datele la dispoziție, alții au putut să o facă (chiar mai bine decât ne-am fi priceput noi).

Un alt exemplu grăitor este modul în care dexonline a încorporat lista de forme flexionare ale limbii române [6].

Producerea listei de forme flexionare este dificilă din două motive. Primul, dexonline are în prezent 140.000 de cuvinte și 1,4 milioane de forme flexionare. Limba română are destul de multe excepții și simplul volum de muncă pentru a enumera toate formele tuturor cuvintelor este titanic. În era pre-digitală, al doilea motiv a fost costul prohibitiv al hârtiei. O înșiruire de 1,4 milioane de termeni (și nimic altceva) ar ocupa aproximativ un volum de mărimea DEX-ului.

În 1981, Alf Lombard, un lexicograf suedez care a avut o pasiune durabilă pentru limba română, a publicat DMLR[7]. Aceasta a fost prima dată când cineva a compilat lista formelor flexionare ale limbii române printr-o abordare interesantă: în loc să enumere toate formele tuturor cuvintelor, ele sunt grupate în „modele” care se flexionează la fel. Se enumeră explicit formele unui singur cuvânt ales ca exponent, apoi se enumeră toate cuvintele care se flexionează la fel. De exemplu, se enumeră toate formele pentru ceapă: cepe, cepei, cepele etc. Apoi se scrie: cuvintele geană, damigeană, sprânceană și agheasmă se flexionează la fel ca ceapă. În acest fel se obține o listă completă de flexiuni mult mai compactă decât una desfășurată.

DMLR a intrat în scurt timp în atenția Federației Române de Scrabble (F.R.Sc.). Pentru ca partidele oficiale de scrabble să se desfășoare fără loc de interpretări, F.R.Sc. avea nevoie de o Listă Oficială de Cuvinte (LOC). În anii '80, partidele oficiale de scrabble se desfășurau fără forme flexionare, din cauza dificultății arbitrajului (se putea juca forma „copil”, dar nu și „copilul”). Din această cauză, experiența partidelor de scrabble era mai săracă. F.R.Sc. căuta o listă de forme flexionare și DMLR a corespuns perfect. F.R.Sc. a preluat lista de cuvinte și a adus-o la zi cu toate neologismele limbii[8].

Chiar și așa, gestiunea listei de cuvinte era dificilă, deoarece ea era stocată într-un fișier text. Era un fișier mare și operațiile asupra lui erau greoaie. În 2007, F.R.Sc. și dexonline au început să colaboreze pentru automatizarea acestei gestiuni. De atunci, lista oficială de cuvinte este stocată în dexonline, unde întreținerea ei de către moderatorii din partea F.R.Sc. a devenit mult mai ușoară.

La rândul nostru, beneficiul pentru dexonline este uriaș. O consecință directă este că vă putem prezenta și vouă conjugările corecte ale verbelor. În plus, când dați click pe orice cuvânt dintr-o definiție, dexonline vă duce la definiția acelui cuvânt. Această operație nu este banală. Noi nu puteam folosi faptul că fețelor este forma de plural dativ articulat a lui față înainte de a ne procura lista formelor flexionare. Și exemplele pot continua.

Iată așadar cum un lingvist străin, o echipă de scrabbliști și doi ingineri au reușit să producă un document de referință pentru limba română care și-a depășit cu mult utilitatea anticipată inițial. Precondițiile însă au fost accesul neîngrădit la resurse și dreptul de a publica versiuni îmbunătățite[9].

Semnături

Următoarele persoane și grupuri au dorit să-și exprime susținerea față de acest manifest. Dacă doriți să semnați și dumneavoastră, spuneți-ne.

Note

  1. În textul original, la data creării documentului, era vorba de 2.000.000 de oameni care fac circa 12.500.000 de căutări.
  2. Vezi Bugetul Academiei Române pe anul 2009, pagina 7
  3. Vezi Statutul Academiei Române publicat în Monitorul Oficial nr. 617/2009, pagina 15, articolul 54(1) și Legea nr. 752/2001 privind organizarea și funcționarea Academiei Române
  4. La peste 10 ani de la finalizarea proiectului dicționarul tezaur încă nu este public
  5. În acest moment este nefuncțional, dar poate fi văzut istoricul aici
  6. Lista de forme flexionare se referă la conjugările verbelor și declinările substantivelor. De exemplu, formele flexionare pentru a citi sunt citesc, citești, citește, ..., citii, citiși etc.
  7. A. Lombard, C. Gâdei, Dictionnaire morphologique de la langue roumaine, Editura Academiei, București, 1981
  8. Vezi și LOC - O istorie romanțată
  9. Acest manifest se bazează pe prezentarea „Inițiative lexicografice colaborative. Cazul dexonline ținută de Cătălin Frâncu și Radu Borza în cadrul conferinței „Resurse lingvistice și instrumente pentru prelucrarea limbii române”