Structurarea definițiilor

De la dexonline wiki
Sari la navigare Sari la căutare

Structurarea definițiilor

Această pagină este un Design Doc pentru proiectul de structurare a definițiilor. Această pagină este în lucru.

Vezi și Ghid pentru structurare.


Descriere

În reprezentarea curentă, definițiile sunt doar text blobs: toată definiția este reprezentată într-un singur șir de text cu indicații de formatare ($italic$, @bold@, %aerisit% etc.). Pentru fiecare dicționar în parte, sintaxa și formatarea delimitează elementele componente (sensuri, registre de folosire, sinonime, etimologie, silabisire, pronunție, morfologie).

Prin structurarea definițiilor, urmărim să obținem și să stocăm separat aceste elemente componente.


Avantaje

  1. Eliminarea redundanței din definiții. Un lexem ca abac are, de regulă, 5-10 definiții din diverse dicționare care repetă sensurile și celelalte elemente componente, cu diferențe minore sau mai mari.
  2. Eliminarea problemelor potențiale de drepturi de autor. Structurarea este un efort cu o componentă esențială de cercetare, analiză și sinteză, iar rezultatul este nou și original.
  3. Uniformizarea prezentării. În prezent, fiecare dicționar folosește propriile convenții pentru litere mari și mici, bold, italic ș.a.m.d., iar aspectul paginii este prea eterogen.


Aplicații

Avantajele indirecte sunt multe și variate:

  • Adesea dorim să facem studii pe anumite elemente ale definiției (cel mai adesea etimologia). În prezent, aceasta se poate face numai cu expresii regulate pentru a extrage porțiuni din text blobs. Acest procedeu este anevoios și are rată mare de eroare.
  • Indexarea full-text va merge mult mai bine odată ce vom putea indexa doar sensurile definiției, căci în prezent sunt indexate și abrevierile, silabele individuale acolo unde este indicată silabisirea etc.
  • Jocurile noastre (spânzurătoarea, moara cuvintelor) devin mai atractive dacă putem prezenta un singur sens al unui cuvânt, nu toată definiția.
  • Când vom ajunge să avem exemple pentru definiții, vom putea da exemple pentru sensuri aparte.


Structura datelor

  • Indicațiile de silabisire, pronunție, etimologie se mută la lexem.
  • Indicațiile de parte de vorbire dispar (sper că le avem deja pe toate în lexem.
  • Indicațiile de variante de scriere se mută la lexem. Mai exact, lexemele-variantă trebuie să aibă o trimitere către forma corectă (relația este many-to-one).
  • Cred că și comentariile trebuie mutate tot la lexem. Sau poate la sens? Vedem.
  • Trebuie să permitem structurarea ierarhică și ordonarea sensurilor (I 1, I 2, II 1, II 2 etc.). Probabil vom stabili o numerotare pentru fiecare nivel al ierarhiei, ca de exemplu I.A.1.a, și vom folosi uniform această numerotare, chiar dacă ea diferă la unele dicționare.
  • De văzut cum se face legătura între lexeme și sensuri. Pot exista sensuri care să aparțină de mai multe lexeme, ca de exemplu morocănos și ursuz, care conțin ambele sensul „care vădește nemulțumire”. O posibilitate este ca fiecare sens să fie o intrare într-o tabelă, iar ordonarea și numerotarea să se facă într-o altă tabelă.
  • Cum reprezentăm extensiunea? Vezi de exemplu abataj, unde scrie „p. ext”. Putem crea o relație între sensuri, „Y extinde X”.
  • Cum gestionăm regiștrii de folosire? Cred că cel mai corect ar fi să avem un tabel cu toți (rar, peiorativ, ironic, arhaizant etc.), plus un tabel de corespondență între regiștri și sensuri. Mai există și tipul de date SET în MySQL, dar acela poate ține doar 64 de valori.
  • Cum decidem unde separăm sensurile? Dincolo de indicațiile clare (cifre, litere), mai sunt trei posibilități de separare:
    • În DEX, romburile albe și negre. Cred că acestea sunt puncte de separație clare. Vezi abatere.
    • În DEX, punctul și virgula. Cred că și aceasta trebuie considerată ca separator. Vezi morocănos.
    • În DEX, virgula. Cred că aceasta nu reprezintă o separație, ci, de obicei, o înșiruire de sinonime parțiale. Vezi morocănos.
  • Ce facem cu parantezele mai ample? Este greu de tras linia între un registru de folosire concis (de exemplu: tehnic, ironic) și unul mai detaliat (de exemplu: despre înfățișarea, manifestările oamenilor). Pentru a nu sfârși cu un set uriaș de regiștri, cred că parantezele ample trebuie păstrate în sensul definiției.
  • Trebuie să spargem, o dată pentru totdeauna, definițiile care acum sunt comasate aiurea. Vezi de exemplu absolutoriu, care constă dintr-un adjectiv și un substantiv neutru.
  • Expresiile țin de sens.

Conversia la noua structură

Vom scrie câte un program de conversie pentru fiecare dicționar. Acest program va rula în conjuncție cu o interfață pentru moderatori care vor corecta greșelile. Programul trebuie să caute sensuri deja existente ca să ne ajute la eliminarea duplicatelor.

Colaborarea cu voluntarii în noua structură

Pare puțin probabil că un voluntar ales la întâmplare va avea timpul și răbdarea să înțeleagă structura noastră de date și să introducă corect datele. Veterani ca Laurențiu și Laura vor face asta, dar, dacă vrem să rămânem (sau să redevenim) un site bazat pe voluntariat la scară largă, cea mai bună soluție este ca voluntarii să introducă datele în vechea structură, iar moderatorii să le convertească.



De tratat

  • cum conciliem diferențele minore între dicționare