Diferență între revizuiri ale paginii „Flexiuni LOC”

Sari la navigare Sari la căutare
42 de octeți șterși ,  4 februarie 2014 01:41
(Pagină nouă: <span style="color: red">'''ACEASTĂ PAGINĂ ESTE ÎNVECHITĂ.''' Implementarea propusă în această pagină este deja funcțională pe DEX online din 2007.</span> Această pagin...)
 
 
(Nu s-a afișat o versiune intermediară efectuată de același utilizator)
Linia 31: Linia 31:
=== Probleme curente ===
=== Probleme curente ===


* Nu există suport pentru ambele forme de MMCP (mâncasem/mâncaserăm). Radu va adăuga o "clonă" în tabela inflections, astfel că vor exista două înregistrări pentru MMCP pers. I plural (şi două pentru MMCP pers. II plural).
* Nu există suport pentru ambele forme de MMCP (mâncasem/mâncaserăm). Radu va adăuga o "clonă" în tabela inflections, astfel că vor exista două înregistrări pentru MMCP pers. I plural (şi două pentru MMCP pers. II plural).
* Mai sunt şi alte situaţii când există mai multe forme: tatălui/tatii, ucigând/ucizând etc. Cum tratăm aceste cazuri, creăm mai multe lexeme cu modele diferite? Sau generalizăm suportul pentru mai multe forme la aceeaşi flexiune?
* Mai sunt şi alte situaţii când există mai multe forme: tatălui/tatii, ucigând/ucizând etc. Cum tratăm aceste cazuri, creăm mai multe lexeme cu modele diferite? Sau generalizăm suportul pentru mai multe forme la aceeaşi flexiune?
  * ''Cred că mai bine generalizăm. În unele cazuri sunt chiar 3 forme diferite. Acestea pot fi înşirate "forma1 / forma2 / forma3". [Matei]''
** ''Cred că mai bine generalizăm. În unele cazuri sunt chiar 3 forme diferite. Acestea pot fi înşirate "forma1 / forma2 / forma3". [Matei]''
* Există lexeme incorect flexionate ('luminoscop', 'alerga'). Am scris o pagină care permite verificarea corectitudinii modelelor, care îi va permite lui Radu să depaneze mecanismul de extragere a transformărilor.
* Există lexeme incorect flexionate ('luminoscop', 'alerga'). Am scris o pagină care permite verificarea corectitudinii modelelor, care îi va permite lui Radu să depaneze mecanismul de extragere a transformărilor.
* Mai există greşeli de tipar. Majoritatea sunt vizibile la http://delta.dexonline.ro/admin/viewUnassociatedLexems.php . Unele sunt erori în LOC ('chbzui' în loc de 'chibzui'), iar altele sunt erori de parsare ('hăiv408').
* Mai există greşeli de tipar. Majoritatea sunt vizibile la http://delta.dexonline.ro/admin/viewUnassociatedLexems.php . Unele sunt erori în LOC ('chbzui' în loc de 'chibzui'), iar altele sunt erori de parsare ('hăiv408').
* Nu am înţeles foarte clar cum vom diferenţia V de VT. Folosim o restricţie nouă sau creăm tipul de model VT? Mie-mi convine oricare din cele două.
* Nu am înţeles foarte clar cum vom diferenţia V de VT. Folosim o restricţie nouă sau creăm tipul de model VT? Mie-mi convine oricare din cele două.
* Lista de la Radu ignoră restricţia S (toate substantivele respective au şi forme de plural în wordlist, deşi n-ar trebui)
* Lista de la Radu ignoră restricţia S (toate substantivele respective au şi forme de plural în wordlist, deşi n-ar trebui)
* Unele cuvinte ignoră restricţia P (abietinee, abietacee), altele o respectă (agatârşi)
* Unele cuvinte ignoră restricţia P (abietinee, abietacee), altele o respectă (agatârşi)
* Modelul A123 nu există în flexonline.sql, deşi el există în LOC
* Modelul A123 nu există în flexonline.sql, deşi el există în LOC
* Unele forme din wordlist sunt duplicat, cu şi fără accente (ex. cehă / c'ehă)
* Unele forme din wordlist sunt duplicat, cu şi fără accente (ex. cehă / c'ehă)
* Substantivele MF nu sunt flexionate deloc. Este ok ca Radu să le flexioneze ca 'A', dar să le treacă modelul cu 'MF', pentru că eu am deja suport pentru tipuri de model sinonime.
* Substantivele MF nu sunt flexionate deloc. Este ok ca Radu să le flexioneze ca 'A', dar să le treacă modelul cu 'MF', pentru că eu am deja suport pentru tipuri de model sinonime.
* Creăm acum tipuri de modele pentru diversele cuvinte invariabile (adverb, conjuncţie, termeni ştiinţifici etc.)? Ideal, tipul I ar trebui să dispară. Pentru moment, putem eticheta aceste cuvinte ca I şi să ne ocupăm ulterior de ele, dar ne putem uşura munca folosind etichetarea bazată pe sufixe. De exemplu, tot ce se termină în -eşte este adverb, tot ce se termină în -alis este termen latinesc.
* Creăm acum tipuri de modele pentru diversele cuvinte invariabile (adverb, conjuncţie, termeni ştiinţifici etc.)? Ideal, tipul I ar trebui să dispară. Pentru moment, putem eticheta aceste cuvinte ca I şi să ne ocupăm ulterior de ele, dar ne putem uşura munca folosind etichetarea bazată pe sufixe. De exemplu, tot ce se termină în -eşte este adverb, tot ce se termină în -alis este termen latinesc.
* ''Există cuvinte care nu se încadrează în niciun model de flexiune din LOC (DMLR). Ex.: salată cu pl. sălăţi. Pentru acestea trebuie create modele noi. I le semnalăm lui Radu, sau creăm o pagină dedicată acestui scop? [Matei]''
* ''Există cuvinte care nu se încadrează în niciun model de flexiune din LOC (DMLR). Ex.: salată cu pl. sălăţi. Pentru acestea trebuie create modele noi. I le semnalăm lui Radu, sau creăm o pagină dedicată acestui scop? [Matei]''
* ''Foarte multe s.f. care provin de la verbe (inf.lung.) sunt etichetate F113, deşi nu au sufix "-are", ci "-ere". Rezultă erori la flexiune. Am încercat să corectez, dar sunt multe, poate faceţi o listă şi le transferăm automat la F107. [Matei]''
* ''Foarte multe s.f. care provin de la verbe (inf.lung.) sunt etichetate F113, deşi nu au sufix "-are", ci "-ere". Rezultă erori la flexiune. Am încercat să corectez, dar sunt multe, poate faceţi o listă şi le transferăm automat la F107. [Matei]''
* ''De verificat (Tavi ?) dacă modelul F140 este corect. S-ar putea ca formele 7 şi 8 să fie cu "ă" în loc de "a" (n-am dat importanţă, la scrabble nu contează). Poate sunt şi alte modele cu probleme similare... [Matei]''
* ''De verificat (Tavi ?) dacă modelul F140 este corect. S-ar putea ca formele 7 şi 8 să fie cu "ă" în loc de "a" (n-am dat importanţă, la scrabble nu contează). Poate sunt şi alte modele cu probleme similare... [Matei]''
* ''În pagina de etichetare pe bază de sufix apare doar restricţia "S". Trebuie adăugate şi celelalte. [Matei]''
* ''În pagina de etichetare pe bază de sufix apare doar restricţia "S". Trebuie adăugate şi celelalte. [Matei]''
* Există o problemă la F25 (sămânță). De exemplu, pluralul genitiv articulat este "selormințe" în loc de "semințelor". Cel mai probabil, e din cauză că avem două transformări pentru care transf_from = 'ă'. De fapt ultimele 3 forme sunt greşite, la toate terminaţia este introdusă după "se", nu la sfârşit.
* Există o problemă la F25 (sămânță). De exemplu, pluralul genitiv articulat este "selormințe" în loc de "semințelor". Cel mai probabil, e din cauză că avem două transformări pentru care transf_from = 'ă'. De fapt ultimele 3 forme sunt greşite, la toate terminaţia este introdusă după "se", nu la sfârşit.


=== Probleme rezolvate ===
=== Probleme rezolvate ===


* Există lexeme redundante (lexeme identice în tabela lexems, pentru cuvinte care nu au omonime). Un exemplu este 'cal'. Din câte înţeleg, cauza este că aceste cuvinte sunt listate şi în LOC, şi la modelele desfăşurate.
* Există lexeme redundante (lexeme identice în tabela lexems, pentru cuvinte care nu au omonime). Un exemplu este 'cal'. Din câte înţeleg, cauza este că aceste cuvinte sunt listate şi în LOC, şi la modelele desfăşurate.
* Unele participii nu se flexionează ca A2, ci este indicat modelul. Radu va crea o tabelă temporară care indică aceste modele.
* Unele participii nu se flexionează ca A2, ci este indicat modelul. Radu va crea o tabelă temporară care indică aceste modele.


== Alte aspecte ==
== Alte aspecte ==


1. '''Accente:''' Dacă LOC oferă accente, le putem include destul de simplu în DEX online. La căutare, putem folosi un collate care să ignore accentele.
# '''Accente:''' Dacă LOC oferă accente, le putem include destul de simplu în DEX online. La căutare, putem folosi un collate care să ignore accentele.
  a. ''Accentele sunt menţionate în LOC doar în anumite cazuri. Eu zic să le eliminăm (cuvântul-titlu indică oricum accentul formei de bază) ca să nu avem ceva neunitar. Când vom avea timp, vom completa modelele de flexiune cu toate accentele (vor apărea probabil diferenţieri, modele noi). [Matei]''
#* ''Accentele sunt menţionate în LOC doar în anumite cazuri. Eu zic să le eliminăm (cuvântul-titlu indică oricum accentul formei de bază) ca să nu avem ceva neunitar. Când vom avea timp, vom completa modelele de flexiune cu toate accentele (vor apărea probabil diferenţieri, modele noi). [Matei]''
1. În LOC, participiul şi infinitivul lung al verbelor trebuie tratate ca adjectiv, respectiv substantiv feminin şi flexionate (dacă cuvântul este etichetat cu paradigma VT). Nu sunt sigur dacă va fi nevoie să facem şi noi acest lucru, deoarece dicţionarele noastre listează de obicei aceste participii şi infinitive lungi ca intrări separate. Dacă va fi nevoie, nu ştiu cum este cel mai bine să modelăm acest lucru în baza de date.
# În LOC, participiul şi infinitivul lung al verbelor trebuie tratate ca adjectiv, respectiv substantiv feminin şi flexionate (dacă cuvântul este etichetat cu paradigma VT). Nu sunt sigur dacă va fi nevoie să facem şi noi acest lucru, deoarece dicţionarele noastre listează de obicei aceste participii şi infinitive lungi ca intrări separate. Dacă va fi nevoie, nu ştiu cum este cel mai bine să modelăm acest lucru în baza de date.
  a. Aici cred că am găsit o soluţie. Dacă verbul "a bisisi" are infinitiv lung trecut în DEX online ("bisisire"), atunci flexionăm acel infinitiv lung ca substantiv şi totul este OK. Dacă nu, atunci scriptul care importă LOC va adăuga cuvântul "bisisire" asociat cu conceptul "a bisisi" şi îl va declina ca substantiv. Asta ca să nu adăugăm formele flexionare "bisisiri, bisisirii" etc. direct la verb, pentru că este nenatural. Verbul "a bisisi" este fictiv :)
#* Aici cred că am găsit o soluţie. Dacă verbul "a bisisi" are infinitiv lung trecut în DEX online ("bisisire"), atunci flexionăm acel infinitiv lung ca substantiv şi totul este OK. Dacă nu, atunci scriptul care importă LOC va adăuga cuvântul "bisisire" asociat cu conceptul "a bisisi" şi îl va declina ca substantiv. Asta ca să nu adăugăm formele flexionare "bisisiri, bisisirii" etc. direct la verb, pentru că este nenatural. Verbul "a bisisi" este fictiv :)
  a. ''Similar ar trebui procedat şi pentru participiu, în cazul în care nu apare separat în DEX online. [Matei]''
#* ''Similar ar trebui procedat şi pentru participiu, în cazul în care nu apare separat în DEX online. [Matei]''
1. În LOC, flexiunile pentru MF şi A sunt identice (respectiv, două cuvinte etichetate cu MF10 şi respectiv A10 se flexionează la fel). Schema prezentată mai sus nu poate reda acest lucru, ar trebui să avem o singură paradigmă pentru MF + A.
# În LOC, flexiunile pentru MF şi A sunt identice (respectiv, două cuvinte etichetate cu MF10 şi respectiv A10 se flexionează la fel). Schema prezentată mai sus nu poate reda acest lucru, ar trebui să avem o singură paradigmă pentru MF + A.
  a. O soluţie ar fi să stocăm, în tabela '''Flexiune''', un câmp în plus care să arate că o flexiune este identică cu alta. De exemplu, că A este identică cu MF. Cuvintele limbii române pot fi etichetate cu A123, dar codul va genera formele flexionate uitându-se la MF123. Pentru A nu vom accepta nici un model de flexionare, toate vor trebui listate la MF.
#* O soluţie ar fi să stocăm, în tabela '''Flexiune''', un câmp în plus care să arate că o flexiune este identică cu alta. De exemplu, că A este identică cu MF. Cuvintele limbii române pot fi etichetate cu A123, dar codul va genera formele flexionate uitându-se la MF123. Pentru A nu vom accepta nici un model de flexionare, toate vor trebui listate la MF.
1. Ce facem cu cuvintele din DEX online care nu sunt menţionate în LOC? Sigur, nu va fi greu să le etichetăm, dar trebuie să reflectăm cumva faptul că aceste etichete nu sunt cuprinse în LOC, pentru ca jucătorii de scrabble să poată regăsi LOC în forma sa exactă şi după încorporarea în DEX online
# Ce facem cu cuvintele din DEX online care nu sunt menţionate în LOC? Sigur, nu va fi greu să le etichetăm, dar trebuie să reflectăm cumva faptul că aceste etichete nu sunt cuprinse în LOC, pentru ca jucătorii de scrabble să poată regăsi LOC în forma sa exactă şi după încorporarea în DEX online
1. Ce facem cu cuvintele din LOC care nu au definiţii corespunzătoare în DEX online? Noi nu avem posibilitatea de a adăuga cuvinte fără definiţii (un cuvânt este asociat cu un concept, iar un concept neasociat cu nici o definiţie va declanşa un avertisment în pagina moderatorului). Putem adăuga definiţii minimale, de genul celor din Dicţionarul Ortografic.
# Ce facem cu cuvintele din LOC care nu au definiţii corespunzătoare în DEX online? Noi nu avem posibilitatea de a adăuga cuvinte fără definiţii (un cuvânt este asociat cu un concept, iar un concept neasociat cu nici o definiţie va declanşa un avertisment în pagina moderatorului). Putem adăuga definiţii minimale, de genul celor din Dicţionarul Ortografic.


== Referinţe ==
== Referinţe ==


[http://www.scrabblero.ro/reg/LOC3.htm LOC3 - Lista oficială de cuvinte la scrabble în limba română, versiunea a 3-a]
[http://www.scrabblero.ro/reg/LOC3.htm LOC3 - Lista oficială de cuvinte la scrabble în limba română, versiunea a 3-a]

Meniu de navigare