Glife rare

De la dexonline wiki
Sari la navigare Sari la căutare

Motivație

Fiecare dicționar folosește setul său de glife (simboluri). Dincolo de cele evidente: alfabetul român, punctuație, formatările dexonline (@, #, $, %), există și alte glife mai rar folosite. De exemplu, în DEX 2009:

  • glifa * este folosită de 35.000 de ori (ca delimitator de sensuri);
  • glifa ç este folosită de 128 de ori (în etimologii);
  • glifele « și » sînt folosite de cîte două ori, în habotnic și în ti.

Pe pagina de editare a definițiilor dorim să evidențiem glifele rar folosite, pentru ca editorii să confirme că nu sînt greșeli de tipar.

Mecanism

Fișierul lib/models/Source.php definește constanta BASE_GLYPHS, care enumeră glifele comune tuturor dicționarelor (alfabetul român, cifre, formatările dexonline, punctuație, spațiere).

Fiecare sursă are un cîmp Source.commonGlyphs care enumeră alte glife comune în acea sursă. Noțiunea de „comun” este oarecum arbitrară. Cătălin.Frâncu (discuție) a folosit valoarea 10: dacă o glifă apare de minimum 10 ori, ea poate fi considerată comună. Cîmpul commonGlyphs poate fi editat prin două metode:

  1. cu scriptul tools/glyphStats.php;
  2. prin modificare manuală în pagina de editare a sursei.

Exemple de folosire a scriptului tools/glyphStats.php:

# listează pagina de ajutor
php tools/glyphStats.php

# calculează glifele comune (minimum 10 apariții) și rare pentru DEX '09 (ID = 27)
php tools/glyphStats.php -s 27 -c 10

# idem, cu informații suplimentare (lista definițiilor care conțin glife rare)
php tools/glyphStats.php -s 27 -c 10 -v

# salvează glifele comune în Source.commonGlyphs și recalculează cîmpul rareGlyphs
# și eticheta [glife rare] pentru fiecare definiție din DEX '09.
php tools/glyphStats.php -s 27 -c 10 -v -w -d