Crawler TODO

De la Dexonline wiki
Versiunea din 4 februarie 2014 14:45, autor: Cătălin.Frâncu (discuție | contribuții) (Pagină nouă: # ''' documentarea crawlerului ''' # ''' monitorizarea ''' trebuie să fie funcțională. E important să putem vedea ușor câte pagini avem din fiecare domeniu, câte linkuri net...)
(dif) ← Versiunea anterioară | Versiunea curentă (dif) | Versiunea următoare → (dif)
Sari la navigare Sari la căutare
  1. documentarea crawlerului
  2. monitorizarea trebuie să fie funcțională. E important să putem vedea ușor câte pagini avem din fiecare domeniu, câte linkuri netraversate avem (asta ne indică dacă ne apropiem de sfârșit), ce erori HTTP au existat, să putem vedea conținutul extras etc.
    • Este functionala local la mine
  3. intervenția umană pentru crawlarea unei pagini este utilă dacă vrei să testezi o pagină anume, iar crawlerul nu mai ajunge odată la ea

mai puțin importantă, dar merită reținută, este ștergerea unei pagini din index, eventual cu prevenirea reindexării ei viitoare (pot fi pagini care poluează setul de date)

    • Ștergerea unei pagini din index nu e făcută, dar dacă se șterge din hdd, ea nu va mai fi recrawlată deoarece mai există o dată intrarea în DB. Problema este că va încuca indexerul așa că ar fi bine să updatăm in tabela CrawledPage httpStatus la 404 spre exemplu, să știe indexerul că nu există pagina.
  1. stocarea tuturor versiunilor unei pagini cred că nu este doar de dorit, ci chiar necesară. Parcă convenisem că nu stocăm exemplele ca atare, ci doar ca pointer la începutul exemplului + lungimea în CrawledPage. Deci nu putem șterge versiuni.
    • Nu-mi vine acum altă idee prin cap decât să dau un parametru în linie de comandă care să facă bypass la inserarea linkurilor și crawlarea paginilor deja crawlate. Aș pune și un câmp "version" al paginii. Astfel am crawla doar dintr-un anumit domeniu doar o anumită versiune.
  2. detectarea unei schimbări reale în conținutul articolului versus una doar de prezentare (site-uri care includ cache bustere, sau care afișează data / ora / vremea / horoscopul). Altfel numărul de versiuni nenecesare va exploda rapid.
    • Chiar nu mă prind cum am putea face detecția de nou conținut la cache-busters. Am putea face un checksum a textului parsat si comparații. Paginile cu horoscopul le-am putea șterge să știm să nu ne atingem de ele.
  3. exemple pe text
  4. statistici despre diacritice
    • Ca să meargă lucrurile mai repede, Radu parcă aveai o specificație de statistici pe diacritice, nu poți să ne-o prezinți?
  5. cuvinte inexistente