2.076 de modificări
Diferență între revizuiri ale paginii „Design doc Crawler”
Design doc Crawler (vedeți sursă)
Versiunea de la data 4 februarie 2019 16:15
, 4 februarie 2019 16:15fără descrierea modificării
(Nu s-au afișat 3 versiuni intermediare efectuate de același utilizator) | |||
Linia 7: | Linia 7: | ||
* O statistică a folosirii diacriticelor | * O statistică a folosirii diacriticelor | ||
Vezi și [[Crawler TODO]] | |||
== Proiectarea in ansamblu == | == Proiectarea in ansamblu == | ||
Linia 193: | Linia 194: | ||
=== Setările de bază === | === Setările de bază === | ||
1) în /DEX/ | 1) în /DEX/www/Crawler trebuie: .htaccess, AbstractCrawler.php, AppLog.php, Crawler.php, MemoryManagement.php, simple_html_dom.php, WhiteList.txt, directoarele ParsedText și RawPage | ||
2) în /DEX/: la dex.conf trebuie adăugat fișierul /DEX/ | 2) în /DEX/: la dex.conf trebuie adăugat fișierul /DEX/www/Crawler/crawler_dex.conf (commentarii în fișier) | ||
3) /DEX/ | 3) /DEX/lib/models/CrawledPage.php și Link.php trebuie puse în același director pe server | ||
4) Trebuie să puneți un fișier conținând user_agent-ul crawler-ului undeva într-un director care nu este public (am observat că unele site-uri nu cer user_agent (ex: romlit)). | 4) Trebuie să puneți un fișier conținând user_agent-ul crawler-ului undeva într-un director care nu este public (am observat că unele site-uri nu cer user_agent (ex: romlit)). | ||
Linia 205: | Linia 206: | ||
Și apoi să-i dați calea absolută în dex.conf :: user_agent_location | Și apoi să-i dați calea absolută în dex.conf :: user_agent_location | ||
5) Editați fișierul /DEX/ | 5) Editați fișierul /DEX/www/Crawler/WhiteList.txt, instrucțiuni de utilizare în fișier | ||
=== Rulare crawler === | === Rulare crawler === | ||
în directorul /DEX/ | în directorul /DEX/www/Crawler/ rulați comanda | ||
php Crawler.php | php Crawler.php | ||
Linia 215: | Linia 216: | ||
va porni crawlerul, acesta va lua primul domeniu din WhiteList.txt și va căuta linkuri nedescoperite în baza de date. | va porni crawlerul, acesta va lua primul domeniu din WhiteList.txt și va căuta linkuri nedescoperite în baza de date. | ||
Crawler-ul dispune de un fișier de log: /DEX/ | Crawler-ul dispune de un fișier de log: /DEX/www/Crawler/crawler_log, iar ]n dex.conf puteți seta | ||
log2screen și log2file. | log2screen și log2file. | ||
Linia 222: | Linia 223: | ||
URL-ul relativ va fi /Crawler/index.php, nu /Crawler/ | URL-ul relativ va fi /Crawler/index.php, nu /Crawler/ | ||
1) Necesitatea fișierului /DEX/ | 1) Necesitatea fișierului /DEX/www/Crawler/index.php | ||
2) În directorul /DEX/ | 2) În directorul /DEX/lib/ trebuie adăugat fișierul Smart.php ce conține metoda | ||
<syntaxhighlight lang="php"> | <syntaxhighlight lang="php"> | ||
Linia 233: | Linia 234: | ||
</syntaxhighlight> | </syntaxhighlight> | ||
3) În directorul /DEX/ | 3) În directorul /DEX/www/ajax trebuie adăugat fișierul fetchCrawlerStatus.php din același director de pe SVN | ||
4) În directorul /DEX/ | 4) În directorul /DEX/www/styles trebuie adăugat fișierul crawler.css din același director de pe SVN | ||
5) În directorul /DEX/templates/crawler trebuie adăugat fișierul crawler.ihtml din același director de pe SVN. Dacă am uitat ceva și programul nu merge, încercați să verificați scripturile încluse din crawler.ihtml. | 5) În directorul /DEX/templates/crawler trebuie adăugat fișierul crawler.ihtml din același director de pe SVN. Dacă am uitat ceva și programul nu merge, încercați să verificați scripturile încluse din crawler.ihtml. | ||
6) În directorul /DEX/ | 6) În directorul /DEX/www/Crawler/ trebuie adăugat fișierul .htaccess din același director de pe SVN. | ||
(Autor: Alin Ungureanu) | |||
[[Categorie:Design docs]] | [[Categorie:Design docs]] |