Diferență între revizuiri ale paginii „Design doc Crawler”

52 de octeți șterși ,  4 februarie 2019 16:15
fără descrierea modificării
 
Linia 194: Linia 194:
=== Setările de bază ===
=== Setările de bază ===


1) în /DEX/wwwwbase/Crawler trebuie: .htaccess, AbstractCrawler.php, AppLog.php, Crawler.php, MemoryManagement.php, simple_html_dom.php, WhiteList.txt, directoarele ParsedText și RawPage
1) în /DEX/www/Crawler trebuie: .htaccess, AbstractCrawler.php, AppLog.php, Crawler.php, MemoryManagement.php, simple_html_dom.php, WhiteList.txt, directoarele ParsedText și RawPage


2) în /DEX/: la dex.conf trebuie adăugat fișierul /DEX/wwwbase/Crawler/crawler_dex.conf (commentarii în fișier)
2) în /DEX/: la dex.conf trebuie adăugat fișierul /DEX/www/Crawler/crawler_dex.conf (commentarii în fișier)


3) /DEX/phplib/models/CrawledPage.php și Link.php trebuie puse în același director pe server
3) /DEX/lib/models/CrawledPage.php și Link.php trebuie puse în același director pe server


4) Trebuie să puneți un fișier conținând user_agent-ul crawler-ului undeva într-un director care nu este public (am observat că unele site-uri nu cer user_agent (ex: romlit)).
4) Trebuie să puneți un fișier conținând user_agent-ul crawler-ului undeva într-un director care nu este public (am observat că unele site-uri nu cer user_agent (ex: romlit)).
Linia 206: Linia 206:
Și apoi să-i dați calea absolută în dex.conf :: user_agent_location
Și apoi să-i dați calea absolută în dex.conf :: user_agent_location


5) Editați fișierul /DEX/wwwwbase/Crawler/WhiteList.txt, instrucțiuni de utilizare în fișier
5) Editați fișierul /DEX/www/Crawler/WhiteList.txt, instrucțiuni de utilizare în fișier


=== Rulare crawler ===
=== Rulare crawler ===


în directorul /DEX/wwwwbase/Crawler/ rulați comanda
în directorul /DEX/www/Crawler/ rulați comanda


php Crawler.php
php Crawler.php
Linia 216: Linia 216:
va porni crawlerul, acesta va lua primul domeniu din WhiteList.txt și va căuta linkuri nedescoperite în baza de date.
va porni crawlerul, acesta va lua primul domeniu din WhiteList.txt și va căuta linkuri nedescoperite în baza de date.


Crawler-ul dispune de un fișier de log: /DEX/wwwwbase/Crawler/crawler_log, iar ]n dex.conf puteți seta
Crawler-ul dispune de un fișier de log: /DEX/www/Crawler/crawler_log, iar ]n dex.conf puteți seta
log2screen și log2file.
log2screen și log2file.


Linia 223: Linia 223:
URL-ul relativ va fi /Crawler/index.php, nu /Crawler/
URL-ul relativ va fi /Crawler/index.php, nu /Crawler/


1) Necesitatea fișierului /DEX/wwwwbase/Crawler/index.php
1) Necesitatea fișierului /DEX/www/Crawler/index.php


2) În directorul /DEX/phplib/ trebuie adăugat fișierul SmartyWrap.php ce conține metoda
2) În directorul /DEX/lib/ trebuie adăugat fișierul Smart.php ce conține metoda


<syntaxhighlight lang="php">
<syntaxhighlight lang="php">
Linia 234: Linia 234:
</syntaxhighlight>
</syntaxhighlight>


3) În directorul /DEX/wwwbase/ajax trebuie adăugat fișierul fetchCrawlerStatus.php din același director de pe SVN
3) În directorul /DEX/www/ajax trebuie adăugat fișierul fetchCrawlerStatus.php din același director de pe SVN


4) În directorul /DEX/wwwbase/styles trebuie adăugat fișierul crawler.css din același director de pe SVN
4) În directorul /DEX/www/styles trebuie adăugat fișierul crawler.css din același director de pe SVN


5) În directorul /DEX/templates/crawler trebuie adăugat fișierul crawler.ihtml din același director de pe SVN. Dacă am uitat ceva și programul nu merge, încercați să verificați scripturile încluse din crawler.ihtml.
5) În directorul /DEX/templates/crawler trebuie adăugat fișierul crawler.ihtml din același director de pe SVN. Dacă am uitat ceva și programul nu merge, încercați să verificați scripturile încluse din crawler.ihtml.


6) În directorul /DEX/wwwbase/Crawler/ trebuie adăugat fișierul .htaccess din același director de pe SVN.
6) În directorul /DEX/www/Crawler/ trebuie adăugat fișierul .htaccess din același director de pe SVN.


(Autor: Alin Ungureanu)
(Autor: Alin Ungureanu)


[[Categorie:Design docs]]
[[Categorie:Design docs]]