Automatizacija

Juzer Nejm

Zainteresovan član
Poruka
437
Koji je najbolji pristup za automatizaciju sledećeg procesa. Imam sigurno oko 50k .cfm fajlova sa kojima treba da se mačujem, i svaki fajl sadrži html tagove među kojima su i slike. Neke slike imaju alt atribut, a neke nemaju. Meni je neophodna skripta koja bi, ukoliko NEMA alt atribut, proveri ime slike (bez ekstenzije), kopira tu vrednost i stavi je kao alt vrednost. I tako do kraja fajla. Update fajl.

Koji je najbolji pristup rešavanju ovog problema, ali da mi ne ***** ostale stvari jer je to onda opasna katastrofa.
 
delovalo mi je nekako poznato to .cfm i intrigantno, i malo istražim sta to bese i wow! Mislio sam da to odavno ne postoji, ali nije. Najnoviji CF je iz februara ove godine! Apsolutno fenomenalno.

Zanimljiva oblast.
Napisi po nesto o tome sto radis, mislim da je zanimljivo.

mozda postoji neki generalni markup parser da ti pomogne, treba prekopati py biblioteke
 
Sajt ima vise od 50k stranica. Treba da optimizujem SEO, izmedju ostalog i alt atributi koji nedostaju. Treba naci 404 pages i svasta nesto. Koristicu screaming frog, nije ljudski to izvesti rucno.

broken links je kategorija za sebe. Pisao sam svojevremeno svoj crawler da bih identifikovao broken linkove i tu puno naucio, izmedju ostalog da su broken linkovi na 'sajtu' ziva materija - sve zavisno od upotrebe sajta - broken linkovi se pojavljuju i nestaju u zavisnosti od promene sadrzaja osim sto mogu biti generisani iz neke baze. Moraces dakle to da pokreces s vremena na vreme. Dobro je koristiti nesto sto je gotovo, mada je i to noz sa dve ostrice, mozda ti detektuje malo ili previse ili da preskoci nesto sto ti moze biti vazno (recimo link na script). ili da ti report ne bude zgodan. Svakako probaj, i napisi neko iskustvo koje zelis da podelis sa nama.
 
broken links je kategorija za sebe. Pisao sam svojevremeno svoj crawler da bih identifikovao broken linkove i tu puno naucio, izmedju ostalog da su broken linkovi na 'sajtu' ziva materija - sve zavisno od upotrebe sajta - broken linkovi se pojavljuju i nestaju u zavisnosti od promene sadrzaja osim sto mogu biti generisani iz neke baze. Moraces dakle to da pokreces s vremena na vreme. Dobro je koristiti nesto sto je gotovo, mada je i to noz sa dve ostrice, mozda ti detektuje malo ili previse ili da preskoci nesto sto ti moze biti vazno (recimo link na script). ili da ti report ne bude zgodan. Svakako probaj, i napisi neko iskustvo koje zelis da podelis sa nama.
POsto sajt ima cloudflare protekciju, moracu (ako je moguce) staviti taj crawler na izuzetak da mi dozvoli pretragu ili da redukujem broj zahteva u minuti. Ici cu folder po folder sa svim pod folderima. Bez jakog pritiska.

Za sada uz pomoc lucee logova vidim sta i kako pa stavljam 301 forward ako je folder izmesten. To je external i to ne mogu kontrolisati. Ove interne broken links editujem.
 
POsto sajt ima cloudflare protekciju, moracu (ako je moguce) staviti taj crawler na izuzetak da mi dozvoli pretragu ili da redukujem broj zahteva u minuti. Ici cu folder po folder sa svim pod folderima. Bez jakog pritiska.
aha! imas neki web firewall - mada - ako radis seo to znaci da ce google crawler pre ili kasnije da setka po sajtu, ako on moze, onda bi trebalo da mozes i ti (neka robots.txt politika i slicno). Ako ima neki security management mozda mozes da podesis svoj IP

Za sada uz pomoc lucee logova vidim sta i kako pa stavljam 301 forward ako je folder izmesten. To je external i to ne mogu kontrolisati. Ove interne broken links editujem.
👍
 
situacija: ne mozes kontrolisati linkove koje je neko bookmarkovao ranije (pa su zbog pomeranja sadrzaja premesteni negde drugde u hijerarhiji). To je hell, i ne vredi dodavati unutrasnje ili spoljne redirekcije.

mnogo je bolje modifikovati 404 da pomogne useru da ode na pravu adresu uz objasnjenje da ukoliko je koristio bookmark da ga update. Ako na 404 strani imas linkove na postojeci sadrzaj korektno, onda u crawlingu nemoj da ukljucujes 404 stranu jer ce ti crawl dodatno prosetati niz te linkove (osim ako neces da budes strict i da proveris 404 linkove a i onda radis samo 1 nivo ne sve ispod rekurzivno)

sve to u zavisnosti da li ti je pristupacna modifikacija 404 strane i da ti je to dozvoljeno da menjas

moze biti od koristi ako imas web log da 404 odgovore (linkove) pokupis odatle.
 
Imam potpuni pristup sajtu kao koder na live. Ima i test server ali za ove trivijalnosti operisem na live.

Admin sajta zeli redirekt jer mu je vazno da korisnik ostane na sajtu i to gde treba. Ima reklame (reptive kompanija) sa kojom saradjuje te mu je svaki view bitan. Ako nije prosledjen, 404 je annoying.

Ranije je imao placeni software za link backtrack po netu sto je kul. Znas odakle vuce taj 404. Interno cu srediti ali eksterno ne mogu, razume se, osim 301 u config fajlu.
 

Back
Top