Links aus HTML-Dateien extrahieren
Siegfried Peter
lug at si-peter.de
Tue Sep 5 17:15:52 CEST 2006
Hallo Liste,
Ich würde gern die Links zu bestimmten Servern aus diversen HTML-Dateien
extrahieren und in eine zweite Datei schreiben.
Mein Lösungsansatz:
#!/bin/bash
cd /home/foo/
find -name '*.htm' -exec cat {} \; | grep 'URL1.com'
> /home/foo/URLS.html
find -name '*.htm' -exec cat {} \; | grep 'URL2.COM'
>> /home/foo/URLS.html
exit 0
liefert mir zwar alle Zeilen in denen einer der Suchbegriffe vorkommt,
jedoch auch den Rest der in dieser Zeile steht.
Wie kann ich jetzt noch den eventuellen Rest der nicht zum Link gehört
eliminieren (Zeilenanfang bis zum Link, vom Link bis zum Zeilenende bzw.
zum nächsten Link, eventuell muss nach nem Link ein Zeilenumbruch
eingefügt werden)?
Ziel ist es eine Liste zu erhalten, die nur noch ein Link je Zeile
steht.
Diese Liste soll mit einer bestehenden Liste verglichen werden, und nur
noch neue Links in der letzten Liste auftauchen. (Aber das sind mit
sort, uniq und comm nur noch peanuts.)
Danke für jede Hilfe
Siegfried Peter
More information about the Linux
mailing list