Links aus HTML-Dateien extrahieren

Siegfried Peter lug at si-peter.de
Tue Sep 5 17:15:52 CEST 2006


Hallo Liste,
Ich würde gern die Links zu bestimmten Servern aus diversen HTML-Dateien
extrahieren und in eine zweite Datei schreiben.
Mein Lösungsansatz:

#!/bin/bash
cd /home/foo/
find -name '*.htm' -exec cat {} \; | grep 'URL1.com'
> /home/foo/URLS.html
find -name '*.htm' -exec cat {} \; | grep 'URL2.COM'
>> /home/foo/URLS.html
exit 0

liefert mir zwar alle Zeilen in denen einer der Suchbegriffe vorkommt,
jedoch auch den Rest der in dieser Zeile steht.
Wie kann ich jetzt noch den eventuellen Rest der nicht zum Link gehört
eliminieren (Zeilenanfang bis zum Link, vom Link bis zum Zeilenende bzw.
zum nächsten Link, eventuell muss nach nem Link ein Zeilenumbruch
eingefügt werden)?

Ziel ist es eine Liste zu erhalten, die nur noch ein Link je Zeile
steht.
Diese Liste soll mit einer bestehenden Liste verglichen werden, und nur
noch neue Links in der letzten Liste auftauchen. (Aber das sind mit
sort, uniq und comm nur noch peanuts.)

Danke für jede Hilfe

Siegfried Peter




More information about the Linux mailing list