Zu Weihnachten hier noch ein paar kleine Funktionen um einfach Informationen aus HTML-Source-Code zu extrahieren:
- _HTML_ExtractURLVar / liefert den Wert einer URL-Variablen aus einer URL
- _HTML_Get / Universalfunktion - liefert fast alles
- _HTML_GetAllImageSrc / liefert ein Array mit den Srcs aller Bilder
- _HTML_GetAllLinks / liefert ein Array mit allen Links
- _HTML_GetImageSrc / liefert die SRC eines Bildes
- _HTML_GetLink / liefert einen Link Aufgrund eines Attributes
- _HTML_GetSource / liefert die HTML-Source einer URL; Scripte, Zeilenumbrüche und Tabs werden herausgefiltert.
- _HTML_GetTable / liefert ein 2-dimensionales Array mit den Daten einer Tabelle (verbundene Zellen werden nicht berücksichtigt)
- _HTML_GetText / liefert den Text anhand von Tags und deren Attributen
- _HTML_GetURLVar / liefert den Wert einer URL-Variablen aus der HTML-Source
- _HTML_ImageSave / Speichert ein Bild
- _HTML_Search / Durchsucht den sichtbaren Text
Suchmodi umschalten:
$_HTML_SEARCHMODE = 1 ; (0 = Compare / 1 = Substring / RegExp) (2 = Compare / 3 = Substring / String-compare)
Beispiel:
Spoiler anzeigen
#Region Includes
#include <Array.au3>
#include <_HTML.au3>
#EndRegion Includes
$_HTML_SEARCHMODE = 1
[/autoit] [autoit][/autoit] [autoit]Main()
[/autoit] [autoit][/autoit] [autoit]Func Main()
[/autoit] [autoit][/autoit] [autoit]Local $HTML = _HTML_GetSource("http://autoit.de/index.php?page=Portal")
[/autoit] [autoit][/autoit] [autoit]MsgBox(0, "", _HTML_GetURLVar($HTML, "page", "Mitglieder", "title") & @CRLF)
MsgBox(0, "", _HTML_GetText($HTML, "div", "cont.*erCont", "class", 5) & @CRLF)
MsgBox(0, "", _HTML_GetImageSrc($HTML, "controllcenterImage") & @CRLF)
MsgBox(0, "", _HTML_GetLink($HTML, "loginButton") & @CRLF)
Local $a = _HTML_GetAllLinks($HTML)
_ArrayDisplay($a)
$a = _HTML_GetAllLinks($HTML, '\.com')
_ArrayDisplay($a)
$a = _HTML_GetAllImageSrc($HTML, 'wcf/images/')
_ArrayDisplay($a)
EndFunc ;==>Main
Die UDF:
_HTML.au3