Forum Beitrags Downloader

ludwig91

Hallo, ich bin neu bei AutoIt. Ich möchte gerne ein Programm machen, womit man alle Seiten eines Forum Threads auf dem PC in einem Archiv ablegen könnte. Kann man sowas mit AutoIt machen?

**chip**

Wenn es dir Regeln des Forums nicht verbieten dann ja.

ludwig91

Ja,das ist klar. Wenn es nicht erlaubt ist von den Regeln her.
Die Idee dahinter ist, das ich mir gerne so eine Art Wissensdatenbank aufbauen würde.
In dem ich aus Firefox verschiedene Infos abspeichern möchte.
Mein erster Ansatz war Scrapbook, was für einzelne Seiten auch gut funktioniert. Aber für Foreneinträge leider nicht gut funktioniert.

**autoBert**

Es kann auch sein, dass InetGet schon reicht um dies zu realiesieren. Aber egal mit was du es lösen willst ohne den entsprechenden Link kann dir keiner effektiv helfen,

mfg autoBert

Mr. Aero

Da er ja ein Art "Wissenbuch" aufbauen möchte, denke ich, damit sind hauptsächlich Wikipedia Seiten gedacht

Achja, eine Frage: Wie möchtest du die eigentlich abspeichern?

Cheater Dieter

Zitat von autoBert

Es kann auch sein, dass InetGet schon reicht um dies zu realiesieren.

Wohl kaum. Die allermeisten Forensysteme arbeiten irgendwie mit PHP, was auf dem PC zuhause ohne entsprechende Software nicht läuft.
Beispiel:

PHP

<?php echo '<p>Hallo Welt</p>'; ?>

Das gibt in Firefox geöffnet das da zurück:
Hallo Welt'; ?>
Auf dem Server aber ~~Hallo Welt~~
Edit: Schwachsinn :pinch:

Ausderdem kann mit relativen Pfadangaben gearbeitet worden sein.

descent

Eventuell könnte dir auch die FF.au3 weiterhelfen (bei mir läuft sie gerade nicht da wohl was mit meiner Registry nicht stimmt daher konnte ich nichts testen). Wenn du nur den Text einer Seite brauchst könnte dir dabei die Funktion _FFReadText weiterhelfen. Aber ohne einen Link zur Seite die ausgelesen werden soll kann auch niemand anderes was versuchen

i2c

Zitat von Cheater Dieter

Wohl kaum. Die allermeisten Forensysteme arbeiten irgendwie mit PHP,

Das spielt keine Rolle. Bei einem Download der Seite, z.B. per InetGet() wird nicht der PHP Sourcecode geladen, sondern das HTML Markup der Seite. Alles andere wäre auch höchst bedenklich.

Cheater Dieter

Zitat von i2c

Das spielt keine Rolle. Bei einem Download der Seite, z.B. per InetGet() wird nicht der PHP Sourcecode geladen, sondern das HTML Markup der Seite. Alles andere wäre auch höchst bedenklich.

Simmt, ich habe nicht nachgedacht :wacko:.

PenGuin

Zitat von i2c

Das spielt keine Rolle. Bei einem Download der Seite, z.B. per InetGet() wird nicht der PHP Sourcecode geladen, sondern das HTML Markup der Seite. Alles andere wäre auch höchst bedenklich.

So eine gedownloadete config.php würde sich nicht gut machen

Cheater Dieter

Zitat von PenGuin

So eine gedownloadete config.php würde sich nicht gut machen

Kommt ganz drauf an bei wem

**chip**

Zitat von descent

Eventuell könnte dir auch die FF.au3 weiterhelfen (bei mir läuft sie gerade nicht da wohl was mit meiner Registry nicht stimmt daher konnte ich nichts testen). Wenn du nur den Text einer Seite brauchst könnte dir dabei die Funktion _FFReadText weiterhelfen. Aber ohne einen Link zur Seite die ausgelesen werden soll kann auch niemand anderes was versuchen

Schau mal in welchem Bereich er gepostet hat ;).

ludwig91

Erst mal danke für die zahlreichen Antworten.
Ich möchte die Beiträge offline speichern, weil einige Seiten im Internet auch wieder verschwinden könnten. Und offline kann ich auf die Infos immer Zugreifen.

Es sollten dabei auch Bilder gespeichert werden, quasi die komplette Seite, nicht nur der Text.

Beispielseiten wären
http://www.howtoforge.de/anleitung/post…h-und-pflogsumm

http://forums.zarafa.com/viewtopic.php?f=9&t=1290

i2c

Ohne deinen Tatendrang bremsen zu wollen - http://www.httrack.com/

Man kann es natürlich auch in AUtoIt umsetzen, dann aber doch besser ohne FF.au3. Im Prinzip ist es nur ein Skript, das die Seite runterläd, Links filtert und auswertet, bei Bildlinks das Bild läd und den Link umschreibt, entscheidet ob ein Link noch zum Context der Seite gehört oder nicht ....

Von der Sache her nicht kompliziert aber wenn man es richtig machen will, eine unheimliche Fleissarbeit.

ludwig91

Mit httrack hab ich es leider nur geschafft ganz normale Seiten zu speichern. Aber keine Foren mit Bildern, weiters sind teilweise auch Zugangsdaten erforderlich um die Bilder zu laden.
Ich dachte mir man könnte die Startseite laden, die höchste Seitenanzahl ermitteln, die Seite speichern, die nächste Seite laden und das bis zum Ende durch.

**chip**

Das was du sachst ist ein Webcrawler z.b.: http://www.xaldon.de/products_webspider.html

progandy

Zitat von ludwig91

Mit httrack hab ich es leider nur geschafft ganz normale Seiten zu speichern. Aber keine Foren mit Bildern, weiters sind teilweise auch Zugangsdaten erforderlich um die Bilder zu laden.

Das lässt sich auch machen. Den aus Firefox auslesen oder per WinHTTP in AutoIt erstellen und dann auslesen. Anschließend kann der Cookie in die cookies.txt von deinem httrack-Projekt
Oder schau mal hier vorbei: http://httrack.kauler.com/help/CatchURL_tutorial