Tool für HTML Filter in Tabelle gesucht!

  • Folgenden Text habe ich in die Hilfe-Sektion gestellt und mir wurde geraten diesen Topic hier nochmals zu posten. Das Projekt hat einen kommerziellen Hintergrund, somit steht auch ein gewisser Etat bereit um dieses Problem zu lösen.

    Hallo,
    ich bin verzweifelt auf der Suche nach einem Tool. Ich muss für eine Vielzahl von Daten, die mir in einem Open Office Calc -Format vorliegen, aus einer gewissen Spalte alle HTML Tags filtern, so dass der reine Text übrig bleibt - also ohne jegliche HTML Attribute.
    Hat jemand eine Idee, wie ich dabei vorgehen könnte oder welches Tool man da benutzen kann? Selbstverständlich muss es nicht unbedingt ein kostenloses Tool sein und der Output sollte wieder eine (dieselbe Tabelle) sein.

    Ich hoffe auf Hilfe!

  • ok egtl funktioniert die jobbörse so:
    man bietet was an und bekommt dafür das script
    (anbieten z.B. kl geldbeträge, alte hardware o.Ä.)

    aber mal egal.

    wie sieht denn die source aus?

  • Die Source ist eine ganz normale csv oder text Tabelle, die in Excel oder Openoffice bearbeitet werden soll. Die Datei (Tabelle) wird von einer Datenbank ausgegeben und enthält einen Text in einer speziefischen Spalte, der leider mit HTML Codes dargestellt wird.
    zb:
    <TABLE width="100%" border=0><TBODY><TR><TD vAlign=top bgColor=#c0c0c0><FONT face=Arial color=#ff0000 size=7><P align=center><STRONG><U>LEUTNANT</U></STRONG></P><P align=center><STRONG><U>BLUEBERRY</U></STRONG></P><P align=center><STRONG><U><FONT size=5>Band&nbsp;35 - "Gebrochene Nase"</FONT></U></STRONG></P><P align=center><STRONG><U><FONT size=5></FONT></U></STRONG>&nbsp;</P><P align=center><FONT size=5>Militärische Geheimaufträge, Indianeraufstände, </FONT></P><P align=center><FONT size=5>skrupellose Banditen - </FONT></P><P align=center><FONT size=5>das ist die Welt des unverwüstlichen Haudegens </FONT></P><P align=center><FONT size=5><STRONG>Leutnant Blueberry</STRONG>.</FONT></P><P align=center><FONT size=5></FONT>&nbsp;</P><P align=center><FONT size=5>Das von dem großartigen Zeichner</FONT></P><P align=center><FONT size=5>&nbsp;<STRONG>Giraud</STRONG></FONT></P><P align=center><FONT size=5>&nbsp;in Szene gesetzte und von dem</FONT></P><P align=center><FONT size=5>&nbsp;herausragenden Autor</FONT></P><P align=center><FONT size=5>&nbsp;<STRONG>Charlier</STRONG></FONT></P><P align=center><FONT size=5>&nbsp;getextete&nbsp;Album ist 1985 im Ehapa-Verlag </FONT></P><P align=center><FONT size=5>erschienen.</FONT></P><P align=center><FONT size=5></FONT>&nbsp;</P><P align=center><P align=center><FONT size=5></FONT></P><FONT size=5></FONT><P></P><P align=center><FONT size=5>Hardcover</FONT></P><P align=center><FONT size=5>DIN A 4, ca.&nbsp;48 Seiten&nbsp;</FONT></P><P align=center>&nbsp;</P><P align=center><FONT face="Arial Black" color=#ff0000><FONT size=4>Zustand:&nbsp;Sehr gut</FONT></FONT></P></FONT><P class=MsoNormal align=center><FONT color=#ff0000><SPAN style="FONT-SIZE: 10pt; FONT-STYLE: italic; FONT-FAMILY: Arial Black"></SPAN></FONT>&nbsp;</P><P class=MsoNormal align=center><FONT color=#ff0000><SPAN style="FONT-SIZE: 10pt; FONT-STYLE: italic; FONT-FAMILY: Arial Black"><FONT size=3></FONT>&nbsp;</P><P align=center><FONT face="Arial Black" color=#ff0000 size=3><FONT size=3>Alle Preise inkl.gesetzlicher MwSt</FONT></FONT></P></SPAN></FONT><SPAN style="mso-ansi-language: DE"><P class=MsoNormal><SPAN style="mso-ansi-language: DE"></SPAN>&nbsp;</P><P class=MsoNormal><SPAN style="mso-ansi-language: DE"><?XML:NAMESPACE PREFIX = O /><O:P></O:P></SPAN></P><P class=MsoNormal></P></SPAN></TD></TR><O:P></O:P></SPAN><P></P></TD></TR></TBODY></TABLE><CENTER><IMG src="http://pics.ebay.com/aw/pics/sell/templates/images/k2/tagline.gif" border=0> <BR><FONT face=Arial,Helvetica size=2>Erstellt durch <A href="http://pages.ebay.de/turbo_lister/">eBay Turbo Lister</A> <BR>Das kostenlose Einstell-Tool. Stellen Sie Ihre Artikel schnell und bequem ein und verwalten Sie Ihre aktiven Angebote. </FONT></CENTER>

    Im Grunde würde genügen <alles was hier steht inkl. Klammern> und "&nbsp;" herauszufiltern, vieleicht direkt in Excel oder Openoffice. Oder nach externer Bearbeitung wieder dieselbe Tabelle zu haben, mit der selben Spalten/Zeileneinteilung nur eben ohne HTML tags.

    Wir sind Ebay und Amazon-Händler und brauchen die Artikelbeschreibungen HTML-frei um die Daten leichter an unseren Onlineshop übergeben zu können. Die Schnittstellen von z.B. Ebay schicken die Daten allerdings immer mit HTML tags.
    Da ich keine Ahnung über den Aufwand habe, der da dahintersteckt, fällt es mir schwer etwas zu veranschlagen. Wie bereits erwähnt steht ein Etat zur Verfügung und ich würde mich sehr freuen wenn sich jemand, nach Absprache, damit auseinandersetzen würde. Ich denke dass man sich da auf jeden Fall einig wird.

  • ist sowas in etwas das was du dir vorstellst?

    Spoiler anzeigen
    [autoit]

    #include <Array.au3>
    #include <String.au3>
    $string = '<TABLE width="100%" border=0><TBODY><TR><TD vAlign=top bgColor=#c0c0c0><FONT face=Arial color=#ff0000 size=7><P align=center><STRONG><U>LEUTNANT</U></STRONG></P><P align=center><STRONG><U>BLUEBERRY</U></STRONG></P><P align=center><STRONG><U><FONT size=5>Band&nbsp;35 - "Gebrochene Nase"</FONT></U></STRONG></P><P align=center><STRONG><U><FONT size=5></FONT></U></STRONG>&nbsp;</P><P align=center><FONT size=5>Militärische Geheimaufträge, Indianeraufstände, </FONT></P><P align=center><FONT size=5>skrupellose Banditen - </FONT></P><P align=center><FONT size=5>das ist die Welt des unverwüstlichen Haudegens </FONT></P><P align=center><FONT size=5><STRONG>Leutnant Blueberry</STRONG>.</FONT></P><P align=center><FONT size=5></FONT>&nbsp;</P><P align=center><FONT size=5>Das von dem großartigen Zeichner</FONT></P><P align=center><FONT size=5>&nbsp;<STRONG>Giraud</STRONG></FONT></P><P align=center><FONT size=5>&nbsp;in Szene gesetzte und von dem</FONT></P><P align=center><FONT size=5>&nbsp;herausragenden Autor</FONT></P><P align=center><FONT size=5>&nbsp;<STRONG>Charlier</STRONG></FONT></P><P align=center><FONT size=5>&nbsp;getextete&nbsp;Album ist 1985 im Ehapa-Verlag </FONT></P><P align=center><FONT size=5>erschienen.</FONT></P><P align=center><FONT size=5></FONT>&nbsp;</P><P align=center><P align=center><FONT size=5></FONT></P><FONT size=5></FONT><P></P><P align=center><FONT size=5>Hardcover</FONT></P><P align=center><FONT size=5>DIN A 4, ca.&nbsp;48 Seiten&nbsp;</FONT></P><P align=center>&nbsp;</P><P align=center><FONT face="Arial Black" color=#ff0000><FONT size=4>Zustand:&nbsp;Sehr gut</FONT></FONT></P></FONT><P class=MsoNormal align=center><FONT color=#ff0000><SPAN style="FONT-SIZE: 10pt; FONT-STYLE: italic; FONT-FAMILY: Arial Black"></SPAN></FONT>&nbsp;</P><P class=MsoNormal align=center><FONT color=#ff0000><SPAN style="FONT-SIZE: 10pt; FONT-STYLE: italic; FONT-FAMILY: Arial Black"><FONT size=3></FONT>&nbsp;</P><P align=center><FONT face="Arial Black" color=#ff0000 size=3><FONT size=3>Alle Preise inkl.gesetzlicher MwSt</FONT></FONT></P></SPAN></FONT><SPAN style="mso-ansi-language: DE"><P class=MsoNormal><SPAN style="mso-ansi-language: DE"></SPAN>&nbsp;</P><P class=MsoNormal><SPAN style="mso-ansi-language: DE"><?XML:NAMESPACE PREFIX = O /><O:P></O:P></SPAN></P><P class=MsoNormal></P></SPAN></TD></TR><O:P></O:P></SPAN><P></P></TD></TR></TBODY></TABLE><CENTER><IMG src="http://pics.ebay.com/aw/pics/sell/templates/images/k2/tagline.gif" border=0> <BR><FONT face=Arial,Helvetica size=2>Erstellt durch <A href="http://pages.ebay.de/turbo_lister/">eBay Turbo Lister</A> <BR>Das kostenlose Einstell-Tool. Stellen Sie Ihre Artikel schnell und bequem ein und verwalten Sie Ihre aktiven Angebote. </FONT></CENTER>'
    $between = _StringBetween($string, ">", "<")
    For $i = Ubound($between)-1 To 0 Step -1
    $between[$i] = Stringreplace($between[$i], "&nbsp;", "")
    If not StringStripWS($between[$i], 8) Then
    _ArrayDelete($between, $i)
    EndIf
    Next
    $string = _ArrayToString($between)
    Msgbox(0,"",$string)

    [/autoit]
  • Hallo, fast. Ich stelle mir eben eine reine Text-Ausgabe, ohne jegliche Formatierung vor.

  • So?

    [autoit]

    #include <String.au3>
    Local $table = "", $buffer, $string = '<TABLE width="100%" border=0><TBODY><TR><TD vAlign=top bgColor=#c0c0c0><FONT face=Arial color=#ff0000 size=7><P align=center><STRONG><U>LEUTNANT</U></STRONG></P><P align=center><STRONG><U>BLUEBERRY</U></STRONG></P><P align=center><STRONG><U><FONT size=5>Band&nbsp;35 - "Gebrochene Nase"</FONT></U></STRONG></P><P align=center><STRONG><U><FONT size=5></FONT></U></STRONG>&nbsp;</P><P align=center><FONT size=5>Militärische Geheimaufträge, Indianeraufstände, </FONT></P><P align=center><FONT size=5>skrupellose Banditen - </FONT></P><P align=center><FONT size=5>das ist die Welt des unverwüstlichen Haudegens </FONT></P><P align=center><FONT size=5><STRONG>Leutnant Blueberry</STRONG>.</FONT></P><P align=center><FONT size=5></FONT>&nbsp;</P><P align=center><FONT size=5>Das von dem großartigen Zeichner</FONT></P><P align=center><FONT size=5>&nbsp;<STRONG>Giraud</STRONG></FONT></P><P align=center><FONT size=5>&nbsp;in Szene gesetzte und von dem</FONT></P><P align=center><FONT size=5>&nbsp;herausragenden Autor</FONT></P><P align=center><FONT size=5>&nbsp;<STRONG>Charlier</STRONG></FONT></P><P align=center><FONT size=5>&nbsp;getextete&nbsp;Album ist 1985 im Ehapa-Verlag </FONT></P><P align=center><FONT size=5>erschienen.</FONT></P><P align=center><FONT size=5></FONT>&nbsp;</P><P align=center><P align=center><FONT size=5></FONT></P><FONT size=5></FONT><P></P><P align=center><FONT size=5>Hardcover</FONT></P><P align=center><FONT size=5>DIN A 4, ca.&nbsp;48 Seiten&nbsp;</FONT></P><P align=center>&nbsp;</P><P align=center><FONT face="Arial Black" color=#ff0000><FONT size=4>Zustand:&nbsp;Sehr gut</FONT></FONT></P></FONT><P class=MsoNormal align=center><FONT color=#ff0000><SPAN style="FONT-SIZE: 10pt; FONT-STYLE: italic; FONT-FAMILY: Arial Black"></SPAN></FONT>&nbsp;</P><P class=MsoNormal align=center><FONT color=#ff0000><SPAN style="FONT-SIZE: 10pt; FONT-STYLE: italic; FONT-FAMILY: Arial Black"><FONT size=3></FONT>&nbsp;</P><P align=center><FONT face="Arial Black" color=#ff0000 size=3><FONT size=3>Alle Preise inkl.gesetzlicher MwSt</FONT></FONT></P></SPAN></FONT><SPAN style="mso-ansi-language: DE"><P class=MsoNormal><SPAN style="mso-ansi-language: DE"></SPAN>&nbsp;</P><P class=MsoNormal><SPAN style="mso-ansi-language: DE"><?XML:NAMESPACE PREFIX = O /><O:P></O:P></SPAN></P><P class=MsoNormal></P></SPAN></TD></TR><O:P></O:P></SPAN><P></P></TD></TR></TBODY></TABLE><CENTER><IMG src="http://pics.ebay.com/aw/pics/sell/templates/images/k2/tagline.gif" border=0> <BR><FONT face=Arial,Helvetica size=2>Erstellt durch <A href="http://pages.ebay.de/turbo_lister/">eBay Turbo Lister</A> <BR>Das kostenlose Einstell-Tool. Stellen Sie Ihre Artikel schnell und bequem ein und verwalten Sie Ihre aktiven Angebote. </FONT></CENTER>'

    [/autoit][autoit][/autoit][autoit]

    $split = StringSplit($string, "</P>", 1)
    For $i = 1 To UBound($split) - 1
    $between = _StringBetween($split[$i], ">", "<")
    $buffer = ''
    For $j = 0 To UBound($between) - 1
    $replace = StringRegExpReplace($between[$j], "<.+>", "")
    $replace = StringReplace($replace, "&nbsp;", " ")
    if StringRegExp($replace, "\w") Then $buffer &= $replace
    Next
    If $buffer <> '' Then $table &= $buffer & @CRLF
    Next
    MsgBox(0, "", $table)

    [/autoit]