URL: https://www.overclockers.at/coding-stuff/website_auslesen_parsen_218106/page_1 - zur Vollversion wechseln!
Ich würd gern von diversen Websites Informationen/Daten automatisiert auslesen und in ein für mich brauchbares Format (xml) bringen.
Weiss jemand obs dazu brauchbare Libraries gibt? Programmiersprache ist mir eigentlich ziemlich egal. Non-Gui only - soll auf einem Server laufen.
Hat jemand Ahnung wie das ganze eigentlich rechtlich aussieht? Konkret würd ich gern Kinoprogramme von diversen Seiten (zb. Cineplexx) holen und in einer Android App darstellen. Die App wäre kostenlos, aber zb. mit Werbeeinblendungen.
Bei konformen Seiten sollte eigentlich jede XML-Library können was du brauchst - da ist der Inhalt ja eigentlich sowieso schon in XML dargestellt. Wie es bei nicht standardkonformen Seiten aussieht weiß ich nicht genau, könnte mir aber vorstellen dass das abenteuerlich werden kann...
Hab so etwas einmal unter Linux gemacht.
Mit wget (Link) die Webseite geholt und anschließend mit einem Perl Script die relevanten Daten rausgefischt.
Schön wäre halt auch wenn das Teil von selbst das paging berücksichtigt Usw. Das es manuell geht ist schon klar - dachte nur es gibt da vielleicht schon was.
http://docs.python.org/library/htmlparser.html - hf!
Auch: http://www.crummy.com/software/BeautifulSoup/
allerdings glaube ich fast, dass sie darauf bestehen können, dass du die App zurücknimmst (da ihre Daten)
naja, auch andere seiten fassen kinoprogramme zusammen.
Zitat von COLOSSUSAuch: http://www.crummy.com/software/BeautifulSoup/
wie würde ein paging erkannt werden?
Zitat von Nicowie würde ein paging erkannt werden?
Hast du schon mal überlegt bei cineplexx, etc. zu fragen ob sie nicht eh die Daten auch "freiwillig" hergeben würden?
Fürs HTML-Parsen in welch noch so unschöner Form kann ich http://nokogiri.org/ (Ruby) empfehlen. Unterstützt CSS und XPATH expressions, kann den Baum auch manipulieren, etc. Hab ich in der Firma verwendet um mehrere tausend statische HTML-Dokument mit unterschiedlichsten Formen zu bereinigen und nach XML zu konvertieren.
overclockers.at v4.thecommunity
© all rights reserved by overclockers.at 2000-2025