Website auslesen/parsen

Seite 1 von 1 - Forum: Coding Stuff auf overclockers.at

URL: https://www.overclockers.at/coding-stuff/website_auslesen_parsen_218106/page_1 - zur Vollversion wechseln!

ica schrieb am 09.08.2010 um 21:03

Ich würd gern von diversen Websites Informationen/Daten automatisiert auslesen und in ein für mich brauchbares Format (xml) bringen.

Weiss jemand obs dazu brauchbare Libraries gibt? Programmiersprache ist mir eigentlich ziemlich egal. Non-Gui only - soll auf einem Server laufen.

Hat jemand Ahnung wie das ganze eigentlich rechtlich aussieht? Konkret würd ich gern Kinoprogramme von diversen Seiten (zb. Cineplexx) holen und in einer Android App darstellen. Die App wäre kostenlos, aber zb. mit Werbeeinblendungen.

jives schrieb am 09.08.2010 um 21:19

Bei konformen Seiten sollte eigentlich jede XML-Library können was du brauchst - da ist der Inhalt ja eigentlich sowieso schon in XML dargestellt. Wie es bei nicht standardkonformen Seiten aussieht weiß ich nicht genau, könnte mir aber vorstellen dass das abenteuerlich werden kann...

muene schrieb am 09.08.2010 um 21:20

Hab so etwas einmal unter Linux gemacht.
Mit wget (Link) die Webseite geholt und anschließend mit einem Perl Script die relevanten Daten rausgefischt.

ica schrieb am 09.08.2010 um 21:23

Schön wäre halt auch wenn das Teil von selbst das paging berücksichtigt Usw. Das es manuell geht ist schon klar - dachte nur es gibt da vielleicht schon was.

COLOSSUS schrieb am 09.08.2010 um 21:33

http://docs.python.org/library/htmlparser.html - hf!

Auch: http://www.crummy.com/software/BeautifulSoup/

fatmike182 schrieb am 09.08.2010 um 21:35

allerdings glaube ich fast, dass sie darauf bestehen können, dass du die App zurücknimmst (da ihre Daten)

Nico schrieb am 09.08.2010 um 21:37

naja, auch andere seiten fassen kinoprogramme zusammen.

ica schrieb am 09.08.2010 um 21:44

Zitat von COLOSSUS
Auch: http://www.crummy.com/software/BeautifulSoup/

schaut schonmal gut aus. thx!

nochmals: das es html/xml parser gibt ist mir schon klar, aber ich will das nicht "händisch" machen. ich will sagen node x mit class y unter node z ist ein item, gib mir alle und am besten wenns ein paging gibt auch alle der darauffolgenden seiten.

Nico schrieb am 09.08.2010 um 21:52

wie würde ein paging erkannt werden?

ica schrieb am 09.08.2010 um 21:56

Zitat von Nico
wie würde ein paging erkannt werden?

keine ahnung ob es das gibt. aber schätzungsweise via angabe des form tags bzw. a tags.

watchout schrieb am 10.08.2010 um 03:16

Hast du schon mal überlegt bei cineplexx, etc. zu fragen ob sie nicht eh die Daten auch "freiwillig" hergeben würden?

Rektal schrieb am 11.08.2010 um 12:59

Fürs HTML-Parsen in welch noch so unschöner Form kann ich http://nokogiri.org/ (Ruby) empfehlen. Unterstützt CSS und XPATH expressions, kann den Baum auch manipulieren, etc. Hab ich in der Firma verwendet um mehrere tausend statische HTML-Dokument mit unterschiedlichsten Formen zu bereinigen und nach XML zu konvertieren.