SitePoint : PHP and XML, Parsing RSS 1.0
Par Auteur INTERNE, jeudi 27 septembre 2001 à 10:01 :: Lu sur le Web :: #579 :: rss
Le XML permet l'échange de données formatées entre des machines de technologies bien différentes. Sans rentrer dans le détails du XML, vous savez sûrement qu'il est possible de définir ses propres balises (fort proche du HTML car tout deux découlent du SGML) et représenter n'importe quel type de données textuelles. Pour faciliter l'échange de ces données, il fut donc primordial de standardiser les balises. Resource Description Framework (RDF) Site Summary, c'est à dire le RSS est un de ces standards.
Cet article propose une méthode pour récupérer le contenu d'un fichier RSS version 1.0 avec PHP. Mais cette méthode est applicable à n'importe quel type de fichier XML. L'auteur, Kevin Yank, propose deux méthodes pour traiter les documents XML : event-based et Document Object Model (DOM).
Quelque soit la solution, le traitement se fait en mémoire, il est donc proscrit de traiter d'énormes fichiers RSS, je pense notamment au contenu de l'ODP qui est disponible au format RDF en plusieurs fichiers de plus de 100 Mo compressés. Imaginez donc le temps de traitement d'un tel fichier avec PHP.
La première solution (event-based) traite les événements les uns après les autres comme ils arrivent au fur et à mesure de la lecture du fichier. Cette approche utilise une collection de fonctions et le traitement se veut linéaire.
La seconde solution est Orientée Objet. La class RSSParser vous permettra de traiter vos documents RSS plus facilement qu'avec une collection de fonctions. Cette seconde approche me parait plus appropriée pour une question de modularité.
Les codes source de chaque solution sont disponibles avec l'article.
L'article
Solution event-based
Solution DOM
Le format RDF
Le format RSS







Commentaires
#1 - Le mardi 16 octobre 2007 à 18:39, par flux
Ajouter un commentaire
Vous pouvez soumettre un commentaire en remplissant le formulaire ci-dessous. Toutes les contributions font l'objet d'une étape de modération par notre équipe.
Le code HTML dans le commentaire sera affiché comme du texte, les adresses internet seront converties automatiquement.