dark side of a blog
2020-04-06
Préface
Haaa dada, te voilà. Si tu travailles dans la pub au Luxembourg et que tu n’as jamais entendu parler d’adada1, bien c’est que tu ne travailles pas vraiment dans la pub.
Pour ceux qui ne connaissent pas, depuis 2010 adada
suit et archive les actualités publicitaires au Luxembourg. C’est probablement un site que nous connaissons tous pour y avoir vu ses propres créations et réalisations.
Aujourd’hui Jérome Rudoni2 bosse à plein temps sur son projet et édite même une version papier (4 numéros/an) dont Le numéro 3 est sorti en décembre 2019. (J’avoue que la démarche est courageuse et louable vu la difficulté qu’ont les éditeurs à monétiser leurs contenus. Je ne vous apprends rien).
Le travail présenté fut un processus long et parfois même fastidieux. Il faut donc avoir une certaine affinité avec ce que l’on analyse si l’on veut garder la motivation et le cap.
Heureusement le contenu du site me parle tout particulièrement, mais c’est aussi un prétexte pour aborder un sujet bien spécifique que l’on peut retrouver dans nos missions diverses : l’analyse de site web3. Bien souvent et ce qui me concerne, je suis amené à analyser plutôt le trafic (ABO : Acquisition - Behaviour - Outcomes) que son contenu même si l’un ne va pas sans l’autre.
C’est donc pour moi l’occasion de mettre en pratique ma connaissance de R
et vous montrer une partie du champ des possibles.
Bref, voilà le cadre est fixé. Alors, que nous cache adada? Que pouvons-nous extraire comme informations? Quelles sont les questions auxquelles nous pourrons répondre?
Au long de cet article, j’aborderais :
- l’extraction de données (chapitre 2)
- le nettoyage de données (section 2.2, 2.3, 2.4)
- le scraping de contenu (section 2.5)
- l’extraction d’informations (section 2.6, 2.7)
- la jonction de plusieurs tables (section 2.8, 2.9)
- l’enrichissement de données supplémentaires (section 2.10)
- la labélisation de titre (section 2.11)
- la repésentation graphique de réseau (section 3.3.4)
- le Text Mining (chapitre 4)
- la représentation sous forme de nuages de mots (section 4.4)
- l’analyse de sentiments (chapitre 5)
Nous tenterons aussi de répondre à quelques questions, comme :
- le nombre d’articles publiés
- les agences les plus mentionnées
- les clients cités
- les commentaires négatifs, etc.
Bonne lecture.
Profil Linkedin: https://www.linkedin.com/in/jeromerudoni/?originalSubdomain=lu↩
Web Analytics : https://en.wikipedia.org/wiki/Web_analytics↩