Université Saint-Louis - Bruxelles
|

COMU2115 - Traitement de données et web sémantique



Au vu du contexte sanitaire lié à la propagation du coronavirus, les modalités d'organisation et d'évaluation des unités d'enseignement ont pu, dans différentes situations, être adaptées. Ces éventuelles nouvelles modalités ont été -ou seront- communiquées aux étudiant·es.



Crédits : 5

Professeur :
Mode d'enseignement :
Présentiel, premier quadrimestre, 45 heures de théorie.

Langues d'enseignement :
Français

Objectifs d'apprentissage :
Compétence 2 - Maîtriser les méthodes, les outils et les canaux de communication interactive et collaborative
Acquis d'apprentissage
1. Maîtriser les grands principes d'architecture, de fonctionnement et de sécurisation des réseaux informatiques et socionumériques d'une organisation
4. Maîtriser les méthodes et les techniques de collecte, de traitement et de visualisation des données issues du web



Prérequis :
Aucun

Corequis :
Aucun

Contenu de l'activité :
L'évolution de la quantité et de la diversité des données et informations disponibles sur le web, notamment par l'avènement des médias sociaux, impliquent des méthodes et des outils pour intégrer celles-ci dans la gestion de la communication des organisations. Cette UE fournira, d'une part, des connaissances nécessaires à la compréhension du web sémantique et du web de données; d'autre part, elle permettra d'acquérir la connaissance des technologies, des standards et modèles, des usages et des enjeux liés au web sémantique et au web de données. Des illustrations, des études de cas et des exercices pratiques viendront éclairer et appuyer les apports théoriques et techniques.

Les thèmes abordés sont notamment les suivants :
• rappel des principaux systèmes de gestion de bases de données ;
• topologie des systèmes de gestion des données web (Big Data, Open Data…) ;
• méthodes d'exploitation des données dans les principales applications de la communication interactive et collaborative (responsive design, travail collaboratif, réalité augmentée...) ;
• principes à la base du web sémantique (état de l'art, Data Mining…), enjeux, défis et développements (« web 3.0 ») liés à sa réalisation ;
• algorithmiques utilisées par les géants du web et stratégies sous-jacentes.



Plan de cours

[01] Données : définitions
- Introduction.
- Données / informations / connaissances.
- Notion d'encodage (Unicode).
- Formats / standards / normes.
- Exemples : CSV, XML, HTML, JSON, Open Document Format.
- Qualité des données.
- Pérennité des données.

[02] Bases technologiques (mise à disposition)
- Concept de site web.
- Notions de client, de serveur.
- Langages de programmation web (PHP, Javascript,...).
- Concept de système de gestion de contenu (CMS).
- Mise à disposition.
- Par site web (fichier).
- Par service web.
- Bases technologiques : HTTP, REST, SOAP, JSON.
- Concept de web programmable (mashup).
- Infrastructures de cloud computing.
- IaaS / PaaS / SaaS.
- Cloud public / cloud privé.
- Lock-in et concept d'open cloud.
- Concept de Big Data.
- 3V.
- Technologies dédiées.

[03] Bases technologiques (stockage et analyse)
- Stockage des données.
- Concepts : fichier, bases SQL, base NoSQL.
- Fichiers.
- Bases de données relationnelles.
- Bases de données NoSQL.
- Indexeurs.
- Intégration de données.
- Concept d'ETL.
- Analyse des données.
- Outils statistiques.
- Outils : LibreOffice.org Calc / Microsoft Excel, Google Spreadsheet, R.
- Exemples pratiques.
- Outils d'analyse de graphes.
- Outil : Gephi.
- Exemples pratiques.

[04] Bases juridiques
- Notions de droit d'auteur.
- Notions de droit des bases de données.
- Concept d'open source.
- Logiciel : licences open source software.
- Contenus : licences open content.
- Données : licences open data.
- Notions de droit de la vie privée.
- Autres : localisation des données,...

[05] Documents web
- Structure d'un document HTML.
- Extraction de données non structurées (rétroingénierie).
- Expressions régulières.
- Xpath / Xquery.
- Extraction de terminologie / d'entités nommées.
- Indexation et recherche d'information.
- Architecture d'un moteur de recherche.
- Recherche d'information sur le web.
- Cas pratiques.

[06] Réseaux sociaux
- Principaux réseaux sociaux : cibles, spécificités,...
- Suivi de réputation en ligne.
- Accès aux données par web API.
- Aspects technologiques.
- Aspects contractuels.
- Aspects légaux.
- Cas pratiques.

[07] Open data
- Concepts d'open data et de commun informationnel.
- Licences open data (rappel).
- Initiatives publiques.
- Initiatives communautaires.
- Étude de cas : OpenStreetMap.
- Initiatives académiques.
- Open science et Open research data
- Initiatives privées..
- Animation autour des open data.
- Ateliers créatifs.
- Hackathon (organisation, bonnes pratiques).
- Crowdsourcing.

[08] Web sémantique
- Formats de données.
- Sémantique « soft » : RDFa, microformat, microdata.
- Sémantique « hard » : RDF, OWL,… + SPARQL.
- Concept d'ontologie.
- Concept de Linked Open Data (LOD).
- Études de cas : Wikipedia, DBpedia, Wikidata.

[09] Interventions externes.

[10] Projet : travaux en groupe.



Activités d'apprentissages prévues et méthodes d'enseignement :
Cours ex cathedra, incluant exemples et études de cas, privilégiant les interactions de groupe.
Interventions externes en fonction de la disponibilité des intervenants.
Travail pratique réalisé en groupe pour mobiliser et approfondir les savoirs vus en cours.
Pour les étudiants qui sont dans l'impossibilité de suivre une partie de l'UE en présentiel ?
Accès :
- au support de cours,
- directement à l'enseignant via le mail ou la plate-forme Claroline (forums).


Supports spécifiques à l'UE

Diaporama complet.
Références externes pour approfondissement.


Méthodes d'évaluation :
Première session :
L'évaluation est progressive et inclut trois épreuves complémentaires :
- un examen de connaissance (20%) à mi-parcours portant sur un ensemble de concepts préalablement communiqués et présentés dans le support de cours (modalité : examen écrit hors session),
- un travail pratique individuel (20%) portant sur la présentation brève de deux cas pratiques de traitement de données et mobilisant les concepts assimilés (modalité : remise d'un rapport),
- un travail pratique de groupe (60%) mobilisant des outils collaboratifs ainsi que les concepts assimilés et portant sur l'analyse approfondie et la présentation d'un cas pratique de traitement de données (modalité : remise d'un rapport commun et présentation du travail par le groupe en session).

- Tout travail incomplet, bâclé et/ou non relu est refusé.
- Tout travail non remis ou remis hors délais sans justification officielle (certificat…), est considéré comme non déposé. L'étudiant se voit alors attribué la note de PP (pas présenté), ce qui entraîne de facto l'échec de l'UE toute entière.?

Seconde session :
Examen écrit.

Critères de réussite

L'UE vaut 5 crédits. La réussite est à 10/20.

Une présence active à au moins 80 % des heures est requise, faute de quoi l'étudiant pourra être mis en échec pour l'activité concernée (Art. 18 du Règlement des études ICHEC-ISFSC). Les absences justifiées (certificat) n'entrent pas dans ce calcul.


Bibliographie :
* Christophe Brasseur (2016), Enjeux et usages du big data, Lavoisier Hermes.
* Simon Chignard (2012). Open data : comprendre l'ouverture des données publiques. Collection Entreprendre, FYP Editions.
* Pierre Delort (2015), Le Big Data, PUF.
* Fabien Gandon, Catherine Faron-Zucker, Olivier Corby (2012), Le web sémantique - Comment lier les données et les schémas sur le web ?, Dunod.
* Pirmer Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli (2016), Big Data et Machine Learning - Les concepts et les outils de la data science, Dunod.
* Véronique Mesguich, Armelle Thomas (2013), Net recherches 2013 - Surveiller le web et trouver l'information utile, De Boeck Supérieur.
* Gary Miner, John Elder, Andrew Fast, Thomas Hill, Robert Nisbet, Dursun Delen (2012), Practical text mining and statistical analysis for non structured text data, Academic Press.
* Robert Viseur (2015), « Utiliser Wikipédia pour la création d'une base de données biographiques : mise en œuvre et étude des limitations ». In Wikipédia, objet scientifique non identifié. Presses universitaires de Paris Ouest.