RMC

La chronique d'Anthony Morel: le défi technologique du Grand Débat National

Chaque matin, Anthony Morel fait le point sur les nouveautés high-tech.

Pour le gouvernement, le "grand débat national" pose un défi technologique de taille. Il faut en effet analyser et synthétiser des centaines de milliers de contributions des Français, que ce soit sur le site officiel, pendant les réunions publiques locales ou dans les cahiers de doléances.

C'est pourquoi, il a lancé un appel d'offres aux entreprises capables de numériser ces données. Mais est-ce vraiment réalisable? 

250 pages à la minute

Un appel d’offres a été lancé par le gouvernement pour retranscrire les milliers de cahiers de doléances placés dans les mairies en fichiers numériques exploitables et lisibles: l’appel d’offre concerne "au moins 300.000 pages A4, sans maximum". Et surtout très rapidement: comme le précise l’appel d’offres, les conclusions du gouvernement d’après les contributions doivent être publiées au mois d’avril.

Donc pas de temps à perdre: il faut à la fois des scanners ultra-performants et ce qu’on appelle des logiciels de reconnaissance optique de caractères (OCR), capables de reconnaître les lettre sur un texte écrit à la main et de les mettre au propre.

Il existe aujourd'hui quelques solutions pour ce travail titanesque, comme le BFS Auto. Il s'agit d'une machine capable de numériser 250 pages à la minute sans intervention humaine. Il suffit de poser un cahier, un bras robotique tourne les pages et un systèmes de caméra très sophistiqué prend en photo et numérise chaque page en moins d’une demi seconde. Problème: c’est un prototype conçu par un laboratoire japonais. 

Décortiquer toutes les contributions

Autre question de taille: comment tirer la substantifique moelle de toutes ces contributions? Il est impossible de ne pas faire appel à la machine et des "data scientists", des spécialistes de l’analyse de donnée en masse.

Selon des informations de presse, le gouvernement compte également faire appel à des algorithmes pour tenter de comprendre les mots où les phrases, et donc les revendications ou les propositions qui reviennent le plus souvent, pour les faire remonter à la surface… Ce seraient des instituts de sondage comme OpinionWay ou des spécialistes du numérique comme Cap Gemini qui s’en occuperaient. 

Permettre à tous les Français d’avoir accès à ces contributions sous forme lisible 

C’est le troisième défi numérique de ce grand débat: celui de la restitution… Et ce ne sera pas du luxe: il faut savoir que les contributions sont mises au fur et à mesure à disposition de tous, en accès libre - ce qu’on appelle en « open data », sur le site data.gouv.fr.

Clairement: aujourd'hui, il faut vraiment être très motivé pour défricher tout ça parmi la jungle de tableaux Excel interminables et franchement illisibles.

Là encore, il y a des entreprises dont c’est le travail de remettre tout ça en forme sous forme beaucoup plus accessible, et ce serait probablement une bonne chose. 

Anthony Morel avec Xavier Allain