Grâce à des financements publics conséquents, à de larges bases de données et à de gigantesques viviers de talents, la Chine réduit rapidement l'écart technologique dans le développement de l’Intelligence Artificielle. Elle y parvient également en tirant parti de ses singularités pour dominer le secteur, notamment en ce qui concerne l'une des disciplines fondamentales de l'IA, le traitement automatique du langage naturel (TLN).

La Chine a du talent

La pénurie en puces informatiques pourrait ralentir l’ambition de la Chine de devenir le champion de l’IA dans tous les domaines, mais il ne peut pas l’empêcher d’être à la pointe dans certaines disciplines. Bénéficiant d’un accès facile à d’énormes données et à d’importantes réserves de talents, la Chine est à la pointe de l’IA conversationnelle et du traitement du langage naturel. S’appuyant sur ces points forts, les entreprises chinoises sont reconnues à l’étranger et gagnent en popularité grâce aux applications polyvalentes qu’elles proposent.

Baidu domine les logiciels d’IA conversationnelle dans le monde entier, et sa plateforme a surclassé le T5 de Google, devenant ainsi le meilleur interprète en anglais. Le leader asiatique de la reconnaissance vocale, iFLYTEK, et la très attendue startup Xiaoice balaient le marché national et international avec leurs impressionnantes “méthodes intelligentes” d’interaction avec les utilisateurs finaux.

L’ABC du traitement du langage naturel (TLN)

Qu’est-ce que le TLN? Le traitement du langage naturel est le traitement automatisé par des machines pour comprendre les langues humaines.

Pour qu’une machine puisse avoir une conversation normale avec les humains, il faut s’attaquer à l’ambiguïté intrinsèque des langues humaines. Cependant, la barrière naturelle que constituent la déconstruction et la compréhension de la langue mandarine donne un avantage aux développeurs chinois.

Le mandarin est une langue tonale, ce qui signifie qu’un seul mot peut avoir plusieurs sens ou plusieurs significations dans un seul caractère, ce qui constitue un défi de taille pour les acteurs de l’IA.

TLN, le fondement de tout développement de l’IA

Le traitement du langage naturel (TLN) est fondamental pour les applications de l’IA. Les informaticiens forment les ordinateurs à voir, entendre, agir et parler – la principale caractéristique qui distingue les humains des animaux. L’objectif du TLN est d’aider les ordinateurs à comprendre les langues humaines, à être capables de communiquer et, au final, à former une intelligence artificielle. Le TLN s’échelonne sur sept niveaux, de basique à complexe, en fonction de l’utilisation.

Permettre aux ordinateurs de comprendre le sens d’un contexte spécifique (compréhension du langage naturel – CLN) est difficile mais possible, tandis que générer les réponses correspondantes (génération du langage naturel – GLN) est extrêmement difficile. La plupart des applications industrielles en sont encore au stade de la compréhension du langage naturel et doivent relever des défis importants pour passer à la génération du langage naturel.

Les applications typiques de CLN comprennent les interfaces en langage naturel pour les bases de données multilingues, divers systèmes de traduction automatique, les systèmes de recherche d’information et les systèmes de résumé automatique.

Mécanismes de compréhension du langage naturel (CLN)

La CLN utilise des algorithmes pour déconstruire le discours humain en une ontologie structurée – classification des intentions et reconnaissance des entités.

La classification d’intention constitue la base d’un chatbot – elle prend une entrée écrite ou orale et classifie ce que l’utilisateur veut. La reconnaissance d’entités est une sous-tâche de l’extraction d’informations, qui consiste à classer les mots pertinents mentionnés dans un contenu non structuré (conversation), comme un nom (sujet), un lieu (emplacement) et une date (heure).

Les mots sont considérés comme sémantiquement ambigus s’ils peuvent être utilisés de plusieurs façons ou avoir des significations différentes selon le contexte. La grande variété d’ambiguïtés ou de significations multiples existant à tous les niveaux des textes et des conversations en langage naturel constitue un défi particulier pour le développement de l’unité de traitement (UAL).

La façon dont les humains construisent une phrase – dans une expression indirecte ou directe – est une question de science cognitive qui n’a pas de solution bien définie. Le goulot d’étranglement est de savoir comment convertir une entrée en langage naturel potentiellement ambiguë en un certain niveau de commande spécifique qu’un programme peut comprendre.

La langue chinoise: l’ambiguïté comme pierre angulaire

L’ambiguïté de langue chinoise constitue une barrière naturelle à l’entrée sur ce marché.

Le mandarin est une langue basée sur le contexte en raison de l’absence de temps ou de pluralité pour les noms. De nombreux mots (ou caractères) n’ont pas de signification unique à moins d’être liés dans des combinaisons exclusives.

Les significations multiples d’un caractère ou d’un mot, liées à des prononciations multiples, sont souvent source de frustration et de confusion pour les non natifs du mandarin. Les significations peuvent être radicalement modifiées par une simple segmentation différente de la phrase: où la pause se fait ou le placement d’une virgule.

L’apprentissage de la grammaire chinoise est difficile et déroutant pour tout humain, et d’autant plus pour les systèmes d’IA. Un système conçu selon le paradigme anglais se retrouvera dysfonctionnel dans un texte chinois, ce qui accroît la difficulté pour les non-chinois de développer un langage naturel pour une interface en mandarin.

Les leaders du marché chinois

Baidu: Le leader du traitement du langage

L’équipe de Baidu a récemment présenté ERNIE 3.0, son modèle multilingue à grande échelle enrichi de connaissances qui comprend 96 langues.

ERNIE répond à ce problème en présentant un modèle de pré-entraînement qui peut facilement être adapté aux différentes tâches grâce à son réseau de codage automatique. Plus de 20’000 développeurs chinois d’IA dans les secteurs de la finance, des télécommunications, de l’éducation et du commerce électronique ont appliqué ERNIE à leurs systèmes de traitement du langage naturel.

Des données robustes sont la base du développement de l’IA et de l’apprentissage automatique et Baidu possède la plus grande base de données chinoise au monde, dépassant celle de Google. Un ensemble de données “large et propre” est vital pour entraîner et tester les algorithmes. Avec des données limitées pour alimenter la machine, les erreurs de traitement auront un impact significatif sur les résultats. Le mandarin nécessite spécifiquement un traitement spécial pour être converti en une forme binaire reconnaissable par les systèmes informatiques.

ERNIE 3.0 peut mener une activité d’écriture créative en mandarin, en composant des romans, des paroles de chansons et des poèmes sans formation particulière sur les textes et les connaissances. Sa version anglaise a surpassé le T5 de Google, le GPT-3 d’Open AI et d’autres sur SuperGLUE.

Fondé par NYU, l’Université de Washington et DeepMind, SuperGLUE est une série d’évaluations visant à mesurer les performances de l’IA en matière de compréhension du langage. ERNIE 3.0 est arrivé en tête du classement mondial avec un score de 0,8% supérieur aux performances humaines (90,6% contre 89,8%).

iFLYTEK: Un innovateur AI polyvalent

2021.08.31.AtonRa IFYTEK'S AI Learning Assistant PadiFLYTEK, une entreprise partiellement détenue par l’État, est le pionnier de la technologie vocale basée sur l’IA en Chine et est devenu un leader mondial du développement de l’IA.

Elle propose des logiciels de reconnaissance vocale et plus de 10 produits basés sur la voix, couvrant les secteurs de l’éducation et de la communication et aidant le gouvernement à gérer la sécurité nationale grâce à la biométrie vocale. Son Super Brain utilise le big data pour s’auto-former et optimiser ses algorithmes – le système traite activement les données issues des interactions dans des scénarios du monde réel. L’entreprise a remporté 13 victoires consécutives au Blizzard Challenge, le principal concours de synthèse vocale au monde.

Le modèle phare X2 d’iFLYTEK est une machine d’apprentissage intelligente couvrant les programmes d’enseignement de la maternelle à la 12e année (les 12 années allant de l’école primaire au lycée), à partir de 3 999 yuans.

La machine peut détecter et traduire le mot “pointé” sur un manuel scolaire et corriger la grammaire anglaise ainsi que la prononciation. En analysant les questions et les réponses grâce à l’IA, le système peut personnaliser les tests pour aider les élèves à trouver rapidement leurs points faibles.

Le modèle est accompagné d’une souris intelligente qui est une souris IA à frappe vocale qui comprendra (frappe vocale) et fera ce que vous demandez (recherche vocale). Le contenu de la parole peut être instantanément transformé en textes et traduit en 28 langues différentes sans délai. Ses performances sont remarquables car 500 mots peuvent être tapés en une minute avec un taux de reconnaissance vocale de ~98%.

Xiaoice: Un ami virtuel basé sur l’IA

2021.08.31.AtonRa avatar XiaoiceSéparée de Microsoft l’année dernière, Xiaoice est une entreprise chinoise a développé une application permettant aux utilisateurs d’interagir et de devenir “amis” avec un chatbot alimenté par l’IA. En dépeignant la personnalité d’une adolescente chinoise de 18 ans, Xiaoice a acquis une énorme base de fans en Chine et dans le monde, avec plus de 900 millions d’utilisateurs de l’application (“amis”).

Les talents multiples de Xiaoice lui ont valu un énorme succès: elle est poète, peintre, animatrice de télévision, comptable, compagne empathique, et bien plus encore. L’avatar peut créer un travail de même qualité que celui des humains – composer un morceau de musique hip-hop et le jouer.

L’avatar Xiaoice est dotée de 230 compétences différentes (allant de la réponse à des questions à la recommandation de films en passant par la tenue de conversations ininterrompues) qui peuvent être appliquées à divers contextes et, surtout, aux entreprises. Xiaoice a une moyenne de 23 conversations par session (une métrique utilisée pour mesurer l’engagement des utilisateurs), contre 1 à 3 pour les assistants personnels vocaux et 3 à 7 pour les tâches vocales.

Aujourd’hui, environ 60% du trafic mondial d’interactions IA-humain passe par le cadre avatar, même s’il est présenté sous des noms virtuels différents.

Catalyseurs

Un meilleur accès aux bases de données à code source ouvert. Les entreprises d’IA talentueuses mais de moindre envergure peuvent accéder à des réseaux de sources ouvertes et construire les modèles sans avoir à créer leurs propres ensembles de données, ce qui accélère le processus de développement.

Le soutien du gouvernement chinois. Au cours des cinq prochaines années, la Chine s’est fixé comme nouvel objectif de consacrer > 7% par an de R&D aux technologies innovantes et de construire davantage de laboratoires nationaux pour la recherche sur l’intelligence artificielle, ce qui constitue un puissant vent arrière pour les développeurs locaux d’IA.

Un énorme vivier de talents. Répondant à l’appel à rejoindre le projet de rajeunissement national chez eux, les diplômés et ingénieurs en informatique qui rentrent au pays alimentent l’industrie chinoise de l’IA en talents de grande qualité.

Risques

Renforcement de la protection des données. Une base de données importante est la clé pour former l’IA à être plus intelligente. La loi sur la protection des données, qui sera probablement adoptée, pourrait entraver les activités de collecte de données des entreprises chinoises et le développement de technologies connexes.

Pénurie de puces. Le développement du TLN nécessite une puissance de calcul haute performance (HCP) pour effectuer des calculs complexes ou de gros volumes. La pénurie de puces HCP ralentira le rythme de l’innovation et du développement.

Directives excessives du gouvernement. Les priorités du gouvernement peuvent prendre le pas sur celles des entreprises, en faisant passer le TLN de la commercialisation sur le marché libre à la sécurité nationale ou à la surveillance.

 

Sources : Natural Langage Analysis, Ambiguity in Natural Langage Processing, Baidu Team Introduces ERNIE-M, iFlytek The voice of AI, 6 lessons learned from 1B+ BOT conversations