Intelligence Artificielle

Dans la course à l'IA d'aujourd'hui, ne jouez pas avec votre confidentialité numérique

Juin 27, 2024

Il ne fait aucun doute que nous vivons à l’ère de l’IA, avec des chatbots et du matériel d’IA à usage unique lancés partout. Dans les années à venir, l’IA va englober toutes les facettes de nos vies. Les entreprises d’IA collectent sans relâche des données, tant publiques que personnelles, pour entraîner et améliorer leurs modèles. Cependant, au cours de ce processus, nous divulguons nos informations personnelles, ce qui peut mettre en danger notre vie privée. J’ai donc examiné les politiques de confidentialité des chatbots et services d’IA populaires et j’ai recommandé les meilleures façons pour vous, en tant qu’utilisateur, de protéger votre vie privée.

Google Gemini (anciennement Barde)

page d'accueil des Gémeaux

Pour commencer, le Gemini de Google stocke toutes vos données d’activité par défaut. Il ne demande pas le consentement exprès de l'utilisateur avant de stocker les données. Google indique que toutes vos interactions et activités sur Gemini sont stockées pour jusqu'à 18 mois. De plus, vos discussions Gemini sont traitées par des évaluateurs humains qui lisent et annotent la conversation pour améliorer le modèle d'IA de Google. La page Gemini Apps Privacy Hub indique:

Pour contribuer à la qualité et améliorer nos produits (tels que les modèles d'apprentissage automatique génératifs qui alimentent Gemini Apps), des évaluateurs humains lisent, annotent et traitent vos conversations Gemini Apps.

Google demande en outre aux utilisateurs de ne rien partager de confidentiel ou personnel qu'ils ne veulent pas que les évaluateurs voient ou que Google utilise. Sur la page d'accueil de Gemini, une boîte de dialogue apparaît pour en informer l'utilisateur. Outre les conversations, les détails de votre localisation, votre adresse IP, votre type d'appareil et l'adresse de votre domicile/travail de votre compte Google sont également stockés dans le cadre de l'activité de Gemini Apps.

Politique de conservation des données

Cela dit, Google affirme que vos données sont anonymisées en dissociant votre compte Google des conversations afin de protéger votre vie privée. Google propose également le option pour désactiver l'activité des applications Gemini et vous permet de supprimer toutes vos données liées à Gemini. Cependant, les choses deviennent un peu floues ici.

tour d'activité des applications Gemini

Une fois que vos conversations ont été évaluées ou annotées par des évaluateurs humains, elles ne sont pas supprimées même si vous supprimez toutes vos données Gemini passées. Google conserve les données pour trois ans. La page dit:

Les conversations qui ont été examinées ou annotées par des évaluateurs humains (et les données associées telles que votre langue, le type d'appareil, les informations de localisation ou les commentaires) ne sont pas supprimées lorsque vous supprimez votre activité Gemini Apps, car elles sont conservées séparément et ne sont pas connectées à votre compte Google. . Au lieu de cela, ils sont conservés jusqu’à trois ans.

De plus, même lorsque votre activité Gemini Apps est désactivée, Google stocke votre conversation pour 72 heures (trois jours) à «fournir le service et traiter tout retour d'information« .

En ce qui concerne les images téléchargées, Google indique que les informations textuelles interprétées à partir d'une image sont stockées, et non l'image elle-même. Cependant, poursuit-il, «En ce moment [emphasis added]nous n'utilisons pas les images réelles que vous téléchargez ni leurs pixels pour améliorer notre technologie d'apprentissage automatiques ».

À l'avenir, Google pourrait utiliser les images téléchargées pour améliorer son modèle. Vous devez donc être prudent et vous abstenir de télécharger des photos personnelles sur Gemini.

Si vous avez activé l'extension Google Workspace dans Gemini, vos données personnelles accessibles à partir d'applications telles que Gmail, Google Drive et Docs ne passent pas par des réviseurs humains. Ces données personnelles ne sont pas utilisées par Google pour entraîner son modèle d'IA. Cependant, les données sont conservées jusqu'à ce que le « période de temps nécessaire pour fournir et maintenir les services Gemini Apps« .

Lire  Google I/O 2023:Google introduit l'IA générative dans la recherche

Si vous utilisez d'autres extensions telles que Google Flights, Google Hotels, Google Maps et YouTube, les conversations associées sont examiné par des humains Alors garde cela en tête.

OpenAI ChatGPT

ChatGPT d'OpenAI est de loin le chatbot IA le plus populaire utilisé par les utilisateurs. Semblable à Gemini, ChatGPT enregistre également toutes vos conversations par défaut. Mais contrairement à Gemini, il informe uniquement l'utilisateur de ne pas partager d'informations sensibles pour la première fois après l'inscription d'un nouvel utilisateur.

Il y a pas de bannière statique sur la page d'accueil informer l'utilisateur que vos données pourraient être utilisées pour examiner des conversations ou pour entraîner le modèle.

boîte de dialogue chatgpt pour les nouveaux utilisateurs

Néanmoins, en ce qui concerne le type de données personnelles que ChatGPT collecte auprès des utilisateurs, il stocke votre conversations, images, fichiers et contenus de Dall-E pour la formation du modèle et l’amélioration des performances. En plus de cela, OpenAI collecte également des adresses IP, des données d'utilisation, des informations sur les appareils, des données de géolocalisation, etc. Cela s'applique à la fois aux utilisateurs gratuits de ChatGPT et aux utilisateurs payants de ChatGPT Plus.

OpenAI dit que le contenu de plans d'affaires comme ChatGPT Team, ChatGPT Enterprise et API Platform ne sont pas utilisés pour former et améliorer ses modèles.

OpenAI vous permet de désactiver l'historique des discussions et la formation dans ChatGPT depuis Paramètres -> Contrôles de données. Cependant, le paramètre permettant de désactiver l'historique des discussions et la formation ne se synchronise pas avec d'autres navigateurs et appareils où vous utilisez ChatGPT avec le même compte. Ainsi, pour désactiver l'historique et la formation, vous devez ouvrir les paramètres et les désactiver sur chaque appareil sur lequel vous utilisez ChatGPT.

paramètres de contrôle des données chatgpt

Une fois que vous avez désactivé l'historique des discussions, les nouvelles discussions n'apparaîtront pas dans la barre latérale et ne seront pas utilisées pour la formation des modèles. Cependant, OpenAI conserver les discussions pendant 30 jours pour surveiller les abus, et pendant cette période, il ne sera pas utilisé pour la formation des modèles.

Quant à savoir si des évaluateurs humains sont utilisés par OpenAI pour afficher les conversations, OpenAI dit:

« Un nombre limité de membres du personnel OpenAI autorisés, ainsi que des fournisseurs de services de confiance soumis à des obligations de confidentialité et de sécurité, ne peuvent accéder au contenu des utilisateurs que si nécessaire pour les raisons suivantes : (1) enquêter sur un abus ou un incident de sécurité ; (2) pour vous fournir une assistance si vous nous contactez pour des questions concernant votre compte; (3) traiter les questions juridiques; ou (4) pour améliorer les performances du modèle (sauf si vous vous êtes désinscrit). L'accès au contenu est soumis à des contrôles d'accès techniques et limité uniquement au personnel autorisé en cas de besoin. De plus, nous surveillons et enregistrons tous les accès au contenu des utilisateurs et le personnel autorisé doit suivre une formation en matière de sécurité et de confidentialité avant d'accéder à tout contenu utilisateur.

Alors oui, tout comme Google, OpenAI emploie également des évaluateurs humains pour visualiser les conversations et former/améliorer leurs modèles, par défaut. OpenAI ne divulgue pas ces informations sur la page d'accueil de ChatGPT, ce qui semble être un manque de transparence de la part d'OpenAI.

page de contrôle de confidentialité openai

Vous avez la possibilité de vous désinscrire et de demander à OpenAI d'arrêter la formation sur votre contenu tout en conservant la fonctionnalité d'historique des discussions intacte. Cependant, OpenAI n'offre pas d'accès à ce portail de confidentialité sous la page Paramètres. Il est profondément enfoui dans la documentation d'OpenAI que les utilisateurs réguliers ne peuvent pas trouver très facilement. Au moins, sur le point de transparence, Google fait un meilleur travail qu'OpenAI.

Copilote Microsoft

De tous les services, j'ai trouvé que la politique de confidentialité de Microsoft Copilot était la le plus compliqué. Il ne précise pas quelles données personnelles sont collectées ni comment ces données sont traitées par Microsoft.

Lire  15 meilleures façons d’utiliser Bing AI

Sur la page FAQ de Microsoft Copilot, il est indiqué que vous pouvez désactiver la personnalisation, c'est-à-dire l'historique des discussions. Cependant, ce paramètre n'existe pas sur la page Copilot. Il existe une option pour effacer tout l'historique de vos activités Copilot à partir de la page du compte Microsoft, mais c'est tout.

page d'accueil du copilote Microsoft

La seule bonne chose à propos de Copilot est qu'il ne personnalise pas votre interaction s'il juge l'invite sensible. Et ça aussi ne sauvegarde pas la conversation si les informations semblent être privées.

Si vous êtes un utilisateur de Copilot Pro, Microsoft utilise les données de Applications bureautiques pour offrir de nouvelles expériences d’IA. Si vous souhaitez le désactiver, désactivez Connected Experience à partir de l’une des applications Office. Rendez-vous sur Compte -> Gérer les paramètres sous Confidentialité du compte et désactivez les expériences connectées.

Remini, piste et plus

Remini est l'un des amplificateurs de photos IA les plus populaires avec des millions d'utilisateurs. Cependant, sa politique de confidentialité est assez risqué et les utilisateurs doivent être prudents avant de télécharger leurs photos personnelles sur de telles applications.

Sa politique de conservation des données précise que les données personnelles traitées sont conservées pendant 2 à 10 ans par l'entreprise, ce qui est assez long. Si les images, vidéos et enregistrements audio sont supprimés de son serveur au bout de 15 jours, les données faciales traitées sont de nature sensible et sont conservées pendant de nombreuses années. De plus, toutes vos données peuvent être transmises à des fournisseurs ou à des sociétés tiers en cas de fusion ou d'acquisition.

De même, Runway, un outil d'IA populaire qui traite des images et des vidéos, conserve les données pour jusqu'à trois ans. Lensa, un éditeur de photos IA populaire, ne supprime pas non plus vos données tant que vous n'avez pas supprimé votre compte Lensa. Vous devez envoyer un e-mail à l'entreprise pour supprimer votre compte.

Il existe de nombreux outils et services d’IA qui stockent des données personnelles, en particulier des données traitées provenant d’images et de vidéos, pendant de longues années. Si vous souhaitez éviter de tels services, recherchez des outils d'image IA qui peuvent être exécuter localement. Il existe des applications comme SuperImage (visite) et Upscayl (visite) qui permettent d'améliorer les photos localement.

Partage de données avec des tiers

En ce qui concerne le partage de données avec des tiers, Google ne mentionne pas si les évaluateurs humains qui traitent les conversations font partie de l'équipe interne de Google ou de fournisseurs tiers. Généralement, la norme du secteur consiste à sous-traiter ce type de travail à des fournisseurs tiers.

D’un autre côté, OpenAI dit : «Nous partageons du contenu avec un groupe sélectionné de prestataires de services de confiance qui nous aident à fournir nos services. Nous partageons la quantité minimale de contenu dont nous avons besoin pour atteindre cet objectif et nos prestataires de services sont soumis à des obligations strictes de confidentialité et de sécurité.

OpenAI mentionne explicitement que ses réviseurs internes ainsi que prestataires de services tiers de confiance visualiser et traiter le contenu, bien que les données soient anonymisées. De plus, l’entreprise ne vend pas de données à des tiers et les conversations ne sont pas utilisées à des fins marketing.

Lire  Google MusicLM: Comment créer de la musique générative via l'IA

À cet égard, Google affirme également que les conversations sont non utilisé pour diffuser des annonces. Toutefois, si cela change à l’avenir, Google communiquera clairement le changement aux utilisateurs.

Risques liés aux données personnelles dans Train ensemble de données

Il existe de nombreux risques associés à l’entrée de données personnelles dans l’ensemble de données de formation. Tout d'abord, il porte atteinte à la vie privée des individus qui peuvent ne pas avoir expressément donné leur consentement pour former des modèles sur leurs informations personnelles. Cela peut être particulièrement intrusif si le fournisseur de services ne communique pas la politique de confidentialité à l'utilisateur de manière transparente.

En dehors de cela, le risque le plus courant est violation de données de données confidentielles. L'année dernière, Samsung a interdit à ses employés d'utiliser ChatGPT car le chatbot était fuite de données sensibles à propos de l'entreprise. Malgré le fait que les données soient anonymisées, il existe diverses techniques d'incitation pour forcer le modèle d'IA à révéler des informations sensibles.

Enfin, l’empoisonnement des données constitue également un risque légitime. Les chercheurs affirment que les attaquants peuvent ajouter des données malveillantes dans les conversations, ce qui pourrait fausser les résultats du modèle. Cela peut également ajouter des biais nuisibles qui peuvent compromettre la sécurité des modèles d’IA. Andrej Karpathy, membre fondateur de l'équipe OpenAI, a expliqué ici en détail l'empoisonnement des données.

Existe-t-il un mécanisme de désinscription?

Alors que les principaux fournisseurs de services comme Google et OpenAI offrent aux utilisateurs un moyen de se désinscrire de la formation des modèles, ils désactivent également l'historique des discussions. Il semble que les entreprises soient punir les utilisateurs qui choisissent la confidentialité sur la fonctionnalité.

Les entreprises peuvent très bien proposer l'historique des discussions, qui peut aider les utilisateurs à retrouver des conversations importantes du passé, sans faire partie de l'ensemble de données de formation.

OpenAI, en fait, permet aux utilisateurs de se désinscrire de la formation de modèles, mais il ne fait pas la publicité de la fonctionnalité de manière visible et elle est introuvable sur la page des paramètres de ChatGPT. Vous devez vous diriger vers son portail de confidentialité et demander à OpenAI d'arrêter la formation sur votre contenu tout en gardant votre historique de discussion intact.

Google ne propose aucune option de ce type, ce qui est décevant. La confidentialité ne doit pas se faire au prix de la perte de fonctionnalités utiles.

Quelles sont les alternatives ?

En ce qui concerne les alternatives et les moyens de minimiser votre empreinte de données, eh bien, tout d'abord, vous avez la possibilité de désactiver l'historique des discussions. Sur ChatGPT, vous pouvez conserver l'historique des discussions et vous désinscrire de la formation des modèles via sa page de portail de confidentialité.

En dehors de cela, si vous prenez au sérieux votre vie privée, vous pouvez exécuter localement des LLM (grands modèles de langage) sur votre ordinateur. Beaucoup modèles open source fonctionnent sous Windows, macOS et Linux, même sur des ordinateurs de milieu de gamme. Nous avons un guide détaillé dédié sur la façon d’exécuter un LLM localement sur votre ordinateur.

Vous pouvez également exécuter localement le petit modèle Gemma de Google sur votre ordinateur. Et si vous souhaitez ingérer vos propres documents privés, vous pouvez consulter PrivateGPT qui s'exécute sur votre ordinateur.

Dans l'ensemble, dans la course actuelle à l'IA, où les entreprises sont je cherche à récupérer des données de tous les coins d'Internet et même générer des données synthétiques, c'est à nous de sauvegarder nos données personnelles. Je recommande fortement aux utilisateurs de ne pas alimenter ou télécharger des données personnelles sur les services d'IA afin de préserver leur vie privée. Et les entreprises d’IA ne devraient pas négliger les fonctionnalités précieuses pour choisir la confidentialité. Les deux peuvent coexister.

Laisser un Commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *