Comprendre l’incident de sécurité chez OpenAI

Il est inutile de vous inquiéter si vos conversations privées sur ChatGPT ont été compromises dans la récente intrusion signalée sur les systèmes d’OpenAI. Bien que cette attaque soit préoccupante, elle semble avoir été superficielle, mais elle nous rappelle que les entreprises d’intelligence artificielle sont devenues des cibles alléchantes pour les pirates.

Selon le New York Times, cette incursion a été discutée publiquement par Leopold Aschenbrenner, un ancien employé d’OpenAI, qui l’a qualifiée de « grave incident de sécurité ». Cependant, des sources anonymes au sein de la société ont indiqué qu’il n’y avait eu accès qu’à un forum de discussion interne pour les employés. (J’ai contacté OpenAI pour confirmation et commentaires.)

Il est important de ne pas minimiser une faille de sécurité, et écouter les discussions internes sur le développement chez OpenAI peut avoir une certaine valeur. Toutefois, ce n’est pas comparable à un accès aux systèmes internes, aux modèles en cours d’élaboration, ou aux plans secrets. OpenAI prend ces incidents très au sérieux et travaille continuellement à renforcer ses protocoles de sécurité. Vous pouvez consulter leurs mesures de sécurité récentes ici.

Cette situation doit nous alerter, non pas forcément à cause de la menace posée par des pays comme la Chine, mais parce que ces entreprises AI détiennent des données inestimables. Récemment, OpenAI a également gagné une bataille juridique pour protéger ses intérêts contre des entrepreneurs techniques exploitant un nom de domaine similaire. Plus d’informations à ce sujet peuvent être trouvées ici.

Les Types de Données en Jeu

OpenAI et d’autres sociétés d’IA traitent trois types de données particulièrement précieux : des données de formation de haute qualité, des interactions massives d’utilisateurs, et des données clients.

La data de formation qu’ils possèdent est souvent gardée secrète. Beaucoup pensent à tort que ce ne sont que des données web collectées en masse. En réalité, transformer ces données brutes en quelque chose d’exploitable pour un modèle comme GPT-4 exige énormément de temps humain et ne peut être entièrement automatisé.

Certains ingénieurs en machine learning estiment que la qualité des jeux de données est le facteur le plus crucial dans la création d’un modèle de langage étendu. Un modèle entraîné sur les œuvres publiées des cent dernières années serait bien plus éloquent qu’un autre formé sur des données collectées sur Twitter ou Reddit. C’est probablement pour cette raison qu’OpenAI se serait servi de sources questionnables comme des livres protégés par des droits d’auteur, une pratique qu’ils affirment avoir abandonnée.

Les ensembles de données de formation construits par OpenAI sont donc extrêmement précieux, à la fois pour les concurrents, les États adversaires et les régulateurs ici aux États-Unis. Imaginez combien la Federal Trade Commission ou les tribunaux aimeraient savoir exactement quelles données ont été utilisées et si OpenAI a été honnête à ce sujet.

Mais plus encore, la quantité massive de données utilisateur dont dispose OpenAI est inestimable. Des milliards de conversations avec ChatGPT couvrant des centaines de milliers de sujets fournissent une compréhension profonde de la population, qui, bien que moins large que celle des utilisateurs de Google, offre beaucoup plus de profondeur. Si vous ne le saviez pas déjà, vos conversations avec ChatGPT sont utilisées pour l’entraînement de modèles, sauf si vous choisissez de vous désinscrire.

Enfin, les données sur la manière dont les clients utilisent réellement les IA et les données qu’ils fournissent aux modèles sont d’une valeur incommensurable. Des centaines de grandes entreprises et d’innombrables plus petites utilisent les API d’OpenAI pour une variété de tâches et doivent souvent ajuster leurs modèles sur leurs propres bases de données internes pour maximiser l’utilité.

Ces secrets industriels positionnent les entreprises d’IA au cœur de nombreuses données critiques. La nouveauté de ce secteur induit un risque supplémentaire, car les processus d’IA ne sont pas encore standardisés ni entièrement compris. Selon des anciens et actuels employés d’OpenAI et de Google DeepMind, les risques inhérents à l’IA doivent être pris très au sérieux et des mesures plus strictes doivent être mises en place pour garantir la sécurité et l’éthique. Plus de détails peuvent être trouvés ici.

Bien que ces entreprises puissent offrir des niveaux de sécurité conformes aux normes industrielles, la valeur des données qu’elles protègent et l’intérêt des hackers restent une menace constante. Il ne faut pas paniquer pour autant, mais les utilisateurs des services AI doivent être conscients que ces entreprises sont des cibles de choix pour les cybercriminels.

En résumé, même une attaque sans conséquences graves connues, comme celle rapportée, devrait servir de rappel que toute entreprise impliquée dans l’IA doit redoubler de vigilance en matière de sécurité. Ces sociétés portent une cible sur leur dos et il ne faut pas s’étonner si des tentatives d’intrusion se multiplient. OpenAI a récemment annoncé un partenariat stratégique avec Apple pour renforcer encore davantage la sécurité et l’efficacité de leurs produits d’IA. Pour en savoir plus, consultez ce lien.

Implications sécuritaires : Ce que vous devez savoir

Cet incident de sécurité met en lumière les risques potentiels liés aux données critiques détenues par les entreprises d’IA. La divulgation accidentelle ou malveillante de projets de développement, de modèles en cours ou de discussions internes pourrait offrir des avantages indus à des concurrents ou des États adversaires, voire exposer des informations confidentielles. Cela pose des questions sur la confidentialité et l’intégrité des précieuses données utilisateur collectées par ces plateformes.

Protégez-vous : Étapes clés contre les nouvelles vulnérabilités

Pour se protéger contre les risques similaires, il est essentiel de mettre en œuvre des pratiques de cybersécurité robustes. Les entreprises doivent régulièrement auditer leurs systèmes de sécurité, renforcer leurs protocoles de protection par mot de passe, et utiliser des solutions de cryptage avancées. Pour les utilisateurs individuels, il est crucial d’opter pour des paramètres de confidentialité adaptés et de suivre les mises à jour de sécurité fournies par les services d’IA.

Sources