I bambini imparano a parlare ascoltando altri umani, principalmente i loro genitori, che producono suoni ripetutamente. Lentamente, attraverso la ripetizione e la scoperta di schemi, i bambini iniziano a collegare quei suoni al significato. Attraverso molta pratica, alla fine riescono a produrre suoni simili che gli esseri umani che li circondano possono capire.
apprendimento automatico gli algoritmi funzionano più o meno allo stesso modo, ma invece di avere un paio di genitori da cui copiare, usano i dati, categorizzati scrupolosamente da migliaia di esseri umani che devono rivedere manualmente il dati e di' alla macchina cosa significa.
Tuttavia, questo processo noioso e dispendioso in termini di tempo non è l'unico problema con i dati del mondo reale utilizzati per addestrare algoritmi di apprendimento automatico.
Prendi il rilevamento delle frodi nelle richieste di risarcimento assicurative. Affinché un algoritmo sia in grado di distinguere con precisione un caso di frode oltre alle affermazioni legittime, deve vedere entrambi. Migliaia e migliaia di entrambi. E perché AI i sistemi sono spesso forniti da terze parti, quindi non gestite dalla stessa compagnia di assicurazioni, queste terze parti devono avere accesso a tutti quei dati sensibili. Ottieni dove sta andando, perché lo stesso vale per le cartelle cliniche e i dati finanziari.
Più esoterici ma altrettanto preoccupanti sono tutti gli algoritmi addestrati su testo, immagini e video. A parte questioni di diritto d'autore, molti i creatori hanno espresso disaccordo con il loro lavoro risucchiato in un set di dati da addestrare una macchina che alla fine potrebbe prendere (parte del) loro lavoro. E questo presupponendo che le loro creazioni non siano razziste o problematiche in altri modi, il che a sua volta potrebbe portare a risultati problematici.
Inoltre, cosa succede se semplicemente non ci sono abbastanza dati disponibili per addestrare un'IA su tutte le eventualità? In un Rapporto 2016 della RAND Corporation, gli autori hanno calcolato quante miglia "una flotta di 100 veicoli autonomi che guidano 24 ore al giorno, 365 giorni all'anno, a una velocità media di 25 miglia orarie", dovrebbe percorrere per dimostrare che il loro tasso di guasto (con conseguente decessi o feriti), era affidabile inferiore a quello degli esseri umani. La loro risposta? 500 anni e 11 miliardi di miglia.
Non devi essere un genio super intelligente per capire che il processo attuale non è l'ideale. Quindi cosa possiamo fare? Come possiamo creare dati sufficienti, rispettosi della privacy, non problematici, che coprano ogni evenienza e accuratamente etichettati? Hai indovinato: più IA.
I dati falsi possono aiutare le IA a gestire dati reali
Anche prima del rapporto RAND, era del tutto chiaro per le aziende che lavoravano sulla guida autonoma che erano purtroppo poco attrezzate per raccogliere dati sufficienti per addestrare in modo affidabile algoritmi per guidare in sicurezza in qualsiasi condizione o circostanza.
Prendi Waymo, la società di guida autonoma di Alphabet. Invece di fare affidamento esclusivamente sui loro veicoli del mondo reale, hanno creato un mondo totalmente simulato, in cui le auto simulate con sensori simulati potevano guidare all'infinito, raccogliendo dati reali sulla loro strada simulata. Secondo la compagnia, entro il 2020 aveva raccolto dati su 15 miliardi di miglia di guida simulata, rispetto ai miseri 20 milioni di miglia di guida nel mondo reale.
Nel gergo dell'IA, questi sono chiamati dati sintetici o "dati applicabili a una determinata situazione che non sono ottenuti mediante misurazione diretta", se vuoi diventare tecnico. O meno tecnicamente: le IA producono dati falsi in modo che altre IA possano conoscere il mondo reale a un ritmo più rapido.
Un esempio è Task2Sim, un modello di intelligenza artificiale creato dal MIT-IBM Watson AI Lab che crea dati sintetici per i classificatori di addestramento. Invece di insegnare al classificatore a riconoscere un oggetto alla volta, il modello crea immagini che possono essere utilizzate per insegnare più attività. Il scalabilità di questo tipo di modello rende la raccolta dei dati meno dispendiosa in termini di tempo e meno costosa per le aziende affamate di dati.
In aggiunta, Rogerio Feris, an IBM il ricercatore che è stato coautore del documento su Task2Sim ha detto,
Il bello delle immagini sintetiche è che puoi controllarne i parametri: lo sfondo, l'illuminazione e il modo in cui gli oggetti sono posti.
Grazie a tutte le preoccupazioni sopra elencate, la produzione di tutti i tipi di dati sintetici è aumentata notevolmente negli ultimi anni, con decine di startup nel campo in fiore e raccogliere centinaia di milioni di dollari di investimenti.
I dati sintetici generati vanno da "dati umani" come dati sanitari o finanziari a immagini sintetizzate di una vasta gamma di volti umani, a set di dati più astratti come i dati genomici, che imitano la struttura del DNA.
Come creare dati davvero falsi
Ci sono un paio di modi in cui avviene questa generazione di dati sintetici, il più comune e consolidato dei quali è chiamato GAN o reti generative contraddittorio.
In un GAN, due IA sono messe l'una contro l'altra. Un'IA produce un set di dati sintetico, mentre l'altra cerca di stabilire se i dati generati sono autentici. Il feedback di quest'ultimo torna indietro nel primo "addestrandolo" per diventare più accurato nella produzione di dati falsi convincenti. Probabilmente ne hai visto uno dei tanti questa-X-non-esiste siti Web, che vanno dalle persone ai gatti agli edifici, che generano le loro immagini basate sui GAN.
Ultimamente, stanno guadagnando terreno più metodi per produrre dati sintetici. I primi sono conosciuti come modelli di diffusione, in cui le IA vengono addestrate a ricostruire determinati tipi di dati mentre sempre più rumore, dati che corrompe gradualmente i dati di addestramento, vengono aggiunti ai dati del mondo reale. Alla fine, l'IA può ricevere dati casuali, che funzionano di nuovo in un formato su cui era stata originariamente addestrata.
I dati falsi sono come dati reali senza, beh, la realtà
I dati sintetici, comunque siano prodotti, offrono una serie di vantaggi molto concreti rispetto all'utilizzo dei dati del mondo reale. Prima di tutto, è più facile raccoglierne molto di più, perché non devi fare affidamento sugli umani che lo creano. In secondo luogo, i dati sintetici vengono etichettati perfettamente, quindi non è necessario fare affidamento su data center ad alta intensità di lavoro per etichettare (a volte in modo errato) i dati. In terzo luogo, può proteggere la privacy e il copyright, poiché i dati sono, beh, sintetici. E infine, e forse la cosa più importante, può ridurre i risultati distorti.
Con l'intelligenza artificiale che gioca un ruolo sempre più importante nella tecnologia e nella società, le aspettative sui dati sintetici sono piuttosto ottimistiche. Gartner lo ha notoriamente stimato Il 60% dei dati di allenamento saranno dati sintetici entro il 2024. Analista di mercato Cognilytica apprezzava il mercato di generazione di dati sintetici a 110 milioni di dollari nel 2021 e in crescita a 1.15 miliardi di dollari entro il 2027.
I dati sono stati definiti il bene più prezioso nell'era digitale. La grande tecnologia si è seduta su montagne di dati utente che le hanno dato un vantaggio rispetto ai concorrenti più piccoli nello spazio dell'IA. I dati sintetici possono dare ai giocatori più piccoli l'opportunità di ribaltare la situazione.
Come potresti sospettare, la grande domanda relativa ai dati sintetici riguarda la cosiddetta fedeltà, o quanto si avvicinano ai dati del mondo reale. La giuria è ancora fuori su questo, ma ricerca sembra mostrare che la combinazione di dati sintetici con dati reali fornisce risultati statisticamente validi. Quest'anno, i ricercatori del MIT e del MIT-IBM AI Watson Lab hanno dimostrato che un classificatore di immagini preaddestrato su dati sintetici in combinazione con dati reali, eseguita così come un classificatore di immagini addestrato esclusivamente su dati reali.
Tutto sommato, i semafori sintetici e del mondo reale sembrano essere verdi per il predominio futuro dei dati sintetici nell'addestramento di modelli di IA più rispettosi della privacy e più sicuri, e con ciò, un possibile futuro di IA più intelligenti per noi è appena oltre l'orizzonte .
[…] Tecnocrazia.notizie […]
[...] https://www.technocracy.news/training-ai-fake-data-is-cheaper-than-real-data/ [...]
[…] Formazione AI: i dati falsi sono più economici dei dati reali […]