EPFL:ltä uusi multimodaalinen malli joustavampaan tekoälyyn

Se voi oppia tekstistä, kuvista, videosta ja äänestä ja modulaarisuuden ansiosta tuottaa minkä tahansa määrän tai yhdistelmän ennusteita

Koneoppiminen: EPFL:n uusi multimodaalinen malli joustavampaan tekoälyyn
EPFL:ltä uusi multimodaalinen malli joustavampaan tekoälyyn (Kuva: Brian Penny/Pixabay)

Puhummepa sitten OpenAI:sta tai ChatGPT:stä, suurin osa chatboteista generatiivinen tekoäly perustuvat ns Suuri kielimalli (LLM), mallit syvä oppiminen suuressa mittakaavassa koulutettu antamaan vastauksia heille esitettyihin kysymyksiin oppimalla tietoa suurten tekstimäärien kautta.

Viimeinen rajaGeneratiivinen tekoäly ovat multimodaaliset mallit, joissa yhdistyvät kielen ymmärtäminen ja kuvat, video ja ääni tarjotakseen entistä kehittyneemmän kokemuksen ja palvelun.

Niiden luomiseen liittyy kuitenkin useita haasteita, varsinkin jos tarkoituksena on rakentaa multimodaalisia malleja pienessä mittakaavassa: puuttuvien tietojen esiintyminen johtuen tiedon puutteesta, lähes aina resurssien osittaisesta saatavuudesta.

Lyhyesti sanottuna riskinä on, että malli oppii puutteen perusteella ja että laskelmat ja ennusteet vääristyvät. Ja tästä EPFL aloitti uudella projektillaan.

Lausannen ja Zürichin teknisestä yliopistosta vihreän energian koalitio
3D:ssä teknologinen käsine, joka tekee virtuaalitodellisuudesta konkreettista

Koneen oppiminen
Lausannen liittovaltion ammattikorkeakoulun kampus (Kuva: Facebook/EFPL)

MultiModN, Lausannessa syntynyt modulaarinen multimodaalinen malli

Tutkijat Lausannen liittovaltion ammattikorkeakoulu (EPFL), joka on yksi maailman parhaista tekniikan ja tietotekniikan yliopistoista, ovat itse asiassa kehittyneet MultiModN, ainutlaatuinen modulaarinen multimodaalinen malli, joka esiteltiin äskettäin NeurIPS2023:ssa.

EPFL:n tietojenkäsittelytieteen ja viestinnän korkeakoulun Machine Learning for Education (ML4ED)- ja Machine Learning and Optimization (MLO) -laboratorioiden tutkijat päättivät kehittää ja testata täysin vastakohtaa suurelle, mutta ajatella pienemmässä mittakaavassa.

Opettajan johdolla Mary-Anne Hartley, MLO:n ja Yalen lääketieteellisen korkeakoulun yhdessä isännöimän Global Intelligent Health Technologies -laboratorion johtaja ja professori Tanja Käser, ML4ED:n johtaja, tiimi loi multimodaalisen mallin, joka voi oppia tekstistä, kuvista, videoista ja äänistä, mutta joka, toisin kuin olemassa olevat, koostuu vaihteleva määrä pienempiä moduuleja, autonominen ja syöttökohtainen.

Jälkimmäinen voidaan valita saatavilla olevien tietojen perusteella ja koota sitten minkä tahansa numeron, yhdistelmän tai syötteen tyypin sekvenssiksi. Siksi se voi tuottaa minkä tahansa määrän tai yhdistelmän ennusteita.

"Arvioimme MultiModN:n kymmenen todellista toimintaamukaan lukien tuki lääketieteelliselle diagnoosille, akateemisen suorituskyvyn ennustamiselle ja sääennusteille, hän selitti Vinitra Swamy, ML4ED:n ja MLO:n tohtoriopiskelija ja projektin ensimmäinen kirjoittaja.

"Näiden kokeiden avulla uskomme, että MultiModN on ensimmäinen luonnostaan ​​tulkittavissa oleva ja puuttuvaa dataa kestävä lähestymistapa multimodaaliseen mallinnukseen.".

EPFL:n "resepti" tehokkaammille kvanttitietokoneille
Tekoälystä ratkaiseva sysäys kryptovaluuttoihin?

Koneen oppiminen
EPFL School of Computer Science and Communication (Kuva: Facebook/EPFL IC)

Ensimmäinen käyttötapaus: kliiniset päätökset lääkintähenkilöstölle

MultiModN:n ensimmäinen käyttötapaus tulee olemaan tukijärjestelmänä kliiniset päätökset lääkintähenkilöstölle rajoitetuissa olosuhteissa.

Terveydenhuollon alalla itse asiassa kliiniset tiedot puuttuvat usein, mikä johtuu ehkä rajallisista resursseista (potilaalla ei ole varaa tiettyyn testiin) tai päinvastoin resurssien ja tiedon runsauden vuoksi. MultiModN pystyy oppimaan tästä todellisesta tiedosta absorboimatta sen niin kutsuttuja harhoja ja mukauttamaan ennusteita mihin tahansa syötteiden yhdistelmään tai määrään.

"Puuttuvat tiedot ovat tunnusomaisia ​​resurssirajoitteisissa yhteyksissä, ja kun mallit oppivat nämä puuttuvat mallit, ne voivat koodata virheitä ennusteisiinsa. hän huomautti Mary-Anne Hartley.

"MultiModN:n inspiroi joustavuuden tarve odottamattomasti saatavilla olevien resurssien edessä".

Huipputapahtumassa tekoälyn ja koneoppimisen vaikutus palveluihin
Kaikki syyt tekoälyn kasvavaan vaikutukseen digitaalisessa taiteessa

Koneen oppiminen
Analyysilaboratorio (kuva: Michal Jarmoluk/Pixabay)

Laboratoriosta tosielämään: keuhkokuumeen ja tuberkuloosin koe on meneillään

Julkaisu on kuitenkin vasta ensimmäinen askel kohti käyttöönottoa ja kenttätestausta. Professori Hartley työskenteli kollegoidensa kanssa Lausannen yliopistollisessa sairaalassa (CHUV) ja Inselspitalissa, Bernin yliopistollisessa sairaalassa. kliiniset tutkimukset keskittyy keuhkokuumeen ja tuberkuloosin diagnosointiin resurssirajoitteisissa olosuhteissa, ja se on rekrytoimassa tuhansia potilaita Etelä-Afrikka, Tansania, Namibia e Benin.

Tutkimusryhmät tekivät laajan koulutusaloitteen, opetuksen yli 100 lääkäriä kerätä järjestelmällisesti multimodaalista dataa, mukaan lukien ultraäänikuvia ja -videoita, jotta MultiModN voidaan kouluttaa olemaan herkkä todellisille tiedoille vähän resursseja käyttäviltä alueilta.

"Keräämme juuri sellaista monimutkaista multimodaalista dataa, jota MultiModN on suunniteltu käsittelemään", sanoi lääkäri Noémie Boillat-Blanco, CHUV:n tartuntatautiasiantuntija.

”Olemme innoissamme nähdessämme mallin, joka osaa arvostaa puuttuvien resurssien monimutkaisuus kontekstissamme ja rutiininomaisten kliinisten arviointien järjestelmällinen puute", lisäsi lääkäri Kristina Keitel Inselspitalista, Sveitsin pääkaupungin yliopistollisesta sairaalasta.

Tekoälyn turvallisuus? Bletchley Parkin lausunto on ratkaiseva
Axel Springer-OpenAI-akseli tekoälylle journalismin palveluksessa

EPFL:n innovaatio on suunniteltu parantamaan kliinistä päätöksentekoa tarjoamalla pääsyn erikoistuneeseen lääketieteelliseen tietämykseen (Kuva: Irwan/Unsplash)

Koneoppiminen yleisen edun palveluksessa

MultiModN:n kehittäminen ja koulutus edustaa jatkoa EPFL:n pyrkimyksille mukauttaa koneoppimistyökaluja todellisuuteen ja yleisen edun mukaisesti, ja se tulee pian julkaisun jälkeen. Meditron, tekoälymalli, joka on suunniteltu erityisesti lääketieteen alalle.

Meditron kuuluu myös Large Language Models (LLM) -luokkaan, mutta toisin kuin generalistiset mallit, jotka palvelevat monenlaisia ​​tehtäviä, se keskittyy lääketieteen ala, ja se on kooltaan kompaktimpi, mutta silti yhtä tehokas.

Meditronin tavoitteena on demokratisoida lääketieteellisen tiedon saanti korkealaatuisia, mikä auttaa kliinisiä päätöksiä.

EPFL:n tutkijat kehittivät kaksi versiota, joissa oli 7 miljardia ja 70 miljardia parametria, ja mallit koulutettiin valikoiduista, korkealaatuisista lääketieteellisistä tietolähteistä, mukaan lukien vertaisarvioitu tieteellinen kirjallisuus ja erilaiset kliiniset ohjeet, mikä varmisti laajan ja tarkan tietopohjan.

Sekä marraskuussa 2023 esitelty Meditron että MultiModN ovat siten linjassa EPFL:n uuden AI Centerin mission kanssa, joka keskittyy siihen, miten vastuullinen ja tehokas tekoäly voi edistää teknologista innovaatiota yhteiskunnan kaikkien sektoreiden hyödyksi.

Vallankumoukselliset anturit, jotka voivat säästää miljoonia akkuja
AI: syttyvä sota ei ole sellainen kuin odotamme…

Koneoppiminen: EPFL:n uusi multimodaalinen malli joustavampaan tekoälyyn
EPFL-kampuksen ulkopuoli Lausannen liittovaltion ammattikorkeakoulun logolla (Kuva: Facebook/EFPL IC)