shutterstock. vchal / Shutterstock |
Alguna cosa es mou entre les ombres a uns pocs metres, en el voral, avançant cap a la carretera. Per la grandària i forma de l'objecte, podria ser un vianant. “Alerta de col·lisió!”, anuncia el sistema del cotxe autònom, mentres activa la frenada d'emergència.
La visió per computador pot fer tasques extremadament complexes gràcies als avanços en intel·ligència artificial i aprenentatge profund. La seua gran precisió ha permés que s'utilitze en àrees tan diverses com la medicina, l'automoció i la seguretat. Tant és així que hui és possible imaginar un món on els ordinadors poden “veure” i interpretar l'entorn pràcticament com les persones. Quins canvis portarà la visió per computador a la nostra vida quotidiana?
La visió per computador, una branca de la IA
La visió per computador és una branca de la intel·ligència artificial (IA) que permet als ordinadors analitzar imatges i vídeos. El seu objectiu últim és desenvolupar sistemes capaços de processar i interpretar informació visual de manera similar a un humà, per a aplicar-la a la presa de decisions.
Els algorismes de visió per computador són tècniques computacionals dissenyades perquè les màquines puguen interpretar i comprendre imatges del món real. Estos algorismes analitzen i processen dades visuals capturades per càmeres i sensors. Els primers intents daten de mitjan segle XX, amb mètodes bàsics de processament d'imatges.
Per a comprendre el funcionament de la visió per computador, resulta útil considerar el sistema visual humà com a analogia. Un sistema de visió per computador té dos components principals: un dispositiu sensor que imita la funció de l'ull per a capturar imatges i un potent algorisme que imita la funció del cervell per a comprendre i interpretar les dades visuals.
Per a cada cas i cada tasca específica, és important seleccionar el dispositiu sensor més adequat. Pot ser una càmera, un radar o una cosa més específica com un detector digital de raigs X. També és possible utilitzar una combinació de dispositius per a proporcionar una escena completa.
Xarxes convolucionals
La tècnica de visió per computador més utilitzada hui dia són les xarxes convolucionals, que el seu origen es remunta a 1998, encara que el seu verdadera explosió va arribar l'any 2012. Dos fites van permetre este èxit: la disponibilitat de conjunts de dades a gran escala, amb l'auge del big data, i l'augment de la potència de càlcul, amb el desenvolupament de potents targetes gràfiques (GPU).
L'arquitectura d'una xarxa convolucional es compon d'una seqüència de capes que realitzen diverses operacions matemàtiques. Les primeres capes extrauen característiques rellevants de les imatges. Les capes finals utilitzen eixes característiques per a resoldre la tasca específica per a la qual la xarxa ha sigut dissenyada.
Les xarxes convolucionals tenen una àmplia gamma d'aplicacions presents en la nostra vida quotidiana. S'utilitzen, per exemple, en sistemes de seguretat i vigilància per a detectar i alertar sobre activitats sospitoses. També són presents en els telèfons intel·ligents, amb el desbloqueig mitjançant reconeixement facial o el retoc de fotografies.
És una tecnologia crucial que està transformant múltiples sectors amb aplicacions més especialitzades. En medicina, s'utilitza en el diagnòstic per imatge. En vehicles autònoms, permet detectar vianants, senyals i altres vehicles, i reaccionar davant ells.
Implicacions ètiques de la visió per computador
En l'altra cara de la moneda, l'ús de la visió per computador planteja importants problemes ètics i legals. Un tema crític és la privacitat i el maneig de dades sensibles. Les càmeres de seguretat i els sistemes de reconeixement facial poden recol·lectar gran quantitat d'informació personal sense el consentiment dels individus.
Estes implicacions cobren major importància en contextos on la presa de decisions automatitzades afecten éssers humans, plantejant riscos i biaixos inherents. En la identificació de sospitosos en investigacions criminals pot portar a discriminacions injustes. En el cas de diagnòstics mèdics, les decisions errònies poden impactar negativament en la vida de les persones.
La Llei de IA, aprovada recentment per la Unió Europea, introduïx obligacions de transparència per a tots els models de IA d'ús general. En àrees on les decisions tenen un alt risc, com ocorre amb la visió per computador aplicada a les persones, la transparència no sols és una exigència ètica i legal. Es tracta també d'una necessitat pràctica per a assegurar la confiança i l'acceptació de les tecnologies per part els seus usuaris.
La visió per computador, una versió millorada de la humana
Els models d'aprenentatge profund, i en particular les xarxes convolucionals, sovint es descriuen com “caixes negres” perquè és impossible conéixer el procés o els passos pels quals arriben a determinat resultat. A més, poden incorporar biaixos inadvertits en els processos de presa de decisions. Per a abordar estos desafiaments, s'han desenvolupat tècniques que permeten analitzar les característiques que el model té en compte o considera més importants durant la presa de decisions.
Una altra possibilitat és obtindre explicacions visuals que destaquen, per exemple, les regions de les imatges que el model ha tingut en compte per a arribar a l'una o l'altra decisió (com la frenada d'emergència que obri este article, per exemple). En un moment en el qual podem somiar que els ordinadors puguen “veure” com els humans, hem de lluitar perquè no hereten els nostres biaixos i siguen una versió millorada de nosaltres mateixos.
Beatriz Remeseiro, Professora Titular d'Universitat, Universitat d'Oviedo
Este article va ser publicat originalment en The Conversation.
* ho pots llegir perquè som Creative Commons
Cap comentari :