Por Alain Cappy, Professor Emérito em Eletrônica, Universidade de Lille
O cérebro continua sendo o rei dos computadores. As máquinas mais sofisticadas que se inspiram nele, chamadas de "neuromórficas", atualmente compreendem até
100 milhões de neurônios, o mesmo número que o cérebro de um pequeno mamífero.
Essas redes de neurônios e sinapses artificiais estão na base da inteligência artificial. Podem ser emuladas de duas formas: ou com simulações por computador, ou com componentes eletrônicos que reproduzem neurônios e sinapses biológicas, montados em "neuroprocessadores".
Essas abordagens de software e hardware agora são compatíveis, o que deixa antever evoluções drásticas no campo da IA.
Como funciona nosso cérebro? Neurônios, sinapses, redes
O córtex constitui a camada externa do cérebro. Com alguns milímetros de espessura e a superfície de um guardanapo, contém mais de 10 bilhões de
neurônios que processam informações na forma de impulsos elétricos chamados de
"potenciais de ação" ou "spike".
O ponto de conexão entre um neurônio que emite um
spike (o pré-neurônio) e o neurônio que o recebe (o pós-neurônio) é a
sinapse. Cada neurônio está conectado por sinapses a cerca de 10.000 outros neurônios: a conectividade de uma rede desse tipo, o
connectoma, é, portanto, prodigiosa.
A função dos neurônios é fixa: consiste em somar os sinais provenientes das sinapses e, se essa soma atingir um determinado limite, gerar um potencial de ação ou
spike, que se propagará pelo axônio. É notável observar que parte do processamento é analógica (a soma dos sinais sinápticos é
contínua), enquanto a outra é binária (a resposta neuronal é ou a geração de um
spike ou nada).
Assim, o neurônio pode ser considerado como um calculador analógico associado a um
sistema de comunicação digital. Ao contrário dos neurônios, as sinapses são plásticas, ou seja, podem modular a intensidade do sinal transmitido ao pós-neurônio e têm um efeito de "memória", porque o estado de uma sinapse pode ser mantido ao longo do tempo.
Rede de neurônios biológicos e propagação do potencial de ação ou "spike".
Alain Cappy, Autor fornecido
Do ponto de vista anatômico, o córtex divide-se em cerca de um milhão de
colunas corticais, que são redes de neurônios com uma arquitetura de interconexão idêntica. As colunas corticais podem ser consideradas como processadores elementares, cujos neurônios são os dispositivos básicos e as sinapses, a memória.
Do ponto de vista funcional, as colunas corticais formam uma rede hierárquica com conexões que vão de baixo (os sensores) para cima, permitindo abstrações, mas também de cima para baixo, possibilitando as
previsões: os processadores do nosso cérebro operam nos dois sentidos.
O principal objetivo da IA é emular as funcionalidades do córtex com redes artificiais de neurônios e sinapses. Essa ideia
não é nova, mas nos últimos anos deu um grande salto com o
deep learning, ou "aprendizado profundo".
Usar software para simular redes de neurônios e sinapses
A abordagem de software visa simular redes de neurônios e sinapses com um computador convencional. Ela envolve três elementos: modelos matemáticos dos neurônios e das sinapses, uma arquitetura de interconexão dos neurônios, e uma regra de aprendizado que permite modificar os "pesos sinápticos".
Arquitetura de uma rede de neurônios "feedforward", ou para frente. Os parâmetros de uma rede como essa são o número de camadas, o número de neurônios por camada e a regra de interconexão de uma camada para a próxima. Para uma determinada tarefa, esses parâmetros são geralmente escolhidos de maneira empírica e muitas vezes com excesso. Note-se que o número de camadas pode ser muito alto: mais de 150 no ResNet da Microsoft, por exemplo.
Alain Cappy, Autor fornecido
Os modelos matemáticos dos neurônios variam do mais simples ao mais realista (biologicamente), mas a simplicidade é necessária para simular redes de grande escala – com vários milhares, ou até milhões de neurônios – a fim de limitar o tempo de cálculo. A arquitetura das redes artificiais de neurônios e sinapses geralmente inclui uma camada de entrada, contendo os "neurônios sensores", e uma camada de saída, os resultados. Entre as duas, uma rede intermediária que pode assumir duas formas principais: "feedforward" ou
"recorrente".
Em uma rede feedforward (para frente), a informação é transferida de uma camada para a próxima, sem retroalimentação nas camadas anteriores. Ao contrário, nas redes recorrentes, podem existir conexões de uma camada
N para as anteriores
N-1,
N-2, etc. Como resultado, o estado de um neurônio no instante
t depende tanto dos dados de entrada no instante
t, quanto do estado dos outros neurônios no instante
t-Δt., o que complica consideravelmente os processos de aprendizado.
O aprendizado visa determinar o peso de cada sinapse, ou seja, a intensidade com que o
spike proveniente de um pré-neurônio é transmitido ao pós-neurônio, para que a rede possa responder a um objetivo definido. Distinguem-se dois grandes tipos de aprendizado: supervisionado, quando um "professor" (ou "mestre") conhece o resultado esperado para cada entrada, e não supervisionado, quando tal "mestre" está ausente.
As redes de neurônios "recorrentes" contêm loops de retroalimentação. Nas redes recorrentes, a variável "tempo" é um parâmetro essencial.
Alain Cappy, Autor fornecido
No caso do aprendizado supervisionado, é a comparação entre o resultado obtido para uma entrada e o do "mestre" que permite ajustar os pesos sinápticos. No caso do aprendizado não supervisionado, uma regra como a famosa regra de
Hebb permite que os pesos sinápticos evoluam ao longo dos vários ensaios.
Fabricação de redes artificiais de neurônios e sinapses em hardware
A abordagem de hardware consiste em projetar e fabricar neuroprocessadores que emulem neurônios, sinapses e interconexões. A tecnologia mais avançada utiliza a linha de semicondutores padrão (chamada de
CMOS), empregada em nossos computadores, tablets e outros smartphones. Atualmente, essa é a única linha suficientemente madura para fabricar circuitos com milhares ou milhões de neurônios e sinapses capazes de realizar as tarefas complexas exigidas pela IA, mas tecnologias baseadas em novos dispositivos também são propostas, como, por exemplo, em
spintrônica ou utilizando
memristores.
Assim como nas redes biológicas, as redes em hardware de neurônios e sinapses artificiais frequentemente combinam uma parte analógica para a integração dos sinais sinápticos com uma parte digital para as comunicações e a memorização dos pesos sinápticos.
Esse tipo de abordagem mista é utilizado nas tecnologias mais avançadas, como os chips do projeto europeu
Human Brain, da
Intel, ou da
TrueNorth da IBM. O chip TrueNorth, por exemplo, combina um milhão de neurônios e 256 milhões de sinapses programáveis, distribuídos em 4.096 núcleos neuromórficos – comparáveis às colunas corticais dos seres vivos – interconectados por uma rede de comunicação. O consumo de energia do chip TrueNorth é de 20 mW por cm
2, enquanto o de um microprocessador convencional é de 50 a 100 W por cm
2, ou seja, um ganho energético superior a 1000 vezes (normalmente considera-se a "densidade superficial de potência", já que nem todos os chips têm as mesmas dimensões).
O futuro será de hardware ou software?
As redes de software de neurônios e sinapses artificiais permitem resolver de forma elegante muitos problemas, especialmente no campo do processamento de imagens e sons, e mais recentemente, da geração de texto. Mas o aprendizado de redes recorrentes de neurônios e sinapses artificiais continua sendo um exemplo de grande dificuldade, seja por métodos supervisionados ou não. Outro problema: a potência de cálculo necessária torna-se considerável para as grandes redes de neurônios e sinapses artificiais necessárias para resolver problemas complexos.
Como exemplo, os resultados impressionantes do programa de conversa
"GPT-3" baseiam-se na maior rede de neurônios e sinapses artificiais já construída. Ela possui 175 bilhões de sinapses e requer uma potência de cálculo considerável composta por 295.000 processadores, que consomem uma potência elétrica de vários megawatts, equivalente à potência consumida por uma cidade de vários milhares de habitantes. Esse valor pode ser comparado aos alguns watts consumidos por um cérebro humano, realizando a mesma tarefa!
A abordagem de hardware e os neuroprocessadores são muito mais eficientes em termos de energia, mas sofrem de uma grande dificuldade: a escalabilidade, ou seja, a fabricação de milhões ou bilhões de neurônios, sinapses e sua
rede de interconexão.
No futuro, e uma vez que os neuroprocessadores usam a mesma linha tecnológica CMOS que os processadores comuns, a co-integração das abordagens
de software e hardware pode abrir caminho para uma nova forma de conceber o processamento de informações e, consequentemente, uma IA eficiente e com baixo consumo de energia.
Fonte: The Conversation sob licença Creative Commons