O que é IA Generativa? Explicação completa sobre Inteligência Artificial Generativa
A tecnologia, deve-se notar, não é totalmente nova. A IA generativa foi introduzida na década de 1960 em chatbots. Mas foi somente em 2014, com a introdução de redes adversárias generativas, ou GANs — um tipo de algoritmo de aprendizado de máquina — que a IA generativa pôde criar imagens, vídeos e áudio convincentemente autênticos de pessoas reais.
Por um lado, essa nova capacidade abriu oportunidades que incluem melhor dublagem de filmes e rico conteúdo educacional. Também desbloqueou preocupações sobre deepfakes — imagens ou vídeos forjados digitalmente — e ataques de segurança cibernética prejudiciais a empresas, incluindo solicitações nefastas que imitam realisticamente o chefe de um funcionário.
Dois avanços recentes adicionais que serão discutidos em mais detalhes abaixo desempenharam um papel crítico na popularização da IA generativa: transformadores e os modelos de linguagem inovadores que eles possibilitaram. Transformadores são um tipo de aprendizado de máquina que tornou possível para pesquisadores treinar modelos cada vez maiores sem ter que rotular todos os dados com antecedência. Novos modelos poderiam, portanto, ser treinados em bilhões de páginas de texto, resultando em respostas com mais profundidade. Além disso, transformadores desbloquearam uma nova noção chamada atenção que permitiu que modelos rastreassem as conexões entre palavras em páginas, capítulos e livros, em vez de apenas em frases individuais. E não apenas palavras: transformadores também poderiam usar sua capacidade de rastrear conexões para analisar código, proteínas, produtos químicos e DNA.
Os rápidos avanços nos chamados modelos de linguagem grande (LLMs) — ou seja, modelos com bilhões ou até trilhões de parâmetros — abriram uma nova era na qual modelos de IA generativa podem escrever texto envolvente, pintar imagens fotorrealistas e até mesmo criar sitcoms um tanto divertidos na hora. Além disso, inovações em IA multimodal permitem que equipes gerem conteúdo em vários tipos de mídia, incluindo texto, gráficos e vídeo. Esta é a base para ferramentas como o Dall-E que criam imagens automaticamente a partir de uma descrição de texto ou geram legendas de texto a partir de imagens.
Apesar dessas descobertas, ainda estamos nos primeiros dias do uso de IA generativa para criar texto legível e gráficos estilizados fotorrealistas. As primeiras implementações tiveram problemas com precisão e viés, além de serem propensas a alucinações e a cuspir respostas estranhas. Ainda assim, o progresso até agora indica que os recursos inerentes dessa IA generativa podem mudar fundamentalmente a tecnologia empresarial e como as empresas operam. No futuro, essa tecnologia pode ajudar a escrever código, projetar novos medicamentos, desenvolver produtos, redesenhar processos de negócios e transformar cadeias de suprimentos.
Como a IA generativa funciona?
A IA generativa começa com um prompt que pode estar na forma de um texto, uma imagem, um vídeo, um design, notas musicais ou qualquer entrada que o sistema de IA possa processar. Vários algoritmos de IA retornam então um novo conteúdo em resposta ao prompt. O conteúdo pode incluir ensaios, soluções para problemas ou falsificações realistas criadas a partir de imagens ou áudio de uma pessoa.
As primeiras versões da IA generativa exigiam o envio de dados por meio de uma API ou um processo complicado. Os desenvolvedores tiveram que se familiarizar com ferramentas especiais e escrever aplicativos usando linguagens como Python.
Agora, os pioneiros em IA generativa estão desenvolvendo melhores experiências de usuário que permitem que você descreva uma solicitação em linguagem simples. Após uma resposta inicial, você também pode personalizar os resultados com feedback sobre o estilo, tom e outros elementos que deseja que o conteúdo gerado reflita.
Modelos de IA generativa
Os modelos de IA generativa combinam vários algoritmos de IA para representar e processar conteúdo. Por exemplo, para gerar texto, várias técnicas de processamento de linguagem natural transformam caracteres brutos (por exemplo, letras, pontuação e palavras) em frases, partes do discurso, entidades e ações, que são representadas como vetores usando várias técnicas de codificação. Da mesma forma, as imagens são transformadas em vários elementos visuais, também expressos como vetores. Um cuidado é que essas técnicas também podem codificar os preconceitos, racismo, engano e exagero contidos nos dados de treinamento.
Uma vez que os desenvolvedores decidem uma maneira de representar o mundo, eles aplicam uma rede neural específica para gerar novo conteúdo em resposta a uma consulta ou prompt. Técnicas como GANs e autocodificadores variacionais (VAEs) — redes neurais com um decodificador e codificador — são adequadas para gerar rostos humanos realistas, dados sintéticos para treinamento de IA ou até mesmo fac-símiles de humanos específicos.
O progresso recente em transformadores como o Bidirectional Encoder Representations from Transformers (BERT) do Google, o GPT da OpenAI e o Google AlphaFold também resultaram em redes neurais que podem não apenas codificar linguagem, imagens e proteínas, mas também gerar novo conteúdo.
Como as redes neurais estão transformando a IA generativa
Pesquisadores têm criado IA e outras ferramentas para gerar conteúdo programaticamente desde os primórdios da IA. As primeiras abordagens, conhecidas como sistemas baseados em regras e, mais tarde, como "sistemas especialistas", usavam regras explicitamente elaboradas para gerar respostas ou conjuntos de dados.
As redes neurais, que formam a base de muitas das aplicações de IA e aprendizado de máquina hoje, inverteram o problema. Projetadas para imitar o funcionamento do cérebro humano, as redes neurais "aprendem" as regras encontrando padrões em conjuntos de dados existentes. Desenvolvidas nas décadas de 1950 e 1960, as primeiras redes neurais eram limitadas pela falta de poder computacional e pequenos conjuntos de dados. Foi somente com o advento do big data em meados dos anos 2000 e melhorias no hardware do computador que as redes neurais se tornaram práticas para gerar conteúdo.
O campo acelerou quando os pesquisadores encontraram uma maneira de fazer as redes neurais rodarem em paralelo nas unidades de processamento gráfico (GPUs) que estavam sendo usadas na indústria de jogos de computador para renderizar videogames. Novas técnicas de aprendizado de máquina desenvolvidas na última década, incluindo as redes adversárias generativas e transformadores mencionados anteriormente, prepararam o cenário para os recentes avanços notáveis no conteúdo gerado por IA.
O que são Dall-E, ChatGPT e Gemini?
ChatGPT, Dall-E e Gemini (anteriormente Bard) são interfaces de IA generativas populares.
Dall-E: Treinado em um grande conjunto de dados de imagens e suas descrições de texto associadas, Dall-E é um exemplo de um aplicativo de IA multimodal que identifica conexões em várias mídias, como visão, texto e áudio. Neste caso, ele conecta o significado das palavras a elementos visuais. Ele foi construído usando a implementação GPT da OpenAI em 2021. Dall-E 2, uma segunda versão mais capaz, foi lançada em 2022. Ele permite que os usuários gerem imagens em vários estilos orientados por prompts do usuário.
ChatGPT: O chatbot com tecnologia de IA que conquistou o mundo em novembro de 2022 foi construído na implementação GPT-3.5 da OpenAI. A OpenAI forneceu uma maneira de interagir e ajustar respostas de texto por meio de uma interface de bate-papo com feedback interativo. Versões anteriores do GPT eram acessíveis apenas por meio de uma API. O GPT-4 foi lançado em 14 de março de 2023. O ChatGPT incorpora o histórico de sua conversa com um usuário em seus resultados, simulando uma conversa real. Após a incrível popularidade da nova interface GPT, a Microsoft anunciou um novo investimento significativo no OpenAI e integrou uma versão do GPT em seu mecanismo de busca Bing.
Gemini: O Google foi outro líder pioneiro em técnicas pioneiras de IA transformadora para processamento de linguagem, proteínas e outros tipos de conteúdo. Ele tornou alguns desses modelos de código aberto para pesquisadores. No entanto, nunca lançou uma interface pública para esses modelos. A decisão da Microsoft de implementar o GPT no Bing levou o Google a se apressar para comercializar um chatbot voltado ao público, o Google Gemini, construído em uma versão leve de sua família LaMDA de grandes modelos de linguagem. O Google sofreu uma perda significativa no preço das ações após a estreia apressada do Gemini depois que o modelo de linguagem disse incorretamente que o telescópio Webb foi o primeiro a descobrir um planeta em um sistema solar estrangeiro. Enquanto isso, as implementações da Microsoft e do ChatGPT também perderam prestígio em seus primeiros lançamentos devido a resultados imprecisos e comportamento errático. Desde então, o Google revelou uma nova versão do Gemini baseada em seu LLM mais avançado, o PaLM 2, que permite que o Gemini seja mais eficiente e visual em suas respostas às consultas dos usuários.
Quais são os casos de uso para IA generativa?
A IA generativa pode ser aplicada em vários casos de uso para gerar praticamente qualquer tipo de conteúdo. A tecnologia está se tornando mais acessível a usuários de todos os tipos, graças a avanços de ponta como o GPT, que pode ser ajustado para diferentes aplicações. Alguns dos casos de uso para IA generativa incluem o seguinte:
- Implementação de chatbots para atendimento ao cliente e suporte técnico.
- Implantação de deepfakes para imitar pessoas ou até mesmo indivíduos específicos.
- Melhoria da dublagem de filmes e conteúdo educacional em diferentes idiomas.
- Redação de respostas de e-mail, perfis de namoro, currículos e trabalhos de conclusão de curso.
- Criação de arte fotorrealista em um estilo específico.
- Melhoria de vídeos de demonstração de produtos.
- Sugestão de novos compostos de medicamentos para testar.
- Projeção de produtos e edifícios físicos.
- Otimização de novos designs de chips.
- Redação de música em um estilo ou tom específico.
Quais são os benefícios da IA generativa?
A IA generativa pode ser aplicada extensivamente em muitas áreas do negócio. Ela pode facilitar a interpretação e a compreensão do conteúdo existente e criar automaticamente novos conteúdos. Os desenvolvedores estão explorando maneiras pelas quais a IA generativa pode melhorar os fluxos de trabalho existentes, com o objetivo de adaptar os fluxos de trabalho inteiramente para aproveitar a tecnologia. Alguns dos benefícios potenciais da implementação da IA generativa incluem o seguinte:
- Automatizar o processo manual de escrever conteúdo.
- Reduzir o esforço de responder a e-mails.
- Melhorar a resposta a consultas técnicas específicas.
- Criar representações realistas de pessoas.
- Resumir informações complexas em uma narrativa coerente.
- Simplificar o processo de criação de conteúdo em um estilo específico.
Quais são as limitações da IA generativa?
As primeiras implementações da IA generativa ilustram vividamente suas muitas limitações. Alguns dos desafios que a IA generativa apresenta resultam das abordagens específicas usadas para implementar casos de uso particulares. Por exemplo, um resumo de um tópico complexo é mais fácil de ler do que uma explicação que inclui várias fontes que dão suporte aos pontos-chave. A legibilidade do resumo, no entanto, vem às custas de um usuário ser capaz de verificar de onde as informações vêm.Aqui estão algumas das limitações a serem consideradas ao implementar ou usar um aplicativo de IA generativa:
- Ele nem sempre identifica a fonte do conteúdo.
- Pode ser desafiador avaliar o viés das fontes originais.
- Conteúdo que soa realista torna mais difícil identificar informações imprecisas.
- Pode ser difícil entender como ajustar para novas circunstâncias.
- Os resultados podem encobrir viés, preconceito e ódio.
Atenção é tudo o que você precisa: Transformers trazem novas capacidades
Em 2017, o Google relatou um novo tipo de arquitetura de rede neural que trouxe melhorias significativas em eficiência e precisão para tarefas como processamento de linguagem natural. A abordagem inovadora, chamada transformers, foi baseada no conceito de atenção.Em um alto nível, atenção se refere à descrição matemática de como as coisas (por exemplo, palavras) se relacionam, complementam e modificam umas às outras. Os pesquisadores descreveram a arquitetura em seu artigo seminal, "Attention is all you need", mostrando como uma rede neural transformadora foi capaz de traduzir entre inglês e francês com mais precisão e em apenas um quarto do tempo de treinamento do que outras redes neurais. A técnica inovadora também pode descobrir relacionamentos, ou ordens ocultas, entre outras coisas enterradas nos dados que os humanos podem não ter conhecimento porque eram muito complicados para expressar ou discernir.
A arquitetura transformadora evoluiu rapidamente desde que foi introduzida, dando origem a LLMs como GPT-3 e melhores técnicas de pré-treinamento, como o BERT do Google.
Quais são as preocupações em torno da IA generativa?
A ascensão da IA generativa também está alimentando várias preocupações. Elas se relacionam com a qualidade dos resultados, potencial para uso indevido, abuso e o potencial para interromper os modelos de negócios existentes. Aqui estão alguns dos tipos específicos de problemas apresentados pelo estado atual da IA generativa:- Ela pode fornecer informações imprecisas e enganosas.
- É mais difícil confiar sem saber a fonte e a procedência das informações.
- Ela pode promover novos tipos de plágio que ignoram os direitos dos criadores de conteúdo e artistas de conteúdo original.
- Ela pode interromper os modelos de negócios existentes construídos em torno da otimização de mecanismos de busca e publicidade.
- Ela torna mais fácil gerar notícias falsas.
- Ela torna mais fácil alegar que evidências fotográficas reais de uma irregularidade eram apenas uma farsa gerada por IA.
- Ela poderia personificar pessoas para ataques cibernéticos de engenharia social mais eficazes.
Quais são alguns exemplos de ferramentas de IA generativas?
As ferramentas de IA generativas existem para várias modalidades, como texto, imagens, música, código e vozes. Alguns geradores de conteúdo de IA populares para explorar incluem o seguinte:- As ferramentas de geração de texto incluem GPT, Jasper, AI-Writer e Lex.
- As ferramentas de geração de imagem incluem Dall-E 2, Midjourney e Stable Diffusion.
- As ferramentas de geração de música incluem Amper, Dadabots e MuseNet.
- As ferramentas de geração de código incluem CodeStarter, Codex, GitHub Copilot e Tabnine.
- As ferramentas de síntese de voz incluem Descript, Listnr e Podcast.ai.
- As empresas de ferramentas de design de chips de IA incluem Synopsys, Cadence, Google e Nvidia.
Casos de uso para IA generativa, por setor
As novas tecnologias de IA generativa às vezes são descritas como tecnologias de uso geral semelhantes à energia a vapor, eletricidade e computação, porque podem afetar profundamente muitos setores e casos de uso. É essencial ter em mente que, assim como as tecnologias de uso geral anteriores, muitas vezes levou décadas para as pessoas encontrarem a melhor maneira de organizar fluxos de trabalho para aproveitar a nova abordagem em vez de acelerar pequenas partes dos fluxos de trabalho existentes. Aqui estão algumas maneiras pelas quais os aplicativos de IA generativa podem impactar diferentes setores:- O setor financeiro pode observar as transações no contexto do histórico de um indivíduo para construir melhores sistemas de detecção de fraudes.
- Os escritórios de advocacia podem usar a IA generativa para projetar e interpretar contratos, analisar evidências e sugerir argumentos.
- Os fabricantes podem usar a IA generativa para combinar dados de câmeras, raios X e outras métricas para identificar peças defeituosas e as causas raiz de forma mais precisa e econômica.
- As empresas de cinema e mídia podem usar a IA generativa para produzir conteúdo de forma mais econômica e traduzi-lo para outros idiomas com as próprias vozes dos atores.
- O setor médico pode usar a IA generativa para identificar candidatos promissores a medicamentos de forma mais eficiente.
- Os escritórios de arquitetura podem usar a IA generativa para projetar e adaptar protótipos mais rapidamente.
- As empresas de jogos podem usar a IA generativa para projetar conteúdo e níveis de jogos.
Ética e preconceito na IA generativa
Apesar de sua promessa, as novas ferramentas de IA generativa abrem uma lata de minhocas em relação à precisão, confiabilidade, preconceito, alucinação e plágio — questões éticas que provavelmente levarão anos para serem resolvidas. Nenhuma dessas questões é particularmente nova para a IA. A primeira incursão da Microsoft em chatbots em 2016, chamada Tay, por exemplo, teve que ser desativada depois que começou a vomitar retórica inflamatória no Twitter.
A novidade é que a última safra de aplicativos de IA generativa parece mais coerente na superfície. Mas essa combinação de linguagem e coerência semelhantes às humanas não é sinônimo de inteligência humana, e atualmente há um grande debate sobre se os modelos de IA generativa podem ser treinados para ter capacidade de raciocínio. Um engenheiro do Google foi até demitido após declarar publicamente que o aplicativo de IA generativa da empresa, Language Models for Dialog Applications (LaMDA), era senciente.
O realismo convincente do conteúdo de IA generativa introduz um novo conjunto de riscos de IA. Isso torna mais difícil detectar conteúdo gerado por IA e, mais importante, torna mais difícil detectar quando as coisas estão erradas. Isso pode ser um grande problema quando confiamos em resultados de IA generativa para escrever código ou fornecer aconselhamento médico. Muitos resultados de IA generativa não são transparentes, então é difícil determinar se, por exemplo, eles infringem direitos autorais ou se há problemas com as fontes originais das quais eles extraem resultados. Se você não sabe como a IA chegou a uma conclusão, não pode raciocinar sobre por que ela pode estar errada.
IA generativa vs. IA
A IA generativa foca na criação de conteúdo novo e original, respostas de bate-papo, designs, dados sintéticos ou até mesmo deepfakes. É particularmente valiosa em campos criativos e para resolução de problemas inovadores, pois pode gerar autonomamente muitos tipos de novas saídas.
A IA generativa, como observado acima, depende de técnicas de rede neural, como transformadores, GANs e VAEs. Outros tipos de IA, em distinção, usam técnicas incluindo redes neurais convolucionais, redes neurais recorrentes e aprendizado por reforço.
A IA generativa geralmente começa com um prompt que permite que um usuário ou fonte de dados envie uma consulta inicial ou conjunto de dados para orientar a geração de conteúdo. Este pode ser um processo iterativo para explorar variações de conteúdo. Algoritmos de IA tradicionais, por outro lado, geralmente seguem um conjunto predefinido de regras para processar dados e produzir um resultado.
Ambas as abordagens têm seus pontos fortes e fracos dependendo do problema a ser resolvido, com a IA generativa sendo mais adequada para tarefas que envolvem PNL e exigem a criação de novos conteúdos, e os algoritmos tradicionais mais eficazes para tarefas que envolvem processamento baseado em regras e resultados predeterminados.
IA generativa vs. IA preditiva vs. IA conversacional
A IA preditiva, em distinção à IA generativa, usa padrões em dados históricos para prever resultados, classificar eventos e insights acionáveis. As organizações usam IA preditiva para aprimorar a tomada de decisões e desenvolver estratégias baseadas em dados.
A IA conversacional ajuda sistemas de IA como assistentes virtuais, chatbots e aplicativos de atendimento ao cliente a interagir e se envolver com humanos de forma natural. Ela usa técnicas de PNL e aprendizado de máquina para entender a linguagem e fornecer respostas de texto ou fala semelhantes às humanas.
Histórico da IA generativa
O chatbot Eliza criado por Joseph Weizenbaum na década de 1960 foi um dos primeiros exemplos de IA generativa. Essas primeiras implementações usavam uma abordagem baseada em regras que quebrava facilmente devido a um vocabulário limitado, falta de contexto e dependência excessiva de padrões, entre outras deficiências. Os primeiros chatbots também eram difíceis de personalizar e estender.
O campo viu um ressurgimento na esteira dos avanços em redes neurais e aprendizado profundo em 2010, que permitiram que a tecnologia aprendesse automaticamente a analisar texto existente, classificar elementos de imagem e transcrever áudio.
Ian Goodfellow introduziu GANs em 2014. Essa técnica de aprendizado profundo forneceu uma nova abordagem para organizar redes neurais concorrentes para gerar e, em seguida, classificar variações de conteúdo. Isso poderia gerar pessoas, vozes, música e texto realistas. Isso inspirou interesse em — e medo de — como a IA generativa poderia ser usada para criar deepfakes realistas que personificam vozes e pessoas em vídeos.
Desde então, o progresso em outras técnicas e arquiteturas de redes neurais ajudou a expandir as capacidades de IA generativa. As técnicas incluem VAEs, memória de curto longo prazo (LSTM), transformadores, modelos de difusão e campos de radiância neural.
Melhores práticas para usar IA generativa
As melhores práticas para usar IA generativa variam dependendo das modalidades, fluxo de trabalho e objetivos desejados. Dito isso, é importante considerar fatores essenciais como precisão, transparência e facilidade de uso ao trabalhar com IA generativa. As seguintes práticas ajudam a atingir esses fatores:
- Rotule claramente todo o conteúdo de IA generativa para usuários e consumidores.
- Verifique a precisão do conteúdo gerado usando fontes primárias, quando aplicável.
- Considere como o viés pode ser incorporado aos resultados de IA gerados.
- Verifique novamente a qualidade do código e conteúdo gerados por IA usando outras ferramentas.
- Aprenda os pontos fortes e as limitações de cada ferramenta de IA generativa.
- Familiarize-se com os modos de falha comuns em resultados e contorne-os.
O futuro da IA generativa
A incrível profundidade e facilidade do ChatGPT estimularam a adoção generalizada da IA generativa. Com certeza, a rápida adoção de aplicativos de IA generativa também demonstrou algumas das dificuldades em implementar essa tecnologia com segurança e responsabilidade. Mas esses problemas iniciais de implementação inspiraram pesquisas sobre melhores ferramentas para detectar texto, imagens e vídeo gerados por IA.
De fato, a popularidade de ferramentas de IA generativa, como ChatGPT, Midjourney, Stable Diffusion e Gemini, também alimentou uma variedade infinita de cursos de treinamento em todos os níveis de especialização. Muitos visam ajudar os desenvolvedores a criar aplicativos de IA. Outros se concentram mais em usuários empresariais que buscam aplicar a nova tecnologia em toda a empresa. Em algum momento, a indústria e a sociedade também criarão melhores ferramentas para rastrear a procedência das informações para criar uma IA mais confiável.
A IA generativa continuará a evoluir, fazendo avanços na tradução, descoberta de medicamentos, detecção de anomalias e geração de novos conteúdos, de texto e vídeo a design de moda e música. Por melhores que sejam essas novas ferramentas únicas, o impacto mais significativo da IA generativa no futuro virá da integração desses recursos diretamente nas ferramentas que já usamos.
Os verificadores gramaticais, por exemplo, ficarão melhores. As ferramentas de design incorporarão perfeitamente recomendações mais úteis diretamente em nossos fluxos de trabalho. As ferramentas de treinamento poderão identificar automaticamente as melhores práticas em uma parte de uma organização para ajudar a treinar outros funcionários de forma mais eficiente. Essas são apenas uma fração das maneiras pelas quais a IA generativa mudará o que fazemos no curto prazo.
Qual será o impacto da IA generativa no futuro é difícil de dizer. Mas, à medida que continuamos a aproveitar essas ferramentas para automatizar e aumentar as tarefas humanas, inevitavelmente nos veremos tendo que reavaliar a natureza e o valor da expertise humana.
Comentários
Postar um comentário