AdC alerta para riscos relacionados com acesso e utilização de dados em IA generativa
Comunicado 22/2024
27 de setembro de 2024
A AdC alerta para riscos relacionados com acesso e utilização de dados em IA generativa. Esta é a primeira publicação de uma nova série de Short Papers que estende a análise realizada no Issues Paper sobre IA generativa de novembro de 2023, no seguimento de desenvolvimentos recentes no setor.
Nova série de Short Papers
A AdC iniciou uma série de Short Papers destinados à análise da dinâmica concorrencial em mercados de IA generativa, e que estende a realizada no Issues Paper sobre Concorrência e IA Generativa, publicado em novembro de 2023.
A primeira publicação da série incide sobre desenvolvimentos recentes relacionados com o acesso e uso de dados em IA generativa, nomeadamente com a importância crescente de acordos de licenciamento de dados e o seu impacto na concorrência.
Concorrência, IA Generativa e Dados
Os dados são um requisito fundamental no desenvolvimento de modelos de IA generativa, conjuntamente com a capacidade de computação e o know-how. Desenvolvimentos recentes no setor relacionados com a forma como fornecedores de IA acedem e usam os dados podem ter impacto na concorrência.
- Tem-se verificado uma transição de dados publicamente disponíveis para dados proprietários, à medida que os detentores de direitos de propriedade intelectual começaram a exigir compensação. Isto pode reforçar vantagens associadas a dados e a concentração no mercado.
- Os acordos de licenciamento de dados parecem ter-se tornado mais frequentes. Estes são acordos entre detentores de dados – como editores de conteúdos, repositórios de imagens stock ou redes sociais – e fornecedores de IA generativa. A AdC alerta para os riscos para a concorrência que podem resultar de cláusulas de exclusividade nestes acordos. Estes podem ser especialmente
danosos para a concorrência e possivelmente uma prática anticoncorrencial, se os detentores de dados tiverem posição dominante.
- Os dados sintéticos e o pré-processamento de dados parecem estar a desempenhar um papel cada vez mais importante no treino de modelos de IA generativos eficientes e com bom desempenho. Os dados sintéticos são cada vez mais usados por fornecedores de IA e podem reduzir barreiras à entrada e custos de aquisição de dados. Contudo, têm um conjunto de limitações e os fornecedores de IA com acesso a dados reais ainda podem gozar de uma vantagem competitiva. O pré-processamento de dados, por seu turno, pode multiplicar efeitos de escala e reforçar a concentração de mercado, uma vez que depende fortemente de experimentação.
Para mitigar os riscos para a concorrência relacionados com o acesso e o uso de dados, é fundamental agilizar o acesso a dados a fornecedores de IA para assegurar um level playing field no setor (e.g., fornecendo dados via API abertas, estruturas de preços de pay-as-you-go ou facilitando o acesso a dados públicos). Os efeitos de escala devido à experimentação podem ser mitigados através de canais de partilha de conhecimento, como os modelos em código aberto.