Harvard e Google lançarão 1 milhão de livros de domínio público como conjunto de dados de treinamento de IA

A aquisição de dados de treinamento de IA é um desafio financeiro para muitas empresas, mas a iniciativa da Universidade Harvard promete democratizar o acesso.

O projeto prevê o lançamento de um dataset com cerca de 1 milhão de livros de domínio público, incluindo obras de Charles Dickens, Dante Alighieri e William Shakespeare.

Esses textos, livres de direitos autorais, abrangem diversos idiomas e gêneros, oferecendo uma base rica para o aprendizado de máquina.

Embora a data de lançamento não tenha sido anunciada, o conjunto de dados aproveitará materiais do Google Books, fruto do projeto de digitalização de livros.

O envolvimento do Google na distribuição reforça a relevância dessa iniciativa.

A disponibilidade desse acervo poderá revolucionar a qualidade e a acessibilidade dos treinamentos em IA, especialmente para startups e pesquisadores independentes.

A Institutional Data Initiative (IDI), lançada pela Universidade Harvard,  surge como uma resposta à crescente demanda por acesso acessível e legalizado a grandes volumes de dados para treinar modelos de Inteligência Artificial (IA).

Oficialmente lançada com o apoio financeiro da Microsoft e da OpenAI, a IDI se posiciona como um marco na democratização do aprendizado de máquina.

Seu objetivo central é criar um “canal confiável” que permita o acesso a dados legais para pesquisadores, startups e empresas que buscam desenvolver grandes modelos de linguagem (LLMs).

Greg Leppert, diretor executivo da IDI, destaca que o projeto visa “nivelar o campo de jogo”, disponibilizando datasets extensos, como textos de domínio público digitalizados, que antes estavam restritos a grandes corporações.

Essa abordagem permite que organizações menores também participem do avanço da IA, promovendo diversidade, inovação e ética no treinamento de algoritmos.

O suporte de gigantes como Microsoft e OpenAI reforça a relevância dessa iniciativa em um cenário global onde os dados são um recurso essencial, mas caro e muitas vezes inacessível.

A IDI promete transformar o setor, facilitando o acesso a dados de alta qualidade e impulsionando o progresso em aprendizado de máquina e IA, promovendo inclusão e inovação tecnológica.

Segundo Greg Leppert, diretor executivo da IDI, o objetivo do projeto é “nivelar o campo de jogo”, permitindo que laboratórios de pesquisa, startups e outras organizações acessem um vasto conjunto de dados para treinar grandes modelos de linguagem (LLMs).

Essa abordagem visa reduzir barreiras de entrada, promovendo inovação e diversidade no desenvolvimento de IA.


Nota pessoal:

Perceba que “certas empresas” nunca participam destas iniciativas de compartilhamento democrático de conhecimento. Sempre as mesmas.


Com dados da Institutional Data Initiative: https://institutionaldatainitiative.org/

0 0 votos
AVALIE
Inscrever-se
Notificar de
0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários