Harvard e Google: 1 milhão de livros de domínio público para treinamento de IAs

Blog Caminhos e Possibilidades Harvard e Google: 1 milhão de livros de domínio público para treinamento de IAs

Harvard e Google: 1 milhão de livros de domínio público para treinar IAs

Harvard e Google lançarão 1 milhão de livros de domínio público como conjunto de dados de treinamento de IA

A aquisição de dados de treinamento de IA é um desafio financeiro para muitas empresas, mas a iniciativa da Universidade Harvard promete democratizar o acesso.

O projeto prevê o lançamento de um dataset com cerca de 1 milhão de livros de domínio público, incluindo obras de Charles Dickens, Dante Alighieri e William Shakespeare.

Esses textos, livres de direitos autorais, abrangem diversos idiomas e gêneros, oferecendo uma base rica para o aprendizado de máquina.

Embora a data de lançamento não tenha sido anunciada, o conjunto de dados aproveitará materiais do Google Books, fruto do projeto de digitalização de livros.

O envolvimento do Google na distribuição reforça a relevância dessa iniciativa.

A disponibilidade desse acervo poderá revolucionar a qualidade e a acessibilidade dos treinamentos em IA, especialmente para startups e pesquisadores independentes.

A Institutional Data Initiative (IDI), lançada pela Universidade Harvard, surge como uma resposta à crescente demanda por acesso acessível e legalizado a grandes volumes de dados para treinar modelos de Inteligência Artificial (IA).

Oficialmente lançada com o apoio financeiro da Microsoft e da OpenAI, a IDI se posiciona como um marco na democratização do aprendizado de máquina.

Seu objetivo central é criar um “canal confiável” que permita o acesso a dados legais para pesquisadores, startups e empresas que buscam desenvolver grandes modelos de linguagem (LLMs).

Greg Leppert, diretor executivo da IDI, destaca que o projeto visa “nivelar o campo de jogo”, disponibilizando datasets extensos, como textos de domínio público digitalizados, que antes estavam restritos a grandes corporações.

Essa abordagem permite que organizações menores também participem do avanço da IA, promovendo diversidade, inovação e ética no treinamento de algoritmos.

O suporte de gigantes como Microsoft e OpenAI reforça a relevância dessa iniciativa em um cenário global onde os dados são um recurso essencial, mas caro e muitas vezes inacessível.

A IDI promete transformar o setor, facilitando o acesso a dados de alta qualidade e impulsionando o progresso em aprendizado de máquina e IA, promovendo inclusão e inovação tecnológica.

Segundo Greg Leppert, diretor executivo da IDI, o objetivo do projeto é “nivelar o campo de jogo”, permitindo que laboratórios de pesquisa, startups e outras organizações acessem um vasto conjunto de dados para treinar grandes modelos de linguagem (LLMs).

Essa abordagem visa reduzir barreiras de entrada, promovendo inovação e diversidade no desenvolvimento de IA.

Nota pessoal:

Perceba que “certas empresas” nunca participam destas iniciativas de compartilhamento democrático de conhecimento. Sempre as mesmas.

Com dados da Institutional Data Initiative: https://institutionaldatainitiative.org/

Seção Caminhos e Possibilidades

New In

treinamento de IAs Nossos filhos estão preparados para o mundo de algoritmos que herdarão?

AVALIE

Inscrever-se

0 Comentários

mais antigos

mais recentes Mais votado

Feedbacks embutidos

Ver todos os comentários

Harvard e Google lançarão 1 milhão de livros de domínio público como conjunto de dados de treinamento de IA

New In

Nossos filhos estão preparados para o mundo de algoritmos que herdarão?

Empregos e IA nos próximos anos – Principais tendências

O que é Aprendizado de Máquina?

O que é um agente de IA?

História da Inteligência Artificial: De Turing ao GPT

Qua4ro

Projeto ODIN aplica robótica, IoT e IA em gestão hospitalar

Nvidia diz que seus chips evoluem mais rápido que a Lei de Moore previu

Google Nest Learning Thermostat

Marcas de sucesso exigem presença na Internet, não nas redes sociais

Qua4ro

Projeto ODIN aplica robótica, IoT e IA em gestão hospitalar

Nvidia diz que seus chips evoluem mais rápido que a Lei de Moore previu

Google Nest Learning Thermostat

Marcas de sucesso exigem presença na Internet, não nas redes sociais

Harvard e Google: 1 milhão de livros de domínio público para treinamento de IAs

Harvard e Google lançarão 1 milhão de livros de domínio público como conjunto de dados de treinamento de IA

New In

Nossos filhos estão preparados para o mundo de algoritmos que herdarão?

Empregos e IA nos próximos anos – Principais tendências

O que é Aprendizado de Máquina?

O que é um agente de IA?

História da Inteligência Artificial: De Turing ao GPT

Qua4ro

Projeto ODIN aplica robótica, IoT e IA em gestão hospitalar

Nvidia diz que seus chips evoluem mais rápido que a Lei de Moore previu

Google Nest Learning Thermostat

Marcas de sucesso exigem presença na Internet, não nas redes sociais

Qua4ro

Projeto ODIN aplica robótica, IoT e IA em gestão hospitalar

Nvidia diz que seus chips evoluem mais rápido que a Lei de Moore previu

Google Nest Learning Thermostat

Marcas de sucesso exigem presença na Internet, não nas redes sociais

ChatBot - IA