Extraindo dados dos artigos da Wikipédia em português
Comunicação

Extraindo dados dos artigos da Wikipédia em português


Um dos investimentos mais importantes da minha tese de doutorado foi (verbo no passado porque o trabalho está depositado e será defendido no dia 30/09... ainda esta semana posto sobre isso) o desenvolvimento de um software que permite a extração de dados quantitativos do histórico de edições da Wikipédia em português.

Com o apoio inestimável do prof. Alcione de Paiva Oliveira, do Departamento de Informática da UFV, e com grande dedicação do bolsista (por apenas um mês!) Charles Cássio da Silva, desenvolvemos em 2010 o WikipediAnalyserPT.

Interface do WikipediAnalyserPT
Após ser utilizado na tese (e meus artigos mais recentes), o software já está disponível para download. Por ter o código aberto, esperamos que outros programadores possam colaborar para seu aperfeiçoamento.

Para cada artigo pesquisado, a versão inicial deste aplicativo em Java gera uma planilha que, entre outros dados, permite mensurarmos, em cada artigo pesquisado:
- quantas edições foram feitas por quantos editores em um determinado período de tempo;
- que percentual dessas edições foi efetuado por editores não-cadastrados, bots, administradores e demais editores cadastrados da Wikipédia;
- qual a média de edições por mês e qual a média de edições por editores;
- quantas edições cada editor efetuou.
- quantas edições foram revertidas ou desfeitas, e por quais editores;
- quantas proteções foram aplicadas a um artigo, e qual o percentual de tempo no qual o artigo ficou protegido;
- qual o percentual de edições que incluiu ou excluiu conteúdo do artigo.

Mais explicações técnicas e uma explicação de como rodar o programa estão no arquivo .PDF disponível junto com o software.

Que seja útil para muitas pesquisas!





loading...

- Ciberjornais Não "canibalizam" Os De Papel
O receio de "canibalização" das edições em papel pelas edições online sempre foi um dos maiores receios dos gestores dos jornais. Um estudo agora revelado, em Inglaterra, mostra que «as versões online dos jornais britânicos não prejudicam as...

-
ORKUT: AME-O OU DEIXE-O    Nelson de Sá escreve em Toda a Mídia: "A agência Reuters deu que o fascínio dos brasileiros pelo Orkut começa a incomodar: 'O Brasil tem trombado com os EUA nos subsídios agrícolas, no Iraque, mas nenhum...

- Revisões Assinaladas: Uma Nova Wikipédia?
A mudança vinha sendo discutida desde o ano passado (ver post Wikipedia = Britannica? Ainda não) e, nesta segunda, 24/08, o NYT confirmou: a versão em inglês da Wikipédia vai a adotar o recurso "Revisões assinaladas", ou "Validação de páginas"...

- Wikipedia = Britannica? Ainda Não.
Duas notícias compĺementares repercutiram bastante esta semana: enquanto a enciclopédia Britannica abre-se para a participação do público, a Wikipedia estaria prester a aprovar um novo mecanismo de restrição à ampla colaboração. Especulações...

- Morto Ou Não? Boatos Na Wikipedia, Twitter E Jornalismo
2008 terminou com mais uma mini-polêmica em torno da Wikipédia: no dia 28 de dezembro a versão em inglês foi atualizada com a informação da morte do ator Paul Reiser. Pouco conhecido noBrasil (sua atuação mais marcante foi na série Mad About...



Comunicação








.