Jump to content

Research:Data/pt

From Meta, a Wikimedia project coordination wiki
Other languages:

Resumo das plataformas

[edit]

Data Dumps (detalhes)

Página | Baixar

Dumps de todos os projetos da WMF para backup, uso offline, pesquisa etc.

  • Conteúdo da Wiki, revisões, metadados, links internos e externos
  • Uma ou duas vezes ao mês
  • Arquivos grandes

API (detalhes)

Homepage

API provê acesso ao conteúdo do banco de dados do MediaWiki, através de requisições w:pt:HTTP ao serviço web.

  • Meta informações sobre wiki e usuário logados, propriedades das páginas (como, revisões, conteúdo, etc) e listas de páginas a partir de filtros.

Toolserver (detalhes)

Página

Toolserver é um plataforma colaborativa para ferramentas usadas e criadas por pessoas do movimento Wikimedia.

  • Funciona como servidor, web, padrão para aplicações
  • Interface de linha de comando
  • É necessário criar conta

IRC Feeds (detalhes)

Página

Apresentação das atualização das Mudanças recentes, via IRC.

  • Mudanças são mostradas assim que acontecem.
  • Atualizações para cada wiki estão em canais diferentes.
  • Atualizações filtradas e disponibilizadas com hora

Acessos (detalhes)

Página | Baixar

Dados brutos dos logs de acessos (não únicos) as páginas dos projetos Wikimedia, como Wikipedia, WikiLivros, nos diversos idiomas. Dados extraídos dos servidores squid.

  • Projeto, título da página, número de requisições, tamanho do conteúdo
  • Atualizados a cada hora

WikiStats (detalhes)

Página | Baixar

Relatórios das atividades em dos projetos Wikimedia em 25 idiomas, aproximadamente, baseados nos arquivos dump.

  • Únicos vistantes, acessos por página, editores ativos e mais
  • Arquivos intermediários disponíveis, em CSV
  • Atualização mensal
  • Gráficos

DBpedia (detalhes)

Página

DBpedia extrai dados estruturados da Wikipédia, permite que os usuários manipulem esses dados e criem ligações para outros conjuntos de dados.

  • Bilhões de estrutura de informação em ontologia consistente

DataHub (detalhes)

Página

Coleção de vários conjuntos de dados Wikimedia.

  • pequenos, em geral vindos de estudos
  • dbpedia lite, DBpedia-Live e outros
  • Avaliação de qualidade EPIC/Oxford

Data Dumps

[edit]

Página

[edit]

Dumps


descrição

[edit]

WMF publica cópias dos bancos de dados da Wikipédia e de todos os outros projetos. Os Wikipédia anglófona são atualizados uma vez ao mês, por conta do seu tamanho, outros projetos menores tem esses dados atualizados com mais frequência.[1]

Conteúdo

[edit]
  • Texto e metadados de todas as revisões/edições de todas as páginas, em arquivo XML
  • Maior parte das tabelas do banco de dados, em arquivos SQL
    • Listas de ligações página-página (ligações de página, ligações de categorias, ligações de imagens)
    • Listas de páginas com ligações externas ao projeto (externallinks, iwlinks, langlinks tables)
    • Metadados de mídias (imagens, tabela de imagens antigas)
    • Informações sobre cada página (página, page_props, tabela restrições de página)
    • Títulos de todas as páginas no namespace principal, isso é, todos os artigos (*-all-titles-in-ns0.gz)
    • Lista todas as páginas que são redirecionamentos e seus alvos (tabela de redirecionamentos)
    • Lista de todas que são redirecionamentos e seus respectivos destinos.
    • Dados de log, inclui bloqueios, proteção, deleção, material subido (tabela logging)
    • Pedaços (interwiki, site_stats, user_groups tables)

http://dumps.wikimedia.org/other/incr/

  • Arquivos com Stub no início do nome tem apenas o cabeçalhos de informações das páginas e revisões sem conteúdo atual
  • Arquivos de mídia de cada projeto estão separados em arquivos do projeto e arquivos do Commons.

imagens : http://meta.wikimedia.org/wiki/Database_dump#Downloading_Images

  • Arquivos HTML para for 2007-2008

http://dumps.wikimedia.org/other/static_html_dumps/

(see more)

Baixar

[edit]

É possível baixar os mais atuais dumps You can download the latest dumps (for the last year) here (http://dumps.wikimedia.org/enwiki/ for English Wikipedia, http://dumps.wikimedia.org/dewiki/ for German Wikipedia, etc).

Arquivos : http://dumps.wikimedia.org/archive/

Espelhos oferecem alternativas para baixar os dados.

Para arquivos de grande tamanho o uso de ferramenta para baixar é recomendado.

Formato dos dados

[edit]

XML dumps since 2010 are in the wrapper format described at Export format( schema ). Files are compressed in bzip2 (.bz2) and .7z format.

SQL dumps are provided as dumps of entire tables, using mysqldump.

Some older dumps exist in various formats.

https://meta.wikimedia.org/wiki/Data_dumps/Dump_format

Como usar

[edit]

See examples of importing dumps in a MySQL database with step-by-step instructions here .

Ferramentas

[edit]

Available tools are listed in the following locations, but information is not always up-to-date:

Acesso

[edit]

All text content is multi-licensed under the Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) and the GNU Free Documentation License (GFDL). Images and other files are available under different terms, as detailed on their description pages.

Mantenedores

[edit]

Maintainer: Ariel Glenn

Mailing list: xmldatadumps-l

Projeto de pesquisa que fazem uso dos dados

[edit]
  • "Dynamics of Conflicts in Wikipedia" takes the revision history from the dump to extract the reverts based on the text comparison to study the dynamics of editorial wars in multiple language editions


API

[edit]

Página

[edit]

http://www.mediawiki.org/wiki/API

Descrição

[edit]

The web service API provides direct, high-level access to the data contained in MediaWiki databases. Client programs can log in to a wiki, get data, and post changes automatically by making HTTP requests.

Conteúdo

[edit]
  • Properties of pages, including page revisions and content, external links, categories, templates,etc.

Endpoint

[edit]

To query the database you send a HTTP GET request to the desired endpoint (example http://en.wikipedia.org/w/api.php for English Wikipedia) setting the action parameter to "query" and defining the query details the URL.

Formato dos dados

[edit]

The API supports the following formats:

  • JSON(and JSON format with the debugging elements (HTML))

O formato de saída desejado pode ser especificado na query string, via URL. O formato padrão é XML.

Encontre mais detalhes aqui.

Como usar

[edit]

Here's a simple example: http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=Main%20Page

This means fetch (action=query) the content (rvprop=content) of the most recent revision of Main Page (titles=Main%20Page) of English Wikipedia (http://en.wikipedia.org/w/api.php? )in XML format (format=xml). You can paste the URL in a browser to see the output.

Further ( and more complex) examples can be found here.

Veja também :

Existing tools

[edit]

To try out the API interactively, use the Api Sandbox.

Acesso

[edit]

To use the API, your application or client might need to log in.

Before you start, learn about the API etiquette.

Researchers could be given Special access rights on case-to-case bases.

All text content is multi-licensed under the Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) and the GNU Free Documentation License (GFDL).

Mentenedores

[edit]

FAQ: http://www.mediawiki.org/wiki/API:FAQ

Mailing list: mediawiki-api

Toolserver

[edit]

NOTE: Toolserver is about to move to Tool Labs.

Página

[edit]

http://toolserver.org/

Descrição

[edit]

The toolserver hosts command line or web-based tools, which can query copies of the database. Copies are generally real-time but sometimes replication lag occurs.

Conteúdo

[edit]

The toolserver hosts copies of the databases of all Wikimedia projects including Commons. You are allowed use the contents of the database as long as you don't violate the Privacy Policy.

Formato dos dados

[edit]

Learn more about the current database schema.

How to

[edit]

Using the toolserver requires familiarity with Unix/Linux command line, SQL and databases, and some programming.

A less flexible but easier alternative is to use the toolserver query service, which allows you to ask volunteers for the data you need (as long as you can describe it).

To start using the toolserver, look at Getting started, some sample code snippets and learn how toaccess the database.

Existing tools

[edit]

Probably the most up-to-date list of tools on Toolserver is currently under construction at mw:Toolserver/List of Tools.

Access

[edit]

To use the toolserver you need to request an account.

Before you start, read the rules.

All text content is multi-licensed under the Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) and the GNU Free Documentation License (GFDL). Images and other files are available under different terms, as detailed on their description pages.

Support

[edit]

Wiki: https://wiki.toolserver.org .

IRC channel: #wikimedia-toolserverconnect

Maintainer: Sebastian Sooth, sebastian.sooth@wikimedia.de of Wikimedia Deutschland

Mailing list: toolserver-l

[edit]

IRC Feeds

[edit]

Home page

[edit]

http://meta.wikimedia.org/wiki/IRC_channels#Raw_feeds

Description

[edit]

These are live Recent changes feeds hosted on the irc.wikimedia.org server which show edits on Wikimedia wikis automatically as they happen. Confirmation that an edit has been processed is typically faster through IRC than through the browser.

You can also get custom filtered feeds.

Data and format

[edit]

Each wiki edit is reflected in the wiki's IRC channel.Displayed URLs give the cumulative differences produced by the edit concerned and any subsequent edits. The time is not listed but timestamping may be provided by your IRC-client.

The format of each edit summary is :

[page_title] [URL_of_the_revision] * [user] * [size_of_the_edit] [edit_summary]

You can see some examples below:

<rc-pmtpa> Talk:Duke of York's Picture House, Brighton http://en.wikipedia.org/w/index.php?diff=542604907&oldid=498947324 *Fortdj33* (-14) Updated classification

<rc-pmtpa> Bloody Sunday (1887) http://en.wikipedia.org/w/index.php?diff=542604908&oldid=542604828 *03184.61.149.187* (-2371) /* Aftermath */

Location

[edit]

IRC feeds are hosted on the irc.wikimedia.org server.

Every one of the >730 Wikimedia wikis has an IRC RC feed. The channel name is #lang.project. For example, the channel for German Wikibooks channel is #de.wikibooks.

Existing tools

[edit]
  • wm-bot lets you get IRC feeds filtered according to your needs. You can define a list of pages and get notifications of revisions on those pages only.
  • WikiStream uses IRC feeds to illustrate the amount of activity happening on Wikimedia projects.

Access

[edit]

Anyone can access IRC feeds. However, you need a wm-bot.

Números de acessos

[edit]

Página

[edit]

http://dumps.wikimedia.org/other/pagecounts-raw/

Descrição

[edit]

Dados brutos de acessos a partir dos servidores squid, desde de 2007.

Conteúdo

[edit]

Cada requisição de página vai para um dos servidores cache Wikimedia, chamados squids. O nome do projeto, o tamanho da página requisitada e o título da página requisitada são armazenados a cada hora. Estatísticas para os projetos em inglês existem desde 2007, outros idiomas vieram a partir de 2008.

Arquivos cujos nomes começam com "projectcount" contém apenas o total de acessos por projeto por hora. Nota: Esses não são acessos únicos e nomes mudados são contados separadamente.

Baixar

[edit]

http://dumps.wikimedia.org/other/pagecounts-raw/

Formato dos dados

[edit]

Ordem dos dados : [Projeto] [Nome_do_artigo] [Número_de_requisições] [Tamanho em bytes do conteúdo requisitados]

onde Projeto está no formato languagem.projeto usando as abreviações descritas aqui.

Exemplos:

fr.b Special:Recherche/Achille_Baraguey_d%5C%27Hilliers 1 624

significa que a página com o título Achille_Baraguey_d%5C%27Hilliers do Wikilivros em francês, foi acessada uma vez na última hora e o tamanho do conteúdo é 624, em bytes.

en Main_Page 242332 4737756101

Vemos que a página principal da Wikipédia em inglês foi requisitada mais de 240 mil vezes no intervalo de uma hora.

Dados em formato JSON também estão disponíveis no site http://stats.grok.se/.

Ferramentas existentes

[edit]

É possível navegar interativamente pelas estatísticas de acessos e conseguir esses dados em formato JSON, a partir de http://stats.grok.se/.

Mantenedor

[edit]

http://stats.grok.se/ é mantido por User:Henrik

Projetos de pesquisa que usam esses dados

[edit]

WikiStats

[edit]

Página

[edit]

http://stats.wikimedia.org/

Veja também: mw:Analytics/Wikistats

Descrição

[edit]

Wikistats é um projeto, idealizado e mantido desde de 2003 por Erik Zachte, para geração de diversos relatórios estatísticos de tendências nos projeto wiki. Esses relatórios sao feitos a partir dos arquivos dump, e dos logs de acessos.

Conteúdo

[edit]

Centenas de relatórios mensais, abrangendo mais de 25 linguagens. com informações sobre:

  • visitantes não-únicos
  • atividade dos editores
  • visualizações das páginas(geral e mobile)
  • criação de artigos

Relatórios especiais(alguns feitos apenas uma vez, outros regulares) sobre:

  • crescimento por projeto e idioma
  • acessos as páginas e edições por projeto e idioma
  • requisições ao servidor e picos de acessos
  • edições e reversões
  • resposta dos usuários
  • atividade dos bots
  • listas de email

Formato dos dados

[edit]

Final reports are presened in table and chart form. Intermediate files are avaialable in CSV format.

Baixar

[edit]

arquivos CSV

Project counts repackaged yearly

Ferramentas existentes

[edit]

The scripts used to generate the CSV files (WikiCounts.pl + WikiCounts*.pm) and reports (WikiReports.pl + WikiReports*.pm )are available for download here.

Mantenedor

[edit]

Mantenedor: Erik Zachte

DBpedia

[edit]

Página

[edit]

http://dbpedia.org

Descrição

[edit]

DBpedia.org é um esforço comunirário para extrair informações estruturadas da Wikipédia e disponibilizá-la na internet. DBpedia permite que consultas complexas seja feitas sobre esses dados, além de permitir agregação de outros conjuntos de dados a Wikipédia.

Conteúdo

[edit]

Assim como a Wikipédia, a DBpedia possui dados em vários idiomas. A versão em inglês:

  • Possui 3.77 milhões de descrições
  • 2.35 million are classified in a consistent Ontology(persons, places, creative works like music albums, films and video games, organizations like companies and educational institutions, species, diseases, etc.

Localized versions of DBpedia in 111 language

  • together describe 20.8 million things, out of which 10.5 million overlap (are interlinked) with concepts from the English DBpedia

The data set also features:

  • about 2 billion pieces of information (RDF triples)
  • labels and abstracts for >10 million unique things in up to 111 different languages
  • millions of
    • links to images
    • links to external web pages
    • data links into external RDF data sets
    • links to Wikipedia categories
    • YAGO categories

Formato dos dados

[edit]
  • RDF/XML
  • Turtle
  • N-Triplets
  • SPARQL endpoint

Baixar

[edit]

http://wiki.dbpedia.org/Downloads38 possui ligações para todos os conjuntos de dados, formatos e linguagens.

http://dbpedia.org/sparql - DBpedia's SPARQL endpoint

Como usar e exemplos

[edit]
  • Use cases shows the different ways you can use DBpedia data ( such as improving Wikipedia search or adding Wikipedia content to your webpage)
  • Applications shows the various applications of DBpedia including faceted browsers, visualization, URI lookup, NLP and others.

Existing tools

[edit]
  • DBpedia Spotlight is a tool for annotating mentions of DBpedia resources in text, providing a solution for linking unstructured information sources to the Linked Open Data cloud through DBpedia.
  • RelFinder is a tool for interactive relationship discovery in RDF data

Access

[edit]

DBpedia data from version 3.4 on is licensed under the terms of the Creative Commons Attribution-ShareAlike 3.0 License and the GNU Free Documentation License.

Support

[edit]

Mailing list: DBpedia Discuss

More:

Research projects using data from this source

[edit]
  • See more DBpedia related publications, blog posts and projects here.

DataHub

[edit]

DataHubWikimedia group on DataHub is a collection of datasets about Wikipedia and other projects run by the Wikimedia Foundation.

The DataHub repository is meant to become the place where all Wikimedia-related data sources are documented. The collection is open to contributions and researchers are encouraged to donate relevant datasets.

The Wikimedia group on DataHub points to some additional data sources not listed on this page. Some examples are:

  • dbpedia lite , which uses the API to extract structured data from Wikipedia ( not affiliated with DBpedia))
  • Wikipedia Banner Challenge data

Referências

[edit]
  1. Checar quanto tempo leva para atualizar os dados da WP:PT