Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine

Carneiro dos Santos, Marcio

Digital methods and the memory accessed by APIs: development tool for extracting data from journalistic portals with the WayBack Machine
[journal article]

dc.contributor.author	Carneiro dos Santos, Marcio	de
dc.date.accessioned	2016-06-13T13:08:27Z
dc.date.available	2016-06-13T13:08:27Z
dc.date.issued	2015	de
dc.identifier.issn	2447-4266	de
dc.identifier.uri	http://www.ssoar.info/ssoar/handle/document/47024
dc.description.abstract	Explora-se a possibilidade de automação da coleta de dados em sites, a partir da aplicação de código construído em linguagem de programação Python, utilizando a sintaxe específica do HTML (HiperText Markup Language) para localizar e extrair elementos de interesse como links, texto e imagens. A coleta automatizada de dados, também conhecida como raspagem (scraping) é um recurso cada vez mais comum no jornalismo. A partir do acesso ao repositório digital do site www.web.archive.org, também conhecido como WayBackMachine, desenvolvemos a prova de conceito de um algoritmo capaz de recuperar, listar e oferecer ferramentas básicas de análise sobre dados coletados a partir das diversas versões de portais jornalísticos ao longo do tempo.	pt
dc.description.abstract	We explore the possibility of automation of data collection from web pages, using the application of customized code built in Python programming language, with specific HTML syntax (Hypertext Markup Language) to locate and extract elements of interest as links, text and images. The automated data collection, also known as scraping is an increasingly common feature in journalism. From the access to the digital repository site www.web.archive.org, also known as WayBackMachine, we develop a proof of concept of an algorithm able to recover, list and offer basic tools of analysis of data collected from the various versions of newspaper portals in time series.	en
dc.description.abstract	Se explora la posibilidad de automatización de los sitios de recolección de datos, desde el código de aplicación construida en lenguaje de programación Python, utilizando la sintaxis específica de HTML (Hypertext Markup Language) para localizar y extraer elementos de interés, tales como enlaces, texto e imágenes. La colección de datos automatizada, también conocido como el raspado es una característica cada vez más común en el periodismo. Desde el acceso a la www.web.archive.org, sitio de repositorio digital, también conocida como WayBackMachine, desarrollamos una prueba de concepto de un algoritmo para recuperar, listar y ofrecer herramientas básicas de análisis de los datos recogidos de las diferentes versiones de portales de periódicos en el tiempo.	es
dc.language	pt	de
dc.subject.ddc	News media, journalism, publishing	en
dc.subject.ddc	Publizistische Medien, Journalismus,Verlagswesen	de
dc.title	Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine	de
dc.title.alternative	Digital methods and the memory accessed by APIs: development tool for extracting data from journalistic portals with the WayBack Machine	de
dc.description.review	begutachtet (peer reviewed)	de
dc.description.review	peer reviewed	en
dc.source.journal	Revista Observatório
dc.source.volume	1	de
dc.publisher.country	MISC
dc.source.issue	2	de
dc.subject.classoz	Information Management, Information Processes, Information Economics	en
dc.subject.classoz	Informationsmanagement, informationelle Prozesse, Informationsökonomie	de
dc.subject.classoz	Interactive, electronic Media	en
dc.subject.classoz	Communicator Research, Journalism	en
dc.subject.classoz	Kommunikatorforschung, Journalismus	de
dc.subject.classoz	interaktive, elektronische Medien	de
dc.subject.thesoz	Programmiersprache	de
dc.subject.thesoz	Digitale Medien	de
dc.subject.thesoz	automation	en
dc.subject.thesoz	website	en
dc.subject.thesoz	data acquisition	en
dc.subject.thesoz	communication	en
dc.subject.thesoz	programming language	en
dc.subject.thesoz	Kommunikation	de
dc.subject.thesoz	data storage	en
dc.subject.thesoz	journalism	en
dc.subject.thesoz	Automatisierung	de
dc.subject.thesoz	Website	de
dc.subject.thesoz	Journalismus	de
dc.subject.thesoz	Datenspeicherung	de
dc.subject.thesoz	Datenerfassung	de
dc.subject.thesoz	digital media	en
dc.rights.licence	Creative Commons - Attribution-NonCommercial	en
dc.rights.licence	Creative Commons - Namensnennung, Nicht-kommerz.	de
internal.status	formal und inhaltlich fertig erschlossen	de
internal.identifier.thesoz	10083753
internal.identifier.thesoz	10034699
internal.identifier.thesoz	10037519
internal.identifier.thesoz	10064822
internal.identifier.thesoz	10040543
internal.identifier.thesoz	10063250
internal.identifier.thesoz	10055427
internal.identifier.thesoz	10035149
dc.type.stock	article	de
dc.type.document	journal article	en
dc.type.document	Zeitschriftenartikel	de
dc.source.pageinfo	23-41	de
internal.identifier.classoz	1080502
internal.identifier.classoz	1080406
internal.identifier.classoz	1080404
internal.identifier.journal	821
internal.identifier.document	32
dc.rights.sherpa	Grüner Verlag	de
dc.rights.sherpa	Green Publisher	en
internal.identifier.ddc	070
dc.identifier.doi	https://doi.org/10.20873/uft.2447-4266.2015v1n2p23	de
dc.description.pubstatus	Published Version	en
dc.description.pubstatus	Veröffentlichungsversion	de
internal.identifier.sherpa	1
internal.identifier.licence	10
internal.identifier.pubstatus	1
internal.identifier.review	1
internal.pdf.version	1.4
internal.pdf.valid	true
internal.pdf.wellformed	true
internal.check.abstractlanguageharmonizer	CERTAIN

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Interaktive, elektronische Medien
Interactive, electronic Media
Kommunikatorforschung, Journalismus
Communicator Research, Journalism
Informationsmanagement, informationelle Prozesse, Informationsökonomie
Information Management, Information Processes, Information Economics

Show simple item record

Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine

Digital methods and the memory accessed by APIs: development tool for extracting data from journalistic portals with the WayBack Machine [journal article]

Files in this item

This item appears in the following Collection(s)

Digital methods and the memory accessed by APIs: development tool for extracting data from journalistic portals with the WayBack Machine
[journal article]