Show simple item record

Digital methods and the memory accessed by APIs: development tool for extracting data from journalistic portals with the WayBack Machine
[journal article]

dc.contributor.authorCarneiro dos Santos, Marciode
dc.date.accessioned2016-06-13T13:08:27Z
dc.date.available2016-06-13T13:08:27Z
dc.date.issued2015de
dc.identifier.issn2447-4266de
dc.identifier.urihttp://www.ssoar.info/ssoar/handle/document/47024
dc.description.abstractExplora-se a possibilidade de automação da coleta de dados em sites, a partir da aplicação de código construído em linguagem de programação Python, utilizando a sintaxe específica do HTML (HiperText Markup Language) para localizar e extrair elementos de interesse como links, texto e imagens. A coleta automatizada de dados, também conhecida como raspagem (scraping) é um recurso cada vez mais comum no jornalismo. A partir do acesso ao repositório digital do site www.web.archive.org, também conhecido como WayBackMachine, desenvolvemos a prova de conceito de um algoritmo capaz de recuperar, listar e oferecer ferramentas básicas de análise sobre dados coletados a partir das diversas versões de portais jornalísticos ao longo do tempo.pt
dc.description.abstractWe explore the possibility of automation of data collection from web pages, using the application of customized code built in Python programming language, with specific HTML syntax (Hypertext Markup Language) to locate and extract elements of interest as links, text and images. The automated data collection, also known as scraping is an increasingly common feature in journalism. From the access to the digital repository site www.web.archive.org, also known as WayBackMachine, we develop a proof of concept of an algorithm able to recover, list and offer basic tools of analysis of data collected from the various versions of newspaper portals in time series.en
dc.description.abstractSe explora la posibilidad de automatización de los sitios de recolección de datos, desde el código de aplicación construida en lenguaje de programación Python, utilizando la sintaxis específica de HTML (Hypertext Markup Language) para localizar y extraer elementos de interés, tales como enlaces, texto e imágenes. La colección de datos automatizada, también conocido como el raspado es una característica cada vez más común en el periodismo. Desde el acceso a la www.web.archive.org, sitio de repositorio digital, también conocida como WayBackMachine, desarrollamos una prueba de concepto de un algoritmo para recuperar, listar y ofrecer herramientas básicas de análisis de los datos recogidos de las diferentes versiones de portales de periódicos en el tiempo.es
dc.languageptde
dc.subject.ddcNews media, journalism, publishingen
dc.subject.ddcPublizistische Medien, Journalismus,Verlagswesende
dc.titleMétodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machinede
dc.title.alternativeDigital methods and the memory accessed by APIs: development tool for extracting data from journalistic portals with the WayBack Machinede
dc.description.reviewbegutachtet (peer reviewed)de
dc.description.reviewpeer revieweden
dc.source.journalRevista Observatório
dc.source.volume1de
dc.publisher.countryMISC
dc.source.issue2de
dc.subject.classozInformation Management, Information Processes, Information Economicsen
dc.subject.classozInformationsmanagement, informationelle Prozesse, Informationsökonomiede
dc.subject.classozInteractive, electronic Mediaen
dc.subject.classozCommunicator Research, Journalismen
dc.subject.classozKommunikatorforschung, Journalismusde
dc.subject.classozinteraktive, elektronische Mediende
dc.subject.thesozProgrammiersprachede
dc.subject.thesozDigitale Mediende
dc.subject.thesozautomationen
dc.subject.thesozwebsiteen
dc.subject.thesozdata acquisitionen
dc.subject.thesozcommunicationen
dc.subject.thesozprogramming languageen
dc.subject.thesozKommunikationde
dc.subject.thesozdata storageen
dc.subject.thesozjournalismen
dc.subject.thesozAutomatisierungde
dc.subject.thesozWebsitede
dc.subject.thesozJournalismusde
dc.subject.thesozDatenspeicherungde
dc.subject.thesozDatenerfassungde
dc.subject.thesozdigital mediaen
dc.rights.licenceCreative Commons - Attribution-NonCommercialen
dc.rights.licenceCreative Commons - Namensnennung, Nicht-kommerz.de
internal.statusformal und inhaltlich fertig erschlossende
internal.identifier.thesoz10083753
internal.identifier.thesoz10034699
internal.identifier.thesoz10037519
internal.identifier.thesoz10064822
internal.identifier.thesoz10040543
internal.identifier.thesoz10063250
internal.identifier.thesoz10055427
internal.identifier.thesoz10035149
dc.type.stockarticlede
dc.type.documentjournal articleen
dc.type.documentZeitschriftenartikelde
dc.source.pageinfo23-41de
internal.identifier.classoz1080502
internal.identifier.classoz1080406
internal.identifier.classoz1080404
internal.identifier.journal821
internal.identifier.document32
dc.rights.sherpaGrüner Verlagde
dc.rights.sherpaGreen Publisheren
internal.identifier.ddc070
dc.identifier.doihttps://doi.org/10.20873/uft.2447-4266.2015v1n2p23de
dc.description.pubstatusPublished Versionen
dc.description.pubstatusVeröffentlichungsversionde
internal.identifier.sherpa1
internal.identifier.licence10
internal.identifier.pubstatus1
internal.identifier.review1
internal.pdf.version1.4
internal.pdf.validtrue
internal.pdf.wellformedtrue
internal.check.abstractlanguageharmonizerCERTAIN


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record