Recientemente la editorial Springer liberó una serie de 408 libros técnicos y científicos que pueden descargarse gratuitamente de su web. Para poder bajarlos del tirón y a la vez practicar con el web scrapping, he preparado unas líneas en R que los descarga usando el paquete
rvest
.
La rutina limpia los nombres originales dejándolos en formato Camel case y sin caracteres extraños. Se guarda además un log indicando los libros cuya descarga falló por no encontrarse el enlace. Aunque los archivos se guardan siempre en formato PDF, en el log se indica de qué libros se disponía versión Epub.
En el momento de ejecutar la rutina, de los 408 libros no he podido descargar 20 por no existir el enlace directo al PDF.
Mi agradecimiento a Carlos Gil Bellosta por echarme un cable con las para mí ofuscadas funciones del paquete
Repositorio con el código R y archivos auxiliares: GitHub.
rvest
(en realidad mi problema no es rvest
sino HTML/CSS, pero a alguien le tenía que echar la culpa). Desde este Excel por cortesía de yasduit pueden bajarse los libros uno a uno.
~~~
Repositorio con el código R y archivos auxiliares: GitHub.
Still not sure how one accesses the books for free.
ResponderEliminarYou must run the R code:
Eliminarhttps://github.com/gluijk/web-scrapping-springer-ebooks/blob/master/springerebooks.R
Or altenatively you can cherry pick them from this Excel file:
https://github.com/gluijk/web-scrapping-springer-ebooks/blob/master/FreeSpringerBooks.xlsm