[Deprecated] Quail data
By Sergio Sánchez
Presentado por @tacosdedatos y @FerroRodolfo
[Deprecated] Quail dataFeb 14, 2020
Quail data 0009 - What TF (tensorflow)
Sergio #1: Reto para predecir el clima de Pangeo
- Repo con datos e instrucciones
- Hilo en tuiter https://twitter.com/raspstephan/status/1229272564729614336?s=21
Rodo #2: HiPlot - Descubre relaciones en datos de altas dimensiones
- HiPlot es una herramienta de visualización interactiva liviana para ayudar a descubrir correlaciones y patrones en datos de alta dimensión utilizando gráficos paralelos y otras formas gráficas para representar la información.
- HiPlot se puede utilizar con IPython notebooks y a través de un webserver.
Sergio #3: Aprendizaje No Supervisado Desmitificado
- Una traducción por Carlos Secada del original en inglés por Cassie Kozyrkov
Rodo #4: Me ama, no me ama: Clasifica textos con TensorFlow y Twilio
- El post provee un tutorial que paso a paso te ayuda a entrenar un modelo de ML y a servirlo a través de una aplicación con Flask.
- Si eres un R user, este tutorial no debería ser tan difícil de extender utilizando el NLTK4R y TensorFlow para R.
Sergio #5: Todas las charlas de rstudio::conf 2020
- Periodismo con Rstudio, R y el tidyverse
- Charlas sobre Rmarkdown (de Yihui Xie creador de Blogdown y Bookdown) y "Rmarkdown Driven Development"
- "Datos" el paquete de R4DS en espanol
Rodo #6: ¡Comienzan a subir las charlas del PyCon Colombia 2020!
- Comenzando con el keynote de Andrew Godwin, creador de Django Channels y Django Core Developer, el equipo de PyCon Colombia ha comenzado a subir los videos del evento, ¡así que no puedes perderte todo el increíble contenido que nos estarán compartiendo!
Extras:
Sergio:
- Becas Santander para el MIT https://www.becas-santander.com/es/program/becas-santander-for-mit-leading-digital-transformation
- Grupo de usuários de TensorFlow en Sucre, Bolivia (saludos a Lesly Zerna, atte. Rodo) https://www.meetup.com/TensorFlow-User-Group-Bolivia/
- !El horario de la PyCon US ya esta! https://us.pycon.org/2020/schedule/talks/ y la charla de Denny Perez https://us.pycon.org/2020/schedule/presentation/84/ - elDevShow https://anchor.fm/eldevshow/episodes/Cmo-ser-pap-luchn-y-mudarte-a-Canad-como-desarrollador-mvil-con-el-Pinedax-e9angg
Rodo:
- Meme de la semana: https://www.reddit.com/r/mathmemes/comments/f6e5vb/the_battle_of_titans/
- Segundo meme de la semana: https://www.reddit.com/r/mathmemes/comments/f6g43c/society/
- Open Data Day en CDMX, Morelia (Michoacán) y León (Guanajuato).
- Nuevamente un saludo para Lesly, ¡que nos ayude a crear un grupo de TF en MX!
Quail data 0008 - PyCon Co
Sergio #1: Geocomputación con R
- Otro ejemplo de Bookdown para crear libros técnicos con R
Rodo #2: D-Tale - Un cliente de Flask/React para visualizar estructuras de datos de Pandas.
- D-Tale combina Flask en back-end y React en front-end para brindarnos una manera fácil de ver y analizar las estructuras de datos de Pandas.
- Se integra a la perfección con las Jupyter Notebooks y las terminales Python/ IPython.
- Admite objetos Pandas como DataFrame, Series, MultiIndex, DatetimeIndex y RangeIndex.
- Este parece ser un tema común aquí en QUAIL data jaja
Sergio #4: ¿Qué es el tidyverse? por Rafa Gouveia - https://www.youtube.com/watch?v=uGg13_qOwhQ&list=PLbDLkhJ5sFvCWFbP4tAFALHkNWNFo_FiL
- 8 Herramientas
Rodo #5: El breve resumen de la PyCon Colombia 2020
- Increíbles keynote speakers como Andrew Godwin, Wes McKinney, Sarah Guido y Fernando Pérez, entre otros.
- Increíbles talleres con un track completo sobre Data Science, Web Development, IoT y otros.
- Repo de mi taller: https://github.com/RodolfoFerro/PyConCo20
Rodo #6: Thinc.ai - Una refrescante versión funcional del aprendizaje profundo, compatible con TUS bibliotecas FAVORITAS.
- Puedes cambiar entre frameworks.
- Realiza chequeo de tipos.
- Thinc nos permite describir árboles de objetos, con referencias nuestras propias funciones a través de archivos .cfg.
- Es súper ligero.
- Por los creadores de SpaCy y FastAPI...
Extras: Sergio:
- Periodismo computacional - una clase de la universidad de Columbia - Un repositorio con los notebooks que estan usando en la clase este 2020
- Ines montani repositorio base para crear cursos de python https://github.com/ines/course-starter-python y de R https://github.com/ines/course-starter-r
Rodo:
- ¡Meetup de R para Data Science y Reinforcement Learning en Monterrey el próximo 18 de febrero! >
- XII Congreso Mexicano de Inteligencia Artificial del 20 al 22 de mayo del 2020 en Ciudad Juárez, Chihuahua, México: http://smia.mx/comia/2020/
- Gente bonita de Mérida y alrededores, asistan al Datostada: https://datostada.mx
- Meme de la semana: https://www.reddit.com/r/mathmemes/comments/f3eq3o/absolutely/
Quail data 0007 - Stats Wars
Quail Data #0007 - Stats Wars Rodolfo #1: MOSP
- MONARC Objects Sharing Platform (MOSP) es una plataforma para crear, editar y compartir objetos JSON validados de cualquier tipo. MONARC - Method for an Optimised aNAlysis of Risks by CASES (Método para un análisis optimizado de riesgos por CASOS.)
- Puede usar cualquier esquema JSON disponible para crear nuevos objetos JSON a través de un formulario web generado dinámicamente y basado en el esquema seleccionado.
Sergio #2: Scikit Geometry
- "scikit-geometry también viene con funciones para calcular el diagrama de Voronoi, el casco convexo, cuadros delimitadores, la suma minkowski de dos polígonos, un árbol AABB para consultas vecinas más cercanas y muchas otras utilidades útiles para cálculos geométricos, con planes para agregar muchos más!"
Rodolfo #3: pandapy
- Demos un momento para tomar en cuenta el siguiente meme: https://www.reddit.com/r/mathmemes/comments/ewct2v/euler_moment/
- Ahora, ¿recuerdan, por una parte a Pandas? Y por otra parte, ¿a NumPy? Pues bueno, pueden pensar en este paquete como un hijo de ambos.
- PandaPy tiene la velocidad de NumPy y la usabilidad de Pandas (10x a 50x más rápido).
- Así como importas pandas como pd y numpy como np, el común es importar a pandapy como pp (ya sabes → pd & np = pp).
Sergio #4: Como hacer tu propio blog sin ser un experto en computadoras con fast.ai y fast_template
- Una guía muy fácil de seguir para crear tu propio blog hosteado en GitHub pages sin tener que usar la linea de comando.
- Es muy practico y facil de seguir y ahora utiliza GitHub Actions para transformar tus notebooks de jupyter a blog posts
Rodolfo #5: Construyendo un Python Data Science Container usando Docker
- Es un blog post que ilustra cómo crear un contenedor de Docker que incluya paquetería como NumPy, SciPy, Pandas, SciKit-Learn, Matplotlib y NLTK.
- Todo se realiza a través de la construcción de un Dockerfile basado en Alpine, una versión muuuy ligera de Linux. El post te da todos los comandos para levantar el contenedor.
Sergio #6: Blog de Juvenal Campos - Como Visualizar Pirámides de Población en R
- Un paso a paso de como construir una piramide de poblacion con ggplot2
- Juvenal usa blogdown de R para este blog - todxs deberiamos bloguear mas!
Extras: Sergio:
- Lorem Ipsum pero mexicano ? jajaja https://ignaciochavez.com/projects/lorempaisum/
- RStudioConf está aquí en San Francisco esta semana y tienen los materiales de sus talleres en GitHub pa quién no pudo asistir: https://github.com/rstudio-conf-2020
Rodo:
- Para la gente Pythonista que nos escucha, ¡ya hay fecha para el PyCon Latam 2020!\ 27-29 de agosto, Pto. Vallarta, Jalisco. ¡No se lo pueden perder! (https://twitter.com/PyLatam/status/1221886633210982402)
- Meme de la semana
Quail data 0006 - 100010001
Sergio #1: City Roads
- Un sitio web para renderizar todas las calles de una ciudad a la vez
- Es una app de javascript usa Vue y TurboPass la API de OpenStreetMap
Rodo #2: Facebook Prophet
- Prophet es una herramienta de pronósticos para series de tiempo. Se basa en un modelo aditivo donde las tendencias no lineales se ajustan estacionalidades.
- Prophet es robusto ante los datos faltantes y los cambios en la tendencia, y generalmente maneja bien los valores atípicos.
- Prophet es robusto para los valores atípicos, los datos faltantes y los cambios dramáticos en su serie temporal.
Sergio #3: ggstatsplot
- Un paquete de R para agregar estadísticas a tus gráficos de ggplot2
Rodo #4: Mathe Carlo - Una exploración y explicación del método de Monte Carlo.
- Este es un ensayo computacional sobre el método de Monte Carlo.
- En ObservableHQ incluye un método de aproximación de pi, así como un método para aproximar el valor a la integral de la ecuación y=x^2, y finalmente, concluye con una explicación de por qué se llaman métodos Monte Carlo.
Sergio #5: Google Dataset search https://blog.google/products/search/discovering-millions-datasets-web/
- ha indexado casi 25 millones de estos conjuntos de datos, lo que le brinda un solo lugar para buscar conjuntos de datos y encontrar enlaces a dónde están los datos.
- https://datasetsearch.research.google.com/
Rodo #6: Textblob y SDAL - Lo prometido es deuda... ¿NLP en español? El "Spanish Dictionary of Affect in Language"
- hoy les compartimos el paquete Textblob escrito para Python, que ofrece funcionalidades de NLP para texto. Lo interesante es que resulta ser muy sencillo de utilizar y puede ser utilizado para distintos idiomas, entre ellos, español.
- SDAL (Spanish Dictionary of Affect in Language), que incluye un listado de palabras en español con un score asociado sobre que tan positivo/negativo, etc. es cada palabra. (Saludos a Beto Barradas.)
Extras: Sergio:
- Trabajo en Córdoba Argentina - BI developer II https://app.cotopaxi.io/idearhumano/position/16
- Trabajo en Unicef para Cienitificx de Datos para Big Data para el desarrollo y la Accion Humanitaria http://jobs.unicef.org/cw/en-us/job/529167/consultor%C3%ADa-monitoreo-y-evaluaci%C3%B3n-cient%C3%ADfico-de-datos-para-big-data-para-el-desarrollo-y-la-acci%C3%B3n-humanitaria Rodo:
- Tuit de la semana: https://twitter.com/daniel_isita/status/1218001440863592450. Con algo de procesamiento se podría generar una imagen similar con el paquete que les hemos compartido en el episodio pasado, speck.
- Meme de la semana: https://www.reddit.com/r/mathmemes/comments/ergxem/what_a_dirty_matrixster/
- ¡Saludos a Manuel Toral @jmtoralc!
Quail data 0005 - ¡Vector!
Sergio #1: Pandas 1.0.0
- pd.NA - valores nulos nativos
- StringDtype - antes eran object y podías mezclar valores accidentalmente, ahora es solo strings (experimental)
- booleanos con Missing Values
Rodo #2: CleverCSV - CleverCSV proporciona un reemplazo directo para el paquete csv de Python con detección de dialecto mejorada para archivos CSV desordenados.
- Proporciona una práctica herramienta de línea de comandos que puede estandarizar un archivo desordenado o generar código Python para importarlo.
Sergio #3: tidytext
- libro - https://www.tidytextmining.com/
- Tiene funciones para el análisis de sentimientos y funciones para preparar tus datos para modelos de ML
Rodo #4: Interfaz en R para TensorFlow
- Este paquete es un wrapper TensorFlow para Python, pero viene en su versión más reciente y con todo el poder y funcionalidad como TF para Python.
- De las cosas interesantes además de lo ya mencionado, es que comparten detalles sobre cómo puedes desplegar aplicaciones que integren algún modelo de inteligencia artificial utilizando TensorFlow, ya sea Plumber API, Shiny o TF Serving.
- Finalmente, de lo más cool: su blog, pues tiene contenido exclusivo sobre el uso y aplicación de TensorFlow totalmente con R.
Sergio #5: Bayes Test R https://github.com/easystats/bayestestR - un paquete de utilidades para analizar modelos Bayes y distribuciones posteriores
- Muchas funcionalidades y visualizaciones integradas
- Para lxs nerds bayesianos
Rodo #6: ipyleaflet - ¡Habemus release de ipyleaflet 0.12.0!
- Un puente Jupyter / Leaflet que permite mapas interactivos en el cuaderno Jupyter.
- Te permite tener y hacer uso de las primitivas que tiene Leaflet como Markers, etc.
- ¡Tiene widgets interactivos para utilizar en Jupyter, como sliders!
- Si tienes oportunidad, echa un vistazo al repo, los gifs que ilustran su funcionamiento te van a cautivar. 😍
Extras:
Sergio:
- https://latinr.github.io/ - Conferencia Latinoamericana sobre Uso de R en Investigación + Desarrollo 7 al 9 de octubre 2020 - Montevideo
- Python Nicaragua primer Meetup del año - https://www.meetup.com/es-ES/Python-Nicaragua/events/267846155/
- R-Ladies Xalapa re-comienzan en Febrero https://twitter.com/rladiesxalapa/status/1216528313465876481?s=21
- Pagina, sitio web, servidor, motor de busqueda (blog) ¡en español! https://link.medium.com/79BK6gkDc3 de Natalia Hashimoto @NahRivera7
Rodo:
- Convocatoria a formar parte del Consorcio en Ciencia de Datos de la Ibero: https://twitter.com/jorgerure/status/1218001209774096384
- https://github.com/lucashadfield/speck
- Meme de la semana: https://www.reddit.com/r/mathmemes/comments/ele12o/show_me_da_way/
Quail data 0004 - ¿data o data?
Sergio #1: Faker - Un paquete de Python para crear datos falsos.
- "Faker es un paquete de Python que genera datos falsos para usted. Ya sea que necesite arrancar su base de datos, crear documentos XML atractivos, completar su persistencia para hacer una prueba de esfuerzo o anonimizar los datos tomados de un servicio de producción, Faker es para usted."
- Nombres, códigos de barras, puntos geográficos (lat/long), tarjetas de crédito, nombres de puestos de trabajo, curps, hasta CSVs
Rodo #2: mPyPl - Biblioteca de tuberías monádicas para Python
- mPyPl es una biblioteca que simplifica todas las tareas de procesamiento de datos en Python, al introducir un concepto de canalización funcional. Utiliza la sintaxis de tubería proporcionada por el paquete Pipe.
- Se basa en tres ideas principales:
- Usa técnicas de programación funcional y tuberías "flojas" basadas en el paquete Pipe
- Utiliza generadores que producen flujos de diccionarios mdict, que "fluyen" a través de la tubería
- Utiliza una pequeña cantidad de operaciones básicas que operan en esos campos, ocultando la complejidad de la implementación interna
Sergio #3: Bulwark - Un paquete para hacer tests basados en propiedades para dataframes de pandas
- Ejemplo
@dc.IsShape((-1, 10))
@dc.IsMonotonic(strict=True)
@dc.HasNoNans()
def compute(df):
# complex operations to determine result
...
return result_df
Rodo #4: Una guía práctica para la ingeniería de características en Python
- Una guía práctica que te dice:
- ¿Qué es la ingeniería de características?
- Cómo manejar los valores perdidos.
- Cómo manejar características categóricas.
- y mucho mas
Sergio #5: DeOldify para colorizar fotos en blanco y negro
- Usa GANs y NoGANs para colorizar fotos en blanco y negro Y VIDEO TAMBIEN
Rodo #6: py-roughviz - La implementación en Python de la biblioteca de JavaScript RoughViz para crear gráficos interactivos.
- Es un wrapper en Python de la biblioteca de JavaScript RoughViz que se puede usar para visualizar gráficos estilo de dibujo a mano.
- Los gráficos soportados
- Barras, pastel, línea, dispersión, dona, barras apiladas.
- Entre lo más cool: ¡Acepta DataFrames de Pandas como input!
Extras: Rodo:
- JobFunnel - Herramienta automatizada para "escrapear" publicaciones de trabajo en un archivo .csv.
- Pregunta de la semana: data o data?
Sergio:
- tacosdedatos, el boletín está disponible en substack ya - tacosdedatos.substack.com
- PyCon Perú en PyCon.pe y PyCon Colombia en PyCon.co - ¡vayan!
- MOOC de analisis de datos para periodistas de Alberto Cairo. https://journalismcourses.org/data-viz-course-material.html
Quail data 0003 - El Reinicio
Sergio #1: streamlit.io - Aplicaciones web para tus proyectos de ciencia de datos (Python)
Rodo #2: ¿Qué es scikit learn? --- Una guía para principiantes sobre el paquete popular de Python en Machine Learning https://dev.to/duomly/what-is-scikit-learn-a-beginner-guide-to-popular-machine-learning-python-library-1f06
Sergio #3: geojson.io - Crea shapefiles, geojsons y archivos geográficos en tu navegador
Rodo #4: labelme -- Anotación poligonal de imágenes con Python (polygon, rectangle, circle, line, point and image-level flag annotation). https://github.com/wkentaro/labelme
Sergio #5: aidungeon.io - Un juego basado en texto como dungeons and dragons producido por inteligencia artificial en un Google colab (Python)
Rodo #6: 24 Métricas de evaluación para la clasificación binaria (y cuándo usarlas) https://neptune.ml/blog/evaluation-metrics-binary-classification
Extras:
Rodo:
- ¡Se acerca la PyCon en Colombia!
- https://github.com/joelibaceta/pix-to-xls -- Una herramienta simple para hacer arte ascii a partir de una imagen usando celdas de color Excel.
- Un pequeño spoiler sobre un evento que habrá en Mérida: Datostada. :D
Sergio:
- tacosdedatos el podcast regresa en enero.
- datawrapper.readthedocs.io (hice un wrapper para Datawrapper) wrapper-ception
- ando trabajando en unos mini cursos (micromódulos) para aprender Python y R para el análisis de datos - el plan es que salgan en enero. más info más tarde. https://tacosdedatos.academy/
Quail data 0002 - Colores, colores y más colores
En esta ocasión:
- mycolor.space
- make tints and shades
- colormind
- coolors
- colors madscience design
- colorfavs
- viz palette
- chroma js color palette helper de Gregor Aisch
Manda tus sugerencias a sugerencias@tacosdedatos.com por twitter a @tacosdedatos.com o dejando un comentario en tacosdedatos.fm
Quail data 0001 - fishualize, textstat, mockaroo y más
En el primer episodio de Quail data aprendemos de 7 recursos:
- fishualize
- textstat
- mockaroo
- drawdata.xyz
- Intro a R y RStudio de Rafa Gouveia
- Intro to Python de Simplificando Datos
- R para Ciencia de Datos de Hadley Wickham en español
Bonus: Bar Chart Races por Rafael Gouveia en tacosdedatos.com
Manda tus sugerencias a sugerencias@tacosdedatos.com por twitter a @tacosdedatos.com o dejando un comentario en tacosdedatos.fm