1 dataset found

W
Regionalismos de VENEZUELA y sus palabras cercanas
cloud.csiss.gmu.edu
csv, json, rdf, xml
Updated Dec 15, 2017
Share
Facebook
Twitter
Email
Click to copy link
Link copied
Cite
www.datos.gov.co (2017). Regionalismos de VENEZUELA y sus palabras cercanas [Dataset]. https://cloud.csiss.gmu.edu/uddi/dataset/regionalismos-de-venezuela-y-sus-palabras-cercanas
Explore at:
rdf, xml, csv, jsonAvailable download formats
Dataset updated
Dec 15, 2017
Dataset provided by
www.datos.gov.co
Area covered
Venezuela
Description
DESCRIPCION Este conjunto de datos contiene aproximadamente 5,000 palabras regionales cada una con 30 palabras relacionadas semánticamente. Los regionalismos fueron identificados a partir de un corpus de 218 millones de tuits correspondientes a 333 ciudades de 21 países de Latinoamérica, España y los Estados Unidos. El método para identificar los regionalismos combina técnicas de recuperación de información (Calvo 2017) y de autocorrelación espacial (Nguyen & Eisenstein, 2017). Las palabras “cercanas”, relacionadas o similares a cada regionalismo se obtuvieron utilizando el modelo de aprendizaje “profundo” (Deep learning) word2vec (Mikolov et al. 2013) entrenado con el corpus completo.

Si usted encuentra útil este recurso y lo usa en sus proyectos de investigación o desarrollo, por favor citar:

Sergio Mancera. “Automatic extraction of regional words from social networks” (2017). Tesis de maestría, Centro de Investigación en Computación, Instituto Politécnico Nacional, México D.F., México

ADVERTENCIA Este conjunto de datos ha sido obtenido por medios completamente automáticos. Por lo tanto, su contenido no ha sido revisado exhaustivamente de manera manual. Sin embargo, en su construcción, el recurso ha sido evaluado de manera científica buscando que posibles errores se presenten en la menor medida posible y su proporción sea comparable con la de otros recursos similares en el mundo.

REFERENCIAS Calvo, H. (2014, April). Simple TF• IDF Is Not the Best You Can Get for Regionalism Classification. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 92-101). Springer, Berlin, Heidelberg.

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013. https://code.google.com/p/word2vec/

Nguyen, D., & Eisenstein, J. (2017). A Kernel Independence Test for Geographical Language Variation. Computational Linguistics.
Not seeing a result you expected?
Learn how you can add new datasets to our index.

Facebook

Twitter

Click to copy link

Link copied

Cite

www.datos.gov.co (2017). Regionalismos de VENEZUELA y sus palabras cercanas [Dataset]. https://cloud.csiss.gmu.edu/uddi/dataset/regionalismos-de-venezuela-y-sus-palabras-cercanas

Regionalismos de VENEZUELA y sus palabras cercanas

Explore at:

rdf, xml, csv, jsonAvailable download formats

Dataset updated

Dec 15, 2017

Dataset provided by

www.datos.gov.co

Area covered

Venezuela

Description

DESCRIPCION Este conjunto de datos contiene aproximadamente 5,000 palabras regionales cada una con 30 palabras relacionadas semánticamente. Los regionalismos fueron identificados a partir de un corpus de 218 millones de tuits correspondientes a 333 ciudades de 21 países de Latinoamérica, España y los Estados Unidos. El método para identificar los regionalismos combina técnicas de recuperación de información (Calvo 2017) y de autocorrelación espacial (Nguyen & Eisenstein, 2017). Las palabras “cercanas”, relacionadas o similares a cada regionalismo se obtuvieron utilizando el modelo de aprendizaje “profundo” (Deep learning) word2vec (Mikolov et al. 2013) entrenado con el corpus completo.

Si usted encuentra útil este recurso y lo usa en sus proyectos de investigación o desarrollo, por favor citar:

Sergio Mancera. “Automatic extraction of regional words from social networks” (2017). Tesis de maestría, Centro de Investigación en Computación, Instituto Politécnico Nacional, México D.F., México

ADVERTENCIA Este conjunto de datos ha sido obtenido por medios completamente automáticos. Por lo tanto, su contenido no ha sido revisado exhaustivamente de manera manual. Sin embargo, en su construcción, el recurso ha sido evaluado de manera científica buscando que posibles errores se presenten en la menor medida posible y su proporción sea comparable con la de otros recursos similares en el mundo.

REFERENCIAS Calvo, H. (2014, April). Simple TF• IDF Is Not the Best You Can Get for Regionalism Classification. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 92-101). Springer, Berlin, Heidelberg.

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013. https://code.google.com/p/word2vec/

Nguyen, D., & Eisenstein, J. (2017). A Kernel Independence Test for Geographical Language Variation. Computational Linguistics.

Clear search

Close search

Google apps

Main menu