1 dataset found
  1. W

    Regionalismos de VENEZUELA y sus palabras cercanas

    • cloud.csiss.gmu.edu
    csv, json, rdf, xml
    Updated Dec 15, 2017
    Share
    FacebookFacebook
    TwitterTwitter
    Email
    Click to copy link
    Link copied
    Close
    Cite
    www.datos.gov.co (2017). Regionalismos de VENEZUELA y sus palabras cercanas [Dataset]. https://cloud.csiss.gmu.edu/uddi/dataset/regionalismos-de-venezuela-y-sus-palabras-cercanas
    Explore at:
    rdf, xml, csv, jsonAvailable download formats
    Dataset updated
    Dec 15, 2017
    Dataset provided by
    www.datos.gov.co
    Area covered
    Venezuela
    Description

    DESCRIPCION Este conjunto de datos contiene aproximadamente 5,000 palabras regionales cada una con 30 palabras relacionadas semánticamente. Los regionalismos fueron identificados a partir de un corpus de 218 millones de tuits correspondientes a 333 ciudades de 21 países de Latinoamérica, España y los Estados Unidos. El método para identificar los regionalismos combina técnicas de recuperación de información (Calvo 2017) y de autocorrelación espacial (Nguyen & Eisenstein, 2017). Las palabras “cercanas”, relacionadas o similares a cada regionalismo se obtuvieron utilizando el modelo de aprendizaje “profundo” (Deep learning) word2vec (Mikolov et al. 2013) entrenado con el corpus completo.

    Si usted encuentra útil este recurso y lo usa en sus proyectos de investigación o desarrollo, por favor citar:

    Sergio Mancera. “Automatic extraction of regional words from social networks” (2017). Tesis de maestría, Centro de Investigación en Computación, Instituto Politécnico Nacional, México D.F., México

    ADVERTENCIA Este conjunto de datos ha sido obtenido por medios completamente automáticos. Por lo tanto, su contenido no ha sido revisado exhaustivamente de manera manual. Sin embargo, en su construcción, el recurso ha sido evaluado de manera científica buscando que posibles errores se presenten en la menor medida posible y su proporción sea comparable con la de otros recursos similares en el mundo.

    REFERENCIAS Calvo, H. (2014, April). Simple TF• IDF Is Not the Best You Can Get for Regionalism Classification. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 92-101). Springer, Berlin, Heidelberg.

    Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013. https://code.google.com/p/word2vec/

    Nguyen, D., & Eisenstein, J. (2017). A Kernel Independence Test for Geographical Language Variation. Computational Linguistics.

  2. Not seeing a result you expected?
    Learn how you can add new datasets to our index.

Share
FacebookFacebook
TwitterTwitter
Email
Click to copy link
Link copied
Close
Cite
www.datos.gov.co (2017). Regionalismos de VENEZUELA y sus palabras cercanas [Dataset]. https://cloud.csiss.gmu.edu/uddi/dataset/regionalismos-de-venezuela-y-sus-palabras-cercanas

Regionalismos de VENEZUELA y sus palabras cercanas

Explore at:
rdf, xml, csv, jsonAvailable download formats
Dataset updated
Dec 15, 2017
Dataset provided by
www.datos.gov.co
Area covered
Venezuela
Description

DESCRIPCION Este conjunto de datos contiene aproximadamente 5,000 palabras regionales cada una con 30 palabras relacionadas semánticamente. Los regionalismos fueron identificados a partir de un corpus de 218 millones de tuits correspondientes a 333 ciudades de 21 países de Latinoamérica, España y los Estados Unidos. El método para identificar los regionalismos combina técnicas de recuperación de información (Calvo 2017) y de autocorrelación espacial (Nguyen & Eisenstein, 2017). Las palabras “cercanas”, relacionadas o similares a cada regionalismo se obtuvieron utilizando el modelo de aprendizaje “profundo” (Deep learning) word2vec (Mikolov et al. 2013) entrenado con el corpus completo.

Si usted encuentra útil este recurso y lo usa en sus proyectos de investigación o desarrollo, por favor citar:

Sergio Mancera. “Automatic extraction of regional words from social networks” (2017). Tesis de maestría, Centro de Investigación en Computación, Instituto Politécnico Nacional, México D.F., México

ADVERTENCIA Este conjunto de datos ha sido obtenido por medios completamente automáticos. Por lo tanto, su contenido no ha sido revisado exhaustivamente de manera manual. Sin embargo, en su construcción, el recurso ha sido evaluado de manera científica buscando que posibles errores se presenten en la menor medida posible y su proporción sea comparable con la de otros recursos similares en el mundo.

REFERENCIAS Calvo, H. (2014, April). Simple TF• IDF Is Not the Best You Can Get for Regionalism Classification. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 92-101). Springer, Berlin, Heidelberg.

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013. https://code.google.com/p/word2vec/

Nguyen, D., & Eisenstein, J. (2017). A Kernel Independence Test for Geographical Language Variation. Computational Linguistics.

Search
Clear search
Close search
Google apps
Main menu