Detta avsnitt gästas av doktoranden Amaru Cuba Gyllensten. Vi pratar om hans forskning inom Natural Language Processing (NLP) på RISE (Research Institutes of Sweden) och vad området kan användas till. Vi diskuterar även användningen av maskininlärning inom NLP och språkforskning, samt mer generellt kring maskininlärning och AI.

Amarus artikel som nämns i avsnittet (24:00):
Distributional Term Set Expansion – https://arxiv.org/pdf/1802.05014.pdf

Word vector-artikel som nämns vid 47:30:
Efficient Estimation of Word Representations in Vector Space – https://arxiv.org/pdf/1301.3781.pdf

Bloggar inom NLP:
– Aylien – http://blog.aylien.com/
– Rare Technologies – https://rare-technologies.com/blog/
– ConceptNet – http://blog.conceptnet.io/

Intressanta inlägg inom NLP:
– Om bias i språkmodeller – http://blog.conceptnet.io/posts/2017/how-to-make-a-racist-ai-without-really-trying/
– Den hisotoriska utvecklingen av NLP – http://blog.aylien.com/a-review-of-the-recent-history-of-natural-language-processing/
– Om word embeddings – http://blog.aylien.com/overview-word-embeddings-history-word2vec-cbow-glove/
– En tutorial för att använda fasttext (en utveckling av word2vec som används av Facebook) – https://fasttext.cc/docs/en/unsupervised-tutorial.html
– Koreanska bokstäver i NLP – http://www.lrec-conf.org/proceedings/lrec2018/pdf/133.pdf

Medverkande i avsnittet:
– Amaru Cuba Gyllensten, doktorand i Natural Language Processing på RISE SICS
– Henning Hammar, doktorand i fysik på Uppsala Universitet, driver även tjänsten Börslabbet, @investerarfys
– Daniel Constanda, IT-konsult i finansbranchen på Clara Financial Consulting
– Martin Nordgren, jobbar på Tobii, tidigare på Dirac, @martinjnordgren

Kontakta oss:
dataspaning.se
@dataspaning @ Twitter
dataspaning@gmail.com