用城市/地区或起源自动标记文本的一些好的算法是什么?也就是说,如果博客是关于纽约的,我该如何以编程的方式告诉他们。是否有包装或文件声称可以做到一定程度的确定性?
我看过一些基于tfidf的方法,专有名词的交集,但到目前为止,还没有任何成功的案例,我非常感谢您的想法!
给定一些主题列表,更笼统的问题是关于为主题分配文本。
简单/幼稚的方法比完整的贝叶斯方法更可取,但是我很开放。
您正在寻找命名实体识别系统,或简称NER。有几个 很好的 工具包可以帮助您。尤其是LingPipe有一个非常不错的教程。CAGEclass似乎围绕NER在地理上的地名,但是我还没有使用它。
这是一个很好的博客条目,介绍了NER与地理位置名称之间的困难。
如果您要使用Java,建议您使用LingPipe NER类。OpenNLP也有一些,但是前者有更好的文档。
如果您正在寻找一些理论背景,Chavez等人。(2005)构造了一个有趣的系统并记录了下来。