我是Stanford CoreNLP工具包的新手,正在尝试将其用于解决新闻文本中的共同引用的项目。为了使用Stanford CoreNLP共参考系统,我们通常会创建一个管道,该管道需要标记化,句子拆分,词性标记,词缀化,命名实体识别和解析。例如:
Properties props = new Properties(); props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref"); StanfordCoreNLP pipeline = new StanfordCoreNLP(props); // read some text in the text variable String text = "As competition heats up in Spain's crowded bank market, Banco Exterior de Espana is seeking to shed its image of a state-owned bank and move into new activities."; // create an empty Annotation just with the given text Annotation document = new Annotation(text); // run all Annotators on this text pipeline.annotate(document);
然后,我们可以使用以下命令轻松获得句子注释:
List<CoreMap> sentences = document.get(SentencesAnnotation.class);
但是,我使用其他工具进行预处理,只需要一个独立的共指解析系统。创建标记并解析树注释并将它们设置为注释非常容易:
// create new annotation Annotation annotation = new Annotation(); // create token annotations for each sentence from the input file List<CoreLabel> tokens = new ArrayList<>(); for(int tokenCount = 0; tokenCount < parsedSentence.size(); tokenCount++) { ArrayList<String> parsedLine = parsedSentence.get(tokenCount); String word = parsedLine.get(1); String lemma = parsedLine.get(2); String posTag = parsedLine.get(3); String namedEntity = parsedLine.get(4); String partOfParseTree = parsedLine.get(6); CoreLabel token = new CoreLabel(); token.setWord(word); token.setWord(lemma); token.setTag(posTag); token.setNER(namedEntity); tokens.add(token); } // set tokens annotations to annotation annotation.set(TokensAnnotation.class, tokens); // set parse tree annotations to annotation Tree stanfordParseTree = Tree.valueOf(inputParseTree); annotation.set(TreeAnnotation.class, stanfordParseTree);
但是,创建句子注释非常棘手,因为据我所知,没有文档可以对其进行详细说明。我能够为句子注释创建数据结构并将其设置为注释:
List<CoreMap> sentences = new ArrayList<CoreMap>(); annotation.set(SentencesAnnotation.class, sentences);
我敢肯定这不会那么困难,但是没有文档说明如何从标记注释创建句子注释,即如何用实际的句子注释填充ArrayList。
有任何想法吗?
顺便说一句,如果我使用处理工具提供的标记和语法分析树注释,并且仅使用StanfordCoreNLP管道提供的句子注释并应用StanfordCoreNLP独立的共指解析系统,我将获得正确的结果。因此,完整的独立共指解析系统唯一缺少的部分是能够从标记注释中创建句子注释。
如果您有已标记化的句子列表,则有一个带参数的Annotation 构造List<CoreMap> sentences函数可设置文档。
Annotation
List<CoreMap> sentences
您要为每个句子创建一个CoreMap对象,如下所示。(请注意,我还分别向每个句子和标记对象添加了一个句子和标记索引。)
CoreMap
int sentenceIdx = 1; List<CoreMap> sentences = new ArrayList<CoreMap>(); for (parsedSentence : parsedSentences) { CoreMap sentence = new CoreLabel(); List<CoreLabel> tokens = new ArrayList<>(); for(int tokenCount = 0; tokenCount < parsedSentence.size(); tokenCount++) { ArrayList<String> parsedLine = parsedSentence.get(tokenCount); String word = parsedLine.get(1); String lemma = parsedLine.get(2); String posTag = parsedLine.get(3); String namedEntity = parsedLine.get(4); String partOfParseTree = parsedLine.get(6); CoreLabel token = new CoreLabel(); token.setWord(word); token.setLemma(lemma); token.setTag(posTag); token.setNER(namedEntity); token.setIndex(tokenCount + 1); tokens.add(token); } // set tokens annotations and id of sentence sentence.set(TokensAnnotation.class, tokens); sentence.set(SentenceIndexAnnotation.class, sentenceIdx++); // set parse tree annotations to annotation Tree stanfordParseTree = Tree.valueOf(inputParseTree); sentence.set(TreeAnnotation.class, stanfordParseTree); // add sentence to list of sentences sentences.add(sentence); }
然后,您可以Annotation使用sentences列表创建一个实例:
sentences
Annotation annotation = new Annotation(sentences);