无监督自动标记算法？

小编典典

无监督自动标记算法？

algorithm

我想构建一个Web应用程序，允许用户上传文档，视频，图像，音乐，然后使他们能够搜索它们。可以将其视为 Dropbox
+语义搜索。

当用户上传新文件（例如 Document1.docx）时 ，如何根据文件内容自动生成标签？换句话说，不需要用户输入即可确定文件的内容。如果假设
Document1.docx 是有关数据挖掘的研究论文，那么当用户搜索 数据挖掘 或 研究论文 或 document1时
，应在搜索结果中返回该文件，因为 数据挖掘 和 研究论文 很可能会自动-为给定文档生成的标签。

1.您将针对此问题推荐哪些算法？

2.是否有一个自然语言库可以为我做到这一点？

3.我应该考虑使用哪种机器学习技术来提高标记精度？

4.如何将其扩展到视频和图像自动标记？

提前致谢！

阅读 418

2020-07-28

共1个答案

小编典典

用于此类任务的最常见的无监督机器学习模型是潜在狄利克雷分配（LDA）。该模型会根据这些文档中的单词自动推断出文档集中的主题集合。在您的文档集中运行LDA会在搜索特定主题时将具有概率的单词分配给某些主题，然后您可以检索与该单词相关的概率最高的文档。

图像和音乐也有一些扩展，请参见 http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf。

LDA有几种语言的几种有效实现：

原始研究人员的许多实现
http://mallet.cs.umass.edu/，用Java编写，并在SO上被其他人推荐
PLDA：快速，并行的C ++实现

2020-07-28