小编典典

无监督自动标记算法?

algorithm

我想构建一个Web应用程序,允许用户上传 文档视频图像音乐 ,然后使他们能够搜索它们。可以将其视为 Dropbox
+语义搜索。

当用户上传新文件(例如 Document1.docx)时 ,如何根据文件内容自动生成标签?换句话说,不需要用户输入即可确定文件的内容。如果假设
Document1.docx 是有关数据挖掘的研究论文,那么当用户搜索 数据挖掘研究论文document1时
,应在搜索结果中返回该文件,因为 数据挖掘研究论文 很可能会自动-为给定文档生成的标签。

1.您将针对此问题推荐哪些算法?

2.是否有一个自然语言库可以为我做到这一点?

3.我应该考虑使用哪种机器学习技术来提高标记精度?

4.如何将其扩展到视频和图像自动标记?

提前致谢!


阅读 418

收藏
2020-07-28

共1个答案

小编典典

用于此类任务的最常见的无监督机器学习模型是潜在狄利克雷分配(LDA)。该模型会根据这些文档中的单词自动推断出文档集中的主题集合。在您的文档集中运行LDA会在搜索特定主题时将具有概率的单词分配给某些主题,然后您可以检索与该单词相关的概率最高的文档。

图像和音乐也有一些扩展,请参见http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf

LDA有几种语言的几种有效实现:

2020-07-28