Mythsman


I wonder how the world builds software.


LSH


  1. 面向最小哈希签名的LSH

    LSH 我们知道最小哈希签名 [https://blog.mythsman.com/2016/09/17/1/] 能够把一篇较大的文档压缩成一个较短的签名并且不影响文档间的Jaccard相似度。很多情况下,我们用最小哈希签名的目的就是为了方便的对文档进行存储,并且对于给定的文档,能在大量的文档中快速的查找相似的文章。现在我们能做到快速的对两篇文章进行相似度比较,但是当总的文档数目比较大的时候,比较所有文档的最小哈希签名仍然是一个非常耗时耗力的事。而我们知道,对于给定的文档而言,文档库中的绝大多数…

    BigData, MathJax, Algorithm, LSH阅读全文