<div dir="ltr"><div>code is updated now. please see the latest code.<br></div><div>also, copy-lucenedatabase.cc is added, to caculate wdf_upper_bound, which is stored in a new file stat.xapian.<br></div><div>TfidfWeight is used.<br>
</div><div><br></div>Regards</div><div class="gmail_extra"><br><br><div class="gmail_quote">2013/9/3 jiangwen jiang <span dir="ltr"><<a href="mailto:jiangwen127@gmail.com" target="_blank">jiangwen127@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div>Collection frequency means how many times a particular term appears in all docs, this data is not exists in Lucene backends(I will check it in lucene mailing list later).<br>
</div><div>Termfreq(how many docs contains a particular term) is the most similar data to collection freq, but I don't think collection freq can be<br>
instead of termfreq.<br></div><div>Now I am trying to caculate this data in copydatabase.<br><br></div><div>Thanks<br></div><div>Regards <br></div><div><br></div></div></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra">
<br><br><div class="gmail_quote">
2013/9/2 Olly Betts <span dir="ltr"><<a href="mailto:olly@survex.com" target="_blank">olly@survex.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div>On Mon, Sep 02, 2013 at 09:21:48AM +0800, jiangwen jiang wrote:<br>
> TfIdfWeight and BM25(b=0) also need wdf_upper_bound, it is not exists in<br>
> Lucene backends.<br>
<br>
</div>If you don't provide an implementation of wdf_upper_bound(), the default<br>
is to use the collection frequency of the term, so provided that<br>
information is available in the lucene files, the lack of<br>
wdf_upper_bound information isn't a show stopper.<br>
<div><br>
> I think this data will be caculated when doing copydatabase, I will update<br>
> the code later<br>
<br>
</div>That's probably a good plan though.<br>
<br>
Cheers,<br>
    Olly<br>
</blockquote></div><br></div>
</div></div></blockquote></div><br></div>