<div dir="ltr"><div>Hi Aarsh,<br><br></div><div>I see we miss each other on the IRC, so I am replying you here.<br><br></div><div>It will be a good idea if all the GSoC students, who require some external datasets for testing and development, use the same collection.<br>
<br></div><div>I recommend you INEX collection which also will be used by LTR students. I have a doubt that you have got the correct collection or not, because I read you mentioning IMDB. The collection which I referred is Wikipedia collection (NOT IMDB) and is available at: <a href="http://www.mpi-inf.mpg.de/departments/d5/software/inex/">http://www.mpi-inf.mpg.de/departments/d5/software/inex/</a><br>
<br></div><div>Some details are available at LTR project idea page: <a href="http://trac.xapian.org/wiki/GSoCProjectIdeas#Project:LearningtoRank">http://trac.xapian.org/wiki/GSoCProjectIdeas#Project:LearningtoRank</a><br>
<br></div><div>For indexing these XML documents, simply you should treat them as HTML by doing "--mime-type xml:text/html". Although this is not the correct way but it does the job and gets you started.<br><br></div>
<div>There is also some efficiency notes on my Jounral page during GSoC 2011 (See coding week 3) <a href="http://trac.xapian.org/wiki/GSoC2011/LTR/Journal">http://trac.xapian.org/wiki/GSoC2011/LTR/Journal</a><br><br></div>
<div>For the queries, you can use Topics distributed with INEX for the "Ad-hoc Retrieval Task" (as mentioned on the LTR project idea page).<br><br></div><div>You can write your own iterator to parse and iterate over query file. See prepare_training_file() method in xapian-letor ( <a href="https://github.com/parthg/xapian/blob/master/xapian-letor/letor_internal.cc#L356">https://github.com/parthg/xapian/blob/master/xapian-letor/letor_internal.cc#L356</a> ) which does that.<br>
<br></div><div>If you want to consider a large query set then you might be intersted in Million Query Set (<a href="http://trec.nist.gov/data/million.query09.html">http://trec.nist.gov/data/million.query09.html</a>) which contains 40k web Queries. If you need even larger set then go for AOL Query Logs<b> </b> (<a href="http://jeffhuang.com/search_query_logs.html">http://jeffhuang.com/search_query_logs.html</a>) which contains 36M Queries.<br>
<br></div><div>Cheers,<br></div><div>Parth.<br></div><div><b> </b></div></div>