<div dir="ltr">Hello,<br><br>I am beginning work on the perf test module. The initial steps that I aim to accomplish are :-<br><br>-> Download the wikipedia dumps for multiple languages .<div>-> Write python scripts to tokenize the dump (will probably use something like nltk which has powerful inbuilt tokenizers)<br>
</div><div>-> Discuss and finalize the design of the search and query expansion perf tests as I want to complete them before working on the indexing perf test.<br><br><b>Questions</b><br>-> If anyone has an experience with dowbloading wikipedia dumps, please can I get some advice on how to go about doing it and which is the best place to get them ?<br>
-> For the search and query expansion perf test, I need a query log based on the test documents I'll be using (Inex data set, as per the recent discussion with Olly on IRC.).<br>Please can I get some advice on how to go about using the Inex data sets and the corresponding query logs. <br>
<br>Regards<br>Aarsh<br><br><br>Regards<br>Aarsh</div></div>