<p><font face="Times New Roman, serif">&nbsp;&nbsp; Hello, erver one, I am Yongzhi Zhang, a
chinese student. <br></font></p>
<p><font face="Times New Roman, serif">I&#39;m interested in CJK Support(also known as Chinese,
Japanese, and Korean Support), </font>
</p>
<p> <font face="Times New Roman, serif">I  have 6 years experience in
software development (c/C++ and java) .</font></p>
<p><font face="Times New Roman, serif">I want to work on this project
&quot;CJK Support&quot;, I come from Beijing of china.</font></p>
<p><font face="Times New Roman, serif">Chinese is my  native<span lang="en-US">
language. This is my advantage for &ldquo;CJK Support&rdquo; . </span></font>
</p>
<p><font face="Times New Roman, serif"><span lang="en-US">I  have
fixed a bug for the indexing problem in Chinese version of help
system for OpenOffice. The   OpenOffice  use Lucene to implement the
indexing .         </span></font>
</p>

<p><font face="Times New Roman, serif">I&#39;ll be happy to participate
in this project during Google Summer ofCode 2011 program and
implement CJK Support.</font></p>
<p><font face="Times New Roman, serif">As Chinese letters are not
delimited by whitespace, we cannot<img src="http://old.www.iciba.com/images/dot.gif" name="ͼÐÎ1" width="4" align="BOTTOM" border="0" height="4">distinguish
them easily. After my investigation, I find three methods to resolve
this issue, and I prefer the last one.</font></p>
<ol><li><p><font face="Times New Roman, serif">Set each letter as a key
        to index, This is used by  Lucene as default. </font>
        </p>
        <p><font face="Times New Roman, serif">The class is <i><font size="2">StandardAnalyzer</font></i>
        </font>
        </p>
        </li><li><p><font face="Times New Roman, serif">Every two letter as a key
        to index. This is used by Lucene for &ldquo;CJK support&rdquo;</font></p>
        <p><font face="Times New Roman, serif">The java class name is 
        <a href="http://svn.services.openoffice.org/opengrok/s?defs=CJKAnalyzer&amp;project=/DEV300_m103" target="_blank">CJKAnalyzer</a></font></p>
        </li><li><p><font face="Times New Roman, serif">Follow the dictionary
        rule  to  distinguish group of characters.</font>
        </p>
</li></ol>