
    i                     8   d dl Z d dlmZ d dlmZmZ dZed    g dfgZed    g dfgZe j                  j                  de      d        Ze j                  j                  d	e      d
        Ze j                  j                  d	e      d        Zd Zd Zd Zd Zy)    N)ConfigValidationError)Chinese_get_pkuseg_trie_data)ul   作为语言而言，为世界使用人数最多的语言，目前世界有五分之一人口做为母语。)   作为   语言   而言   ，   为   世界   使用u   人u	   数最多   的r   r	      目前r      有   五分之一   人口u   做r
      母语   。)r   r   r   r	   r
   r   r   u   人数u   最多r   r   r	   r   r   r   r   r   u   做为r   r   textc                 l     | |      D cg c]  }|j                    }}|t        |      k(  sJ y c c}w N)r   list)zh_tokenizer_charr   tokentokenss       s/var/www/vps2.regionflexible.com/Desarrollo/venv/lib/python3.12/site-packages/spacy/tests/lang/zh/test_tokenizer.pytest_zh_tokenizer_charr      s5    &7&=>Uejj>F>T$Z ?s   1ztext,expected_tokensc                 Z     | |      D cg c]  }|j                    }}||k(  sJ y c c}w r   r   )zh_tokenizer_jiebar   expected_tokensr   r   s        r   test_zh_tokenizer_jiebar!      s2    &8&>?Uejj?F?_$$$ @   (c                 Z     | |      D cg c]  }|j                    }}||k(  sJ y c c}w r   r   )zh_tokenizer_pkusegr   r    r   r   s        r   test_zh_tokenizer_pkusegr%   #   s2    &9$&?@Uejj@F@_$$$ Ar"   c                    t        | j                  j                  j                        }| j	                  dg       t        | j                  j                  j                        }t        |      t        |      dz
  k(  sJ | j	                  g d       t        | j                  j                  j                        }t        |      dk(  sJ t        j                  t              5  |j	                  dg       d d d        y # 1 sw Y   y xY w)Nnonsense_asdf   T)resetr   )	r   
pkuseg_segpreprocessertriepkuseg_update_user_dictlenpytestwarnsUserWarning)r$   r   	user_dictupdated_user_dictreset_user_dicts        r   "test_zh_tokenizer_pkuseg_user_dictr5   )   s    %&9&D&D&Q&Q&V&VWI//0AB-&&3388 y>S!23a7777 //$/?+&&3388O 1$$$ 
k	" E11?2CDE E Es   &DDc                 <     | d      }|d   j                   dk(  sJ y )NzI   like cheese.r(   z  )orth_)r   r   s     r   test_zh_extra_spacesr8   =   s#    12F!9??d"""    c                      ddddiii} t        j                  t              5  t        j                  |        d d d        y # 1 sw Y   y xY w)Nnlp	tokenizer	segmenterunk)r/   raisesr   r   from_config)configs    r   test_zh_unsupported_segmenterrB   C   sF    kK#789F	,	- $F#$ $ $s   AA
c                      ddddiii} t        j                  |       }d|j                  _        t	        j
                  t              5   |d       d d d        y # 1 sw Y   y xY w)Nr;   r<   r=   charpkusegtest)r   r@   r<   r=   r/   r?   
ValueError)rA   r;   s     r   test_zh_uninitialized_pkusegrH   I   sZ    kK#89:F


f
%C&CMM	z	" F  s   	AA#)r/   
confectionr   spacy.lang.zhr   r   TEXTSJIEBA_TOKENIZER_TESTSPKUSEG_TOKENIZER_TESTSmarkparametrizer   r!   r%   r5   r8   rB   rH    r9   r   <module>rQ      s     , 8 	z
1X	!"  1X	  '  ( 
 /1FG% H%
 /1GH% I%
E(#$r9   