
    i                         d dl Z d dlmZ ddlmZ dg dfgZe j                  j                  de      d        Zd	 Z	e j                  j                  d
e      d        Z
d Zd Zy)    N)
Vietnamese   )NAUGHTY_STRINGSt   Đây là một văn  bản bằng tiếng Việt Sau đó, đây là một văn bản khác bằng ngôn ngữ này)u   Đây   là   mộtu   văn  bản   bằngu   tiếngu   ViệtSauu   đó,u   đâyr   r   u
   văn bảnu   khácr	   u   ngôn ngữu   nàyztext,expected_tokensc                 Z     | |      D cg c]  }|j                    }}||k(  sJ y c c}w N)text)vi_tokenizerr   expected_tokenstokentokenss        s/var/www/vps2.regionflexible.com/Desarrollo/venv/lib/python3.12/site-packages/spacy/tests/lang/vi/test_tokenizer.pytest_vi_tokenizerr      s1    &24&89Uejj9F9_$$$ :s   (c                 <     | d      }|d   j                   dk(  sJ y )NzI   like cheese.   z  )orth_)r   r   s     r   test_vi_tokenizer_extra_spacesr      s#    ,-F!9??d"""    r   c                 6     | |      }|j                   |k(  sJ y r   )text_with_ws)r   r   r   s      r   !test_vi_tokenizer_naughty_stringsr      s     $F$&&&r   c                      | d      }t        |      dk(  sJ  | d      }t        |      dk(  sJ  | d      }t        |      dk(  sJ y )N r    r   z



 		 


)len)r   docs     r    test_vi_tokenizer_emptyish_textsr"       sQ    
r
Cs8q==
s
Cs8q==
+
,Cs8q==r   c                      t        j                  ddddiii      } d} | |      }|D cg c]  }|j                  r|j                   c}|j	                         k(  sJ |d   j                  dk(  sJ yc c}w )	z-Test for whitespace tokenization without pyvinlp	tokenizeruse_pyviFr      r   N)r   from_configis_spacer   split)r$   r   r!   ts       r   test_vi_tokenizer_no_pyvir,   )   sv    

 
 %+
E7J)K!L
MC BD
d)C2qqzzAFF2djjlBBBq6;;# 3s
   A5A5)pytestspacy.lang.vir   tokenizer.test_naughty_stringsr   TOKENIZER_TESTSmarkparametrizer   r   r   r"   r,    r   r   <module>r4      s     $ = |  ~j  k /A% B%
# 1' 2'
r   