Ë
    ¥ãi«<  ã                   óR  — d Z ddlZddlZddlmZ ddlmZ ddlmZ ddl	m
Z
  e
«       r4ddlmZmZ dd	lmZmZmZ dd
lmZ ddlmZmZmZ dd
lmZ ddlmZ ddlmZ ddlmZmZmZm Z m!Z! erddl"m#Z#m$Z$m%Z%m&Z&  G d„ ded¬«      Z'h d£Z( ejR                  e*«      Z+ G d„ de«      Z,y)z
Handler for the /v1/chat/completions endpoint.

Supports streaming (SSE via DirectStreamer) and non-streaming (JSON) responses.
é    N)ÚAsyncGenerator)ÚTYPE_CHECKINGé   )Úlogging)Úis_serve_available)ÚJSONResponseÚStreamingResponse)ÚChatCompletionÚChatCompletionMessageÚChatCompletionMessageToolCall)ÚChoice)ÚChatCompletionChunkÚChoiceDeltaÚChoiceDeltaToolCall)ÚCompletionCreateParamsStreaming)ÚCompletionUsageé   )ÚBaseGenerateManagerÚBaseHandlerÚToolCallParserÚ_StreamErrorÚdetect_tool_format)ÚGenerationConfigÚPreTrainedModelÚPreTrainedTokenizerFastÚProcessorMixinc                   ó"   — e Zd ZU eed<   eed<   y)Ú+TransformersCompletionCreateParamsStreamingÚgeneration_configÚseedN)Ú__name__Ú
__module__Ú__qualname__ÚstrÚ__annotations__Úint© ó    úy/var/www/vps2.regionflexible.com/Desarrollo/venv/lib/python3.12/site-packages/transformers/cli/serving/chat_completion.pyr   r   3   s   … ØÓØ
„Ir(   r   F)Útotal>   ÚnÚuserÚaudioÚstoreÚlogprobsÚmetadataÚ	functionsÚ
modalitiesÚ
predictionÚtool_choiceÚservice_tierÚtop_logprobsÚfunction_callÚstream_optionsÚresponse_formatÚpresence_penaltyÚreasoning_effortÚweb_search_optionsÚparallel_tool_callsÚmax_completion_tokensc                   óX  ‡ — e Zd ZdZeZeZdede	de
ez  fd„Z	 dde	ddd	d
de	dedddededz  de
fd„Z	 dde	ddd	d
de	dedddededz  defd„Zddedddefˆ fd„Z	 	 dde	de	de	de	dedz  dee   dz  defd„Z	 	 	 	 	 	 	 d de	de	dz  de	dz  de	dz  de	dz  dedz  dedz  de	fd„Zˆ xZS )!ÚChatCompletionHandlerz|Handler for the `/v1/chat/completions` endpoint.

    Supports both streaming (SSE) and non-streaming (JSON) responses.
    ÚbodyÚ
request_idÚreturnc           
   ƒ   ó.  K  — | j                  |«       | j                  |«      \  }}}| j                  j                  ||¬«      }| j                  j                  ||«      }t        j                  d|› d|› «       | j                  j                  ||¬«      }| j                  |d   |«      }	|j                  |	d|j                  d«      |rdnd	dd¬
«      }
|s|
j                  |j                  «      }
| j                  ||j                  |¬«      }|r|j!                  ||«       |j                  d«      rt#        |«      nd}|j                  d«      }|r| j%                  |||||
|||¬«      S | j'                  |||||
|||¬«      ƒ d{  –—† S 7 Œ­w)a  Validate the request, load the model, and dispatch to streaming or non-streaming.

        Args:
            body (`dict`): The raw JSON request body (OpenAI chat completion format).
            request_id (`str`): Unique request identifier (from header or auto-generated).

        Returns:
            `StreamingResponse | JSONResponse`: SSE stream or JSON depending on ``body["stream"]``.
        )Ú	processorz[Request received] Model: z, CB: ©Úuse_cbÚmessagesTÚtoolsNÚpt)Úadd_generation_promptrI   Úreturn_tensorsÚreturn_dictÚtokenizeÚstream)Úgen_managerÚtool_format)Ú_validate_requestÚ_resolve_modelÚmodel_managerÚget_model_modalityÚgeneration_stateÚuse_continuous_batchingÚloggerÚwarningÚget_managerÚ"get_processor_inputs_from_messagesÚapply_chat_templateÚgetÚtoÚdeviceÚ_build_generation_configr   Úinit_cbr   Ú
_streamingÚ_non_streaming)ÚselfrA   rB   Úmodel_idÚmodelrE   ÚmodalityrG   rP   Úprocessor_inputsÚinputsÚ
gen_configrQ   Ú	streamings                 r)   Úhandle_requestz$ChatCompletionHandler.handle_request_   s¿  è ø€ ð 	×Ñ˜tÔ$à%)×%8Ñ%8¸Ó%>Ñ"ˆ%˜Ø×%Ñ%×8Ñ8¸È)Ð8ÓTˆØ×&Ñ&×>Ñ>¸uÀhÓOˆÜ‰Ð3°H°:¸VÀFÀ8ÐLÔMØ×+Ñ+×7Ñ7¸ÈÐ7ÓPˆØ×BÑBÀ4È
ÑCSÐU]Ó^Ðà×.Ñ.ØØ"&Ø—(‘(˜7Ó#Ù#)™4¨tØØð /ó 
ˆñ Ø—Y‘Y˜uŸ|™|Ó,ˆFà×2Ñ2°4¸×9PÑ9PÐY_Ð2Ó`ˆ
áØ×Ñ  zÔ2ð 48·8±8¸GÔ3DÔ(¨Ô/È$ˆà—H‘H˜XÓ&ˆ	ÙØ—?‘?ØØØØØØØ'Ø'ð #ó 	ð 	ð ×,Ñ,ØØØØØØØ'Ø'ð -ó 	÷ 	ð 	ð 	ús   ‚FFÆFÆFNrf   r   rE   z(ProcessorMixin | PreTrainedTokenizerFastre   ri   rj   r   rP   rQ   c	           	      ó  ‡ ‡‡‡‡‡‡‡— |j                  |||‰‰¬«      \  ŠŠ|d   }	t        |	t        «      rt        |	«      n|	j                  d   Š|rt        |«      ndŠdt        t        df   fˆˆˆˆˆˆˆ ˆfd„}
t         |
«       d¬«      S )	z(Stream tokens as SSE via DirectStreamer.©rB   Ú	input_idséÿÿÿÿNrC   c            
     óú  •K  — d} 	 ‰j                  ‰d‰¬«      ­–— d}|s=‰j                  «       ƒ d {  –—† }|g}	 	 |j                  ‰j                  «       «       Œ ‰
j                  d uxr ‰j                  ‰
j                  k\  }| rd	}n|rd}nd}t!        ‰‰j                  ‰‰j                  z   ¬«      }	‰j                  ‰|‰|	¬«      ­–— y 7 Œœ# t        j
                  $ r Y nw xY wg }|D ]½  }|€d} n·t        |t        «      r5|j                  d|j                  › d«       dj                  |«      ­–—  y d|i}‰F‰j                  |«      x}3|t        j                  u rŒzd} d	t        d
d‰› d|d   |d   dœ¬«      gi}|j                   ‰j                   ‰fd‰i|¤Ž«       Œ¿ |rdj                  |«      ­–— |sŒ©Œn# t"        t        j$                  f$ r ‰j'                  «        ‚ w xY w­w)NFÚ	assistant)Úrolerf   Tzdata: {"error": "z"}

Ú ÚcontentÚ
tool_callsr   ÚfunctionÚ
_tool_callÚnameÚ	arguments©ry   rz   )ÚindexÚtypeÚidrw   rf   ÚlengthÚstop©Úprompt_tokensÚcompletion_tokensÚtotal_tokens)Úfinish_reasonrf   Úusage)Ú_build_chunk_sser]   ÚappendÚ
get_nowaitÚasyncioÚ
QueueEmptyÚ
isinstancer   ÚmsgÚjoinÚfeedr   ÚCONSUMEDr   Úmax_new_tokensr„   r   ÚGeneratorExitÚCancelledErrorÚcancel)Úhas_tool_callsÚdoneÚtextÚbatchÚ	sse_partsÚchunk_kwargsÚresultÚhit_maxr…   r†   rj   Ú	input_lenre   ÚparserÚqueuerB   rd   Ústreamers             €€€€€€€€r)   Ússe_genz1ChatCompletionHandler._streaming.<locals>.sse_gen´   sT  øè ø€ Ø"ˆNðCØ×+Ñ+¨J¸[ÐPXÐ+ÓYÓYàÙØ!&§¡£×,DØ!˜FEðØ"Ø!ŸL™L¨×)9Ñ)9Ó);Ô<ð #ðJ %×3Ñ3¸4Ð?ÒvÀH×DYÑDYÐ]g×]vÑ]vÑDvÙ!Ø$0‘MÙØ$,‘Mà$*MÜ'Ø"+Ø&.×&;Ñ&;Ø!*¨X×-BÑ-BÑ!Bôð
 ×+Ñ+ØØ"/Ø"Øð	 ,ó ô ði -ùô
 #×-Ñ-ò Ùðúð ,.IØ %ò l˜Ø˜<Ø#'˜DÙ!Ü% d¬LÔ9Ø%×,Ñ,Ð/AÀ$Ç(Á(ÀÈ7Ð-SÔTØ"$§'¡'¨)Ó"4Ó4Ù"ð )2°4Ð'8˜Ø!Ð-¸V¿[¹[ÈÓ=NÐ3N°6Ð2[Ø%¬×)@Ñ)@Ñ@Ø (Ø-1˜Nà ,Ü$7Ø./Ø-7Ø.8¨\¸Ð+DØ:@À¹.ÐW]Ð^iÑWjÑ1kô	%&ð/"ð	,˜Lð "×(Ñ(Ð)>¨×)>Ñ)>¸zÑ)jÐQYÐ)jÐ]iÑ)jÕkð5lñ8 !Ø Ÿg™g iÓ0Ó0óO úôv "¤7×#9Ñ#9Ð:ò ð —‘Ô!Øð	üs^   ƒG;‡.G µC¶G ¾!C ÁA2G ÃG;ÃG ÃC*Ã'G Ã)C*Ã*AG Ä>G;Ä?B
G Ç+G8Ç8G;ztext/event-stream©Ú
media_type)	Úgenerate_streamingrŒ   ÚlistÚlenÚshaper   r   r$   r	   )rd   rB   rf   rE   re   ri   rj   rP   rQ   ro   r¡   r   rž   rŸ   r    s   ``  ` `    @@@@r)   rb   z ChatCompletionHandler._streaming¢   sŒ   ÿ€ ð &×8Ñ8¸À	È6ÐS]ÐjtÐ8Óu‰ˆˆxØ˜;Ñ'ˆ	ä&0°¼DÔ&A”C˜	”NÀyÇÁÐWYÑGZˆ	Ù0;” Ô,ÀˆðE	œ~¬c°4¨iÑ8÷ E	ô E	ôN !¡£Ð7JÔKÐKr(   c	           
   ƒ   óÆ  K  — |j                  |||||¬«      ƒ d{  –—† \  }	}
}|j                  duxr t        |«      |j                  k\  }t        |«      }t        |
||
|z   ¬«      }d}|?t	        j
                  |	|«      }|'|D cg c]  }t        |› dd|d   |d   dœ¬	«      ‘Œ }}|d
}n|rd}nd}t        | j                  ||	||||¬«      d¬«      S 7 Œ½c c}w ­w)z)Run generation and return a JSONResponse.rn   Nr   rx   rw   ry   rz   r{   )r~   r}   rw   rv   r   r€   )r…   r†   rv   zapplication/jsonr¢   )	Úgenerate_non_streamingr‘   r¦   r   r   Úparser   r   Ú_build_completion)rd   rB   rf   rE   re   ri   rj   rP   rQ   ru   r   Úgenerated_idsrœ   rƒ   r†   rv   ÚparsedÚtcr…   s                      r)   rc   z$ChatCompletionHandler._non_streamingÿ   sE  è ø€ ð 3>×2TÑ2TØ9˜f j¸Zð 3Uó 3
÷ -
Ñ)ˆ˜Mð ×+Ñ+°4Ð7Òk¼CÀÓ<NÐR\×RkÑRkÑ<kˆÜ Ó.ÐÜØ#Ø/Ø"Ð%6Ñ6ô
ˆð ˆ
ØÐ"Ü#×)Ñ)¨'°;Ó?ˆFØÐ!ð %öð ô 2Ø(˜\¨Ð4Ø'Ø*,¨V©*À2ÀkÁ?Ñ!Söð
ð ð Ð!Ø(‰MÙØ$‰Mà"ˆMäØ×"Ñ"ØØØØ+ØØ%ð #ó ð *ô

ð 
	
ðC-
úò"ùs"   ‚C!œCA,C!Â	!CÂ*1C!ÃC!Úmodel_generation_configrG   c                 ó’  •— t         ‰|   |||¬«      }|j                  d«      t        |d   «      |_        |j                  d«      dt        |d   «      z   |_        |j                  d«      6|d   j                  «       D ci c]  \  }}t        |«      f|“Œ c}}|_        |j                  d«      
|d   |_	        |S c c}}w )zApply Chat Completions params (``max_tokens``, ``frequency_penalty``, ``logit_bias``,
        ``stop``) on top of the base generation config.rF   Ú
max_tokensÚfrequency_penaltyg      ð?Ú
logit_biasr€   )
Úsuperr`   r]   r&   r‘   ÚfloatÚrepetition_penaltyÚitemsÚsequence_biasÚstop_strings)rd   rA   r¯   rG   r   ÚkÚvÚ	__class__s          €r)   r`   z.ChatCompletionHandler._build_generation_config:  sÐ   ø€ ô "™GÑ<¸TÐCZÐciÐ<ÓjÐà8‰8LÓ!Ð-Ü/2°4¸Ñ3EÓ/FÐÔ,Ø8‰8Ð'Ó(Ð4Ø36¼¸tÐDWÑ?XÓ9YÑ3YÐÔ0Ø8‰8LÓ!Ð-ØHLÈ\ÑHZ×H`ÑH`ÓHb×.cÁÀÀ1´°A³¨y¸!©|Ó.cÐÔ+Ø8‰8FÓÐ'Ø-1°&©\ÐÔ*à Ð ùó	 /ds   ÂCru   r…   r†   rv   c                 ó´   — t        |d|¬«      }t        |t        t        j                  «       «      d|t	        d||¬«      g|¬«      }|j                  d¬«      S )	aX  Build a non-streaming ChatCompletion response dict.

        Args:
            request_id (`str`): Unique request identifier.
            content (`str`): The generated text.
            model_id (`str`): Model ID to include in the response.
            finish_reason (`str`): Why generation stopped (``"stop"``, ``"length"``, ``"tool_calls"``).
            usage (`CompletionUsage`, *optional*): Token usage statistics.
            tool_calls (`list[dict]`, *optional*): Parsed tool calls, if any.

        Returns:
            `dict`: Serialized ``ChatCompletion`` ready for JSON response.
        rr   ©ru   rs   rv   zchat.completionr   )r|   Úmessager…   )r~   ÚcreatedÚobjectrf   Úchoicesr†   T)Úexclude_none)r   r
   r&   Útimer   Ú
model_dump)	rd   rB   ru   re   r…   r†   rv   r¿   r›   s	            r)   r«   z'ChatCompletionHandler._build_completionL  se   € ô, (°¸kÐV`ÔaˆÜØÜœŸ	™	›Ó$Ø$ØäØØ#Ø"/ôðð ô
ˆð × Ñ ¨dÐ Ó3Ð3r(   rs   c                 ó°   — t        |t        t        j                  «       «      |t        t	        |||¬«      d|¬«      g|dd¬«      }| j                  |«      S )a‚  Build a streaming ``ChatCompletionChunk`` and format it as an SSE ``data:`` line.

        Args:
            request_id (`str`): Unique request identifier.
            content (`str`, *optional*): Text content delta.
            model (`str`, *optional*): Model ID.
            role (`str`, *optional*): Role (only sent in the first chunk).
            finish_reason (`str`, *optional*): Set on the final chunk.
            tool_calls (`list`, *optional*): Tool call deltas.
            usage (`CompletionUsage`, *optional*): Token usage (sent with the final chunk).

        Returns:
            `str`: A formatted SSE event string.
        r¾   r   )Údeltar|   r…   rt   zchat.completion.chunk)r~   rÀ   rf   rÂ   r†   Úsystem_fingerprintrÁ   )r   r&   rÄ   ÚChoiceChunkr   Úchunk_to_sse)	rd   rB   ru   rf   rs   r…   rv   r†   Úchunks	            r)   r‡   z&ChatCompletionHandler._build_chunk_sses  s_   € ô0 $ØÜœŸ	™	›Ó$ØäÜ%¨g¸DÈZÔXØØ"/ôðð Ø!Ø*ô
ˆð × Ñ  Ó'Ð'r(   )N)F)NN)rt   NNNNNN)r!   r"   r#   Ú__doc__r   Ú_valid_params_classÚUNUSED_CHAT_COMPLETION_FIELDSÚ_unused_fieldsÚdictr$   r	   r   rl   r   rb   rc   Úboolr`   r   r¥   r«   r‡   Ú__classcell__)r¼   s   @r)   r@   r@   V   s  ø„ ñð
 FÐØ2€Nð?¨ð ?¸3ð ?ÐCTÐWcÑCcó ?ðX $(ñYLàðYLð !ðYLð >ð	YLð
 ðYLð ðYLð 'ðYLð )ðYLð ˜D‘[ðYLð 
óYLðL $(ñ7
àð7
ð !ð7
ð >ð	7
ð
 ð7
ð ð7
ð 'ð7
ð )ð7
ð ˜D‘[ð7
ð 
ó7
ñv!¨Tð !ÐL^ð !Ðhlõ !ð0 )-Ø(,ñ%4àð%4ð ð%4ð ð	%4ð
 ð%4ð  Ñ%ð%4ð ˜‘J Ñ%ð%4ð 
ó%4ðR Ø"Ø ØØ$(Ø"&Ø(,ñ'(àð'(ð t‘ð'(ð T‰zð	'(ð
 D‰jð'(ð ˜T‘zð'(ð ˜4‘Kð'(ð  Ñ%ð'(ð 
÷'(r(   r@   )-rÌ   rŠ   rÄ   Úcollections.abcr   Útypingr   Úutilsr   Úutils.import_utilsr   Úfastapi.responsesr   r	   Úopenai.types.chatr
   r   r   Ú!openai.types.chat.chat_completionr   Ú'openai.types.chat.chat_completion_chunkr   r   r   rÉ   Ú*openai.types.chat.completion_create_paramsr   Úopenai.types.completion_usager   r   r   r   r   r   Útransformersr   r   r   r   r   rÎ   Ú
get_loggerr!   rX   r@   r'   r(   r)   ú<module>rß      s   ðñó Û Ý *Ý  å Ý 4ñ ÔßAßfÑfÝ8ßmÑmÝMÝZÝ=÷õ ñ ßgÓgôÐ2QÐY^õ ò!Ð ð0 
ˆ×	Ñ	˜HÓ	%€ôD(˜Kõ D(r(   