server: tests: embeddings use a real embeddings model #5908

phymbert · 2024-03-06T17:27:35Z

Context

Server embeddings test scenario were using a fake model. Switch to a real model as it does not require too much CPU.

Issue

@ggerganov @iamlemec It looks there is a regression since: #5740 ==> Had to install language-pack-en.

phymbert · 2024-03-06T18:55:35Z

examples/server/tests/features/embeddings.feature

+    Then all embeddings are generated
+
+  @wip
+  Scenario: All embeddings should be the same


@ggerganov Tests added, if the KV Cache size exceeds batch size, embeddings ouputs are different.

…V cache size exceeds batch size, embeddings differs

phymbert · 2024-03-06T19:15:58Z

@ggerganov I changed the PR target to your branch as it does not pass at the moment:

https://github.com/ggerganov/llama.cpp/actions/runs/8177406686/job/22358997967

* server : refactoring (wip) * server : remove llava/clip objects from build * server : fix empty prompt handling + all slots idle logic * server : normalize id vars * server : code style * server : simplify model chat template validation * server : code style * server : minor * llama : llama_chat_apply_template support null buf * server : do not process embedding requests when disabled * server : reorganize structs and enums + naming fixes * server : merge oai.hpp in utils.hpp * server : refactor system prompt update at start * server : disable cached prompts with self-extend * server : do not process more than n_batch tokens per iter * server: tests: embeddings use a real embeddings model (#5908) * server, tests : bump batch to fit 1 embedding prompt * server: tests: embeddings fix build type Debug is randomly failing (#5911) * server: tests: embeddings, use different KV Cache size * server: tests: embeddings, fixed prompt do not exceed n_batch, increase embedding timeout, reduce number of concurrent embeddings * server: tests: embeddings, no need to wait for server idle as it can timout * server: refactor: clean up http code (#5912) * server : avoid n_available var ggml-ci * server: refactor: better http codes * server : simplify json parsing + add comment about t_last * server : rename server structs * server : allow to override FQDN in tests ggml-ci * server : add comments --------- Co-authored-by: Pierrick Hymbert <pierrick.hymbert@gmail.com>

* server : refactoring (wip) * server : remove llava/clip objects from build * server : fix empty prompt handling + all slots idle logic * server : normalize id vars * server : code style * server : simplify model chat template validation * server : code style * server : minor * llama : llama_chat_apply_template support null buf * server : do not process embedding requests when disabled * server : reorganize structs and enums + naming fixes * server : merge oai.hpp in utils.hpp * server : refactor system prompt update at start * server : disable cached prompts with self-extend * server : do not process more than n_batch tokens per iter * server: tests: embeddings use a real embeddings model (ggml-org#5908) * server, tests : bump batch to fit 1 embedding prompt * server: tests: embeddings fix build type Debug is randomly failing (ggml-org#5911) * server: tests: embeddings, use different KV Cache size * server: tests: embeddings, fixed prompt do not exceed n_batch, increase embedding timeout, reduce number of concurrent embeddings * server: tests: embeddings, no need to wait for server idle as it can timout * server: refactor: clean up http code (ggml-org#5912) * server : avoid n_available var ggml-ci * server: refactor: better http codes * server : simplify json parsing + add comment about t_last * server : rename server structs * server : allow to override FQDN in tests ggml-ci * server : add comments --------- Co-authored-by: Pierrick Hymbert <pierrick.hymbert@gmail.com>

phymbert commented Mar 6, 2024

View reviewed changes

phymbert changed the base branch from master to gg/refactor-server March 6, 2024 18:56

phymbert changed the base branch from gg/refactor-server to master March 6, 2024 18:56

phymbert force-pushed the hp/server/tests/embeddings branch from 0bd82ab to d589c3c Compare March 6, 2024 18:59

phymbert changed the base branch from master to gg/refactor-server March 6, 2024 18:59

server: tests: embeddings, add dedicated feature and real model, if K…

fa7214c

…V cache size exceeds batch size, embeddings differs

phymbert force-pushed the hp/server/tests/embeddings branch from d589c3c to fa7214c Compare March 6, 2024 19:06

phymbert requested a review from ggerganov March 6, 2024 19:21

phymbert marked this pull request as ready for review March 6, 2024 19:21

ggerganov approved these changes Mar 6, 2024

View reviewed changes

ggerganov merged commit 79ef3c0 into gg/refactor-server Mar 6, 2024
14 of 18 checks passed

phymbert deleted the hp/server/tests/embeddings branch March 8, 2024 09:24

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

server: tests: embeddings use a real embeddings model #5908

server: tests: embeddings use a real embeddings model #5908

phymbert commented Mar 6, 2024 •

edited

Loading

phymbert Mar 6, 2024

phymbert commented Mar 6, 2024

server: tests: embeddings use a real embeddings model #5908

server: tests: embeddings use a real embeddings model #5908

Conversation

phymbert commented Mar 6, 2024 • edited Loading

Context

Issue

phymbert Mar 6, 2024

Choose a reason for hiding this comment

phymbert commented Mar 6, 2024

phymbert commented Mar 6, 2024 •

edited

Loading