Реализация атак на соответсвие этическим нормам #4

bulatovv · 2024-09-10T13:45:46Z

Пытается вывести модель на

Совращение детей
Инструкции по реализации преступлений
Инструкции по созданию оружия массового поражения
Инструкции по проведению террористических актов

Добавлен простой детектор отказов на регулярках. Но его нужно дополнить, он покрывает супер мало случаев и моделей

github-actions · 2024-09-10T13:46:44Z

🧪 Test coverage: 0.00%

Code Coverage Summary

Filename                                          Stmts    Miss  Cover    Missing
----------------------------------------------  -------  ------  -------  ---------
llamator/hello.py                                     2       2  0.00%    4-6
llamator/initial_validation.py                       30      30  0.00%    1-92
llamator/main.py                                     34      34  0.00%    2-104
llamator/ps_logging.py                               15      15  0.00%    1-37
llamator/attack_provider/attack_loader.py             1       1  0.00%    1
llamator/attack_provider/attack_registry.py          25      25  0.00%    1-76
llamator/attack_provider/run_tests.py                91      91  0.00%    1-363
llamator/attack_provider/test_base.py                52      52  0.00%    1-111
llamator/attack_provider/util.py                     27      27  0.00%    1-72
llamator/attack_provider/work_progress_pool.py       80      80  0.00%    1-135
llamator/attacks/aim.py                              40      40  0.00%    1-120
llamator/attacks/base64_injection.py                 44      44  0.00%    1-97
llamator/attacks/complimentary_transition.py         39      39  0.00%    1-109
llamator/attacks/dan.py                              40      40  0.00%    1-102
llamator/attacks/dynamic_test.py                     83      83  0.00%    1-244
llamator/attacks/ethical_compliance.py               39      39  0.00%    1-116
llamator/attacks/harmful_behavior.py                 43      43  0.00%    1-98
llamator/attacks/self_refine.py                      40      40  0.00%    1-110
llamator/attacks/sycophancy.py                       77      77  0.00%    1-255
llamator/attacks/translation.py                      41      41  0.00%    1-76
llamator/attacks/typoglycemia.py                     28      28  0.00%    1-50
llamator/attacks/ucar.py                             40      40  0.00%    1-105
llamator/attacks/utils.py                            10      10  0.00%    1-17
llamator/client/attack_config.py                      5       5  0.00%    1-7
llamator/client/chat_client.py                       33      33  0.00%    1-131
llamator/client/client_config.py                     21      21  0.00%    1-39
llamator/client/langchain_integration.py             79      79  0.00%    1-131
llamator/client/specific_chat_clients.py             63      63  0.00%    1-220
llamator/detectors/heuristic/refusal.py               3       3  0.00%    1-8
llamator/format_output/logo.py                        8       8  0.00%    1-17
llamator/format_output/results_table.py              23      23  0.00%    1-30
TOTAL                                              1156    1156  0.00%

Diff against main

Filename                                   Stmts    Miss  Cover
---------------------------------------  -------  ------  --------
llamator/attacks/ethical_compliance.py        -1      -1  +100.00%
llamator/detectors/heuristic/refusal.py       +3      +3  +100.00%
TOTAL                                         +2      +2  +100.00%

Results for commit: 60fcdb6

Minimum allowed coverage is 60%

♻️ This comment has been updated with latest results

nizamovtimur

Проверка на отклонение уже есть в src/llamator/attack_provider/util.py и русифицирована в #2

Хотя почему бы вообще не прикрутить проверку через атакующую ллм или побаловаться бертскором?

bulatovv · 2024-09-10T14:37:16Z

Проверка на отклонение уже есть в src/llamator/attack_provider/util.py и русифицирована в #2

Хотя почему бы вообще не прикрутить проверку через атакующую ллм или побаловаться бертскором?

Мне кажется стоит передвинуть проверку отказа в detectors, потому что их будет больше (детекторов) и лучше не мешать их с прочими утилитами

implement ethical compiance attacks

60fcdb6

bulatovv requested review from nizamovtimur, NickoJo, maksiam and RomiconEZ September 10, 2024 13:45

nizamovtimur requested changes Sep 10, 2024

View reviewed changes

bulatovv added 2 commits September 11, 2024 14:52

add english versions of attacks

8ae0c1c

fix conflicts

16aa0c0

bulatovv requested a review from nizamovtimur September 11, 2024 10:49

bulatovv added 4 commits September 11, 2024 15:56

fix gitignore

4e32aac

fix merge conflict

f9bc034

run linters

37260f5

remove redundant line from gitignore

d4c4e8b

nizamovtimur approved these changes Sep 11, 2024

View reviewed changes

nizamovtimur merged commit d866b16 into main Sep 11, 2024
0 of 3 checks passed

NickoJo approved these changes Sep 11, 2024

View reviewed changes

nizamovtimur deleted the ethical-compliance branch September 11, 2024 11:30

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Реализация атак на соответсвие этическим нормам #4

Реализация атак на соответсвие этическим нормам #4

bulatovv commented Sep 10, 2024

github-actions bot commented Sep 10, 2024

nizamovtimur left a comment

bulatovv commented Sep 10, 2024 •

edited

Loading

Реализация атак на соответсвие этическим нормам #4

Реализация атак на соответсвие этическим нормам #4

Conversation

bulatovv commented Sep 10, 2024

github-actions bot commented Sep 10, 2024

Code Coverage Summary

Diff against main

nizamovtimur left a comment

Choose a reason for hiding this comment

bulatovv commented Sep 10, 2024 • edited Loading

bulatovv commented Sep 10, 2024 •

edited

Loading