---desc: AI华佗是一款基于文心一言极速版基座的模型,专注于根据患者通过自然语言清晰描述的症状进行初步诊断,并为患者提供科室建议。通过人机界面的方式,用户可以通过对话框或结合语音输入与模型进行交互,以获取个性化的医疗建议,提前对病情做预判,找到正确的诊断科室。 support_training: 0 tasks:- 任务型对话 scenarios:- 其他 license: other tags:- 医疗- 导诊 base_model: aistudio/ERNIE-Bot-turbo dev_type:- notebook deploy_type:- hosted_api---#### Clone with HTTP在个人中心->模型->我的模型,查询访问令牌。可以通过令牌进行git仓库的使用。```bash git clone http://git.aistudio.baidu.com/257260/ERNIE-Bot-turbo_FT0_medical_231204.git```[TOC]## AI华佗 介绍AI华佗是一款基于文心一言极速版基座的模型,专注于根据患者通过自然语言清晰描述的症状进行初步诊断,并为患者提供科室建议。通过人机界面的方式,用户可以通过对话框或语音输入与模型进行交互,以获取个性化的医疗建议。## 模型描述AI华佗采用了文心一言极速版基座,该基座以轻量级的方式提供强大的自然语言处理能力。微调数据来自Freedom Intelligence团队的Huatuo26M-Lite数据集,其中包含了丰富的医疗领域文本,使得模型能够更好地理解与医学相关的描述和问题。模型结构基于文心一言极速版,经过微调后,能够根据用户通过自然语言描述的症状生成初步诊断,并智能推荐患者就诊的科室。## 期望模型使用方式以及适用范围### 目标使用场景AI华佗适用于以下场景:- 用户通过对话框或语音输入清晰地描述症状,希望获得初步诊断和就医建议。- 用户不确定应该去哪个科室就诊,希望模型提供科室推荐。### 如何使用通过人机界面与AI华佗进行交互非常简单。用户可以在对话框中或通过语音输入方式提供症状描述。以下是一个简单的使用示例:1. 用户:你好,我最近感觉头痛、乏力,有点发热,怀疑是感冒。2. AI华佗:你好!根据你的描述,可能是感冒引起的。我建议你去内科就诊。是否还有其他症状需要补充?用户可以通过连续的对话获取更详细的诊断信息,并根据建议决定是否就医。模型支持多轮对话,以更好地满足用户需求。请确保通过人机界面与AIHuatuo模型进行交互,并替换与模型交互的代码为您的实际使用情况。## 模型局限性以及可能的偏差### 适用场景AI华佗在清晰描述症状且用户提供足够信息的情况下,能够提供可靠的初步诊断和科室建议。适用场景包括但不限于用户感觉不适,希望获取初步医疗建议的情况。### 模型局限性1. **依赖于用户提供的信息:** 模型的准确性受限于用户提供的症状描述。如果用户未能提供足够清晰或详细的描述,模型可能无法提供准确的诊断。2. **仅供参考:** AI华佗提供的诊断仅供参考,不能替代专业医生的确诊。用户在获取初步建议后仍需咨询医生以获得准确的医学诊断。3. **数据偏向性:** 模型的训练数据来自Huatuo26M-Lite数据集,因此在医学领域的特定主题或疾病上可能存在偏向性。模型对新兴或少见病症的理解可能较为有限。### 训练过程可能的偏差1. **数据不平衡:** 如果训练数据中某些症状或疾病的样本量较小,模型可能在这些方面的表现相对较差。2. **语言表达差异:** 模型在处理不同地区、不同文化或语境中的症状描述时,可能受到语言表达差异的影响,导致理解偏差。3. **技术限制:** 模型在构造过程中所使用的自然语言处理技术可能受到技术限制,无法完全捕捉语言的多样性和复杂性。用户在使用AI华佗时,应当理解模型的局限性,并在需要精确医学建议时咨询专业医生。## 训练数据介绍### 数据来源AI华佗的训练数据来自[FreedomIntelligence/Huatuo26M-Lite](https://huggingface.co/datasets/FreedomIntelligence/Huatuo26M-Lite/tree/main)数据集。该数据集由Freedom Intelligence团队收集并整理,包含了丰富的医学文本,涵盖了疾病症状、诊断、治疗等方面的信息。数据的多样性和广泛性有助于模型更好地理解医学领域的复杂语境。### 数据组织训练数据以文本格式组织,其中包含了患者对症状、疾病或就医问题的描述,以及对应的初步诊断和推荐科室信息。每个样本都经过人工标注,确保了数据的质量和准确性。以下是数据集中一个样本的示例:```json{ 'id': 22647835, 'answer':'治疗鼻中隔偏曲的方法有手术和非手术治疗两种,手术治疗是通过手术矫正鼻中隔偏曲,非手术 治疗则是通过药物治疗和物理治疗来缓解症状。 手术治疗是治疗鼻中隔偏曲的最有效方法,手术 后需要注意休息,避免剧烈运动和低头工作,同 时也要注意饮食,少吃辛辣食物和不喝酒。手术 后两周内鼻涕或痰中出现血水或血块是正常现象 ,若出现大量出血、发烧、剧烈疼痛时请尽速就 医。', 'score': 5, 'label': '眼耳鼻喉科', 'question':'上个月感冒了,也没有用药,感冒好了以后就觉得鼻子经常不通畅,鼻子还经常晦气红皮、发痒 、而且还会有头晕,一直都以为是上次感冒留下 的后遗症,去医院检查,检查结果出来以后说是 鼻中隔偏曲。请问如何治疗鼻中隔偏曲?', 'related_diseases': '鼻中隔偏曲' }```### 数据处理```pythonimport jsonimport random# 读取format_data.jsonl文件的随机不重复的n行n = 11000new_data_list = []with open('format_data.jsonl', 'r', encoding='utf-8') as f: lines = f.readlines() random_lines = random.sample(lines, n) for line in random_lines: data = json.loads(line) src = data['question'] ans = data['answer'] tgt = f"{ans} \n# 诊断病症:{data['related_diseases']}\n# 建议科室:{data['label']}" new_data = {'src': src, 'tgt': tgt} new_data_list.append(new_data)# 把new_data_list写入到format_data.txt文件中with open('format_data.txt', 'w', encoding='utf-8') as f: for data in new_data_list: f.write(json.dumps(data, ensure_ascii=False) + '\n')```### 模型训练流程基于文心一言极速版进行微调