语音芯片、语音IC、Voice IC、Music IC和语音应用

格式

固定的语音可录音放音支持数字音乐文件的语音识别

从前端采集到末端输出

前端是AD采集，末端可以采用DA还原，但是PWM用的比较多，PWM通过调节占空比，变相地改变了电压；PWM输出后须通过低通滤波器滤波，才能还原成人耳能识别的声音

发声机构

蜂鸣器或喇叭

声音的数字存储和还原

wav mp3 wma格式语音IC

音乐IC、和弦芯片

{固定声音的，提示音，特殊效果可存多首，然后选择播放哪一首有一次性编程的，有可多次的 }

主要应用领域：

玩具对讲智能家居

录音、放音

AD采集，PWM

数字音乐，编码解码 Corder +Decoder=Codec 编解码

MP3 WMA

认识语音芯片

是这样一种器件，它将语音信号通过采样转化为数字，存储在IC的ROM中，再通过电路将ROM中的数字还原成语音信号。录音芯片是完成AD和DA完整的过程，包括语音数据的采集、分析、压缩、存储、播放等步骤。非录音的普通放音功能的语音芯片实质上是一个DAC过程，而ADC过程资料是由电脑完成，其中包括对语音信号的采样、压缩、EQ等处理。

音质：

音质的优劣取决于ADC和DAC位数的多少。例如，华邦的W90P710系列，ADC和DAC均为32bit,接近真人音质。HELIOS公司的H224QP系列与九齐的NY3\NY5系列，ADC和DAC均为16bit，接近CD音质。SUNLINK公司的SLP300系列与佑华的AMEFB系列的DAC为8bit，为普通音质。、位数（n）、波特率（T）每秒钟采样的位数(bit)，波特率直接决定音质根据奈奎斯特抽样定理（Nyquist Law），要从抽样信号中无失真地恢复原信号，抽样频率应大于2倍信号最高频率。嗓音的频带宽度为20～20K HZ左右，普通的声音大概在3KHZ以下。所以，一般CD取的音质为44.1K和16bit，如果碰到某些特别的声音，如乐器，音质也有用48K和24bit的情况，但不是主流。一般在我们处理针对普通语音IC的时候，采样率最高达到16K就够了、说话声一般取8K（如电话音质）、6K左右。低于6K效果比较差。

压缩：

由于语音数据量庞大，对语音数据进行有效压缩是很必要的，能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式：语音分段：将语音中可以重复的部分截取出来，通过排列组合将内容完整地回放出来。语音采样：一般我们使用的喇叭频响曲线在中频部分，较少用到高频，所以，在喇叭音质可以接受的情况下，适当降低采样频率，达到压缩效果，这种过程是不可逆的，无法恢复原貌，叫有损压缩。数学压缩：主要是针对采样位数进行压缩，这种方式也是有损压缩。例如，我们经常采用的ADPCM压缩格式，是将语音数据从16bit压缩到4bit，压缩率是4倍。MP3是对数据流进行压缩，涉及到数据预测问题，它的波特率压缩倍率为10倍左右。通常，以上几种压缩方式都是综合起来使用的。

常用语音格式

PCM格式： Pulse Code Modulation 脉冲编码调制，它将声音模拟信号采样后得到量化后的语音数据，是最基本最原始的一种语音格式。同它极为类似的还有RAW格式和SND格式。它们都是纯语音格式。 WAV格式：Wave Audio Files 是微软公司开发的一种声音文件格式，也叫波形声音文件，被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，但WAV格式对存储空间需求太大不便于交流和传播。WAV文件里面存放的每一块数据都有自己独立的标识，通过这些标识可以告诉用户究竟这是什么数据，这些数据包括采样频率和位数，单声道(mono)还是立体声(stero)等。 ADPCM格式：是利用对过去的几个抽样值来预测当前输入的样值，并使其具有自适应的预测功能与实际检测值进行比较，随时对测得的差值自动进行量化级差的处理，使之始终保持与信号同步变化。它适用于语音变化率适中的情况，而且声音回放过程简短。它的优点是对于人声的处理比较逼真，一般达到90％以上，已广泛地应用于电话通信领域。 MP3格式： Moving Picture Experts Group Audio Layer III，简称为MP3。它是利用 MPEG Audio Layer 3 的技术，采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的mp3文件，并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是vbr（Variant Bitrate 可变波特率）可以根据编码的内容动态地选择合适的波特率，因此编码的结果是在保证了音质的同时又照顾了文件的大小。 mp3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。 Linear Scale格式：根据声音的变化率大小，把声音分成若干段，对每段用线性比例进行压缩，但是它的比例是可变的。SUNLINK公司和ALPHA公司的Linear Scale格式为5bit。 Logpcm格式：基本上对整个声音进行线性压缩，将最后若干位去掉。这种压缩方式在硬件上很容易实现，但音质比Linear Scale差一些，特别是音量较小声音比较细腻的情况下效果较差。主要用于pure speech方面。 MID格式：MIDI(Musical Instrument Digital Interface)乐器数字接口，是20 世纪80 年代初为解决电声乐器之间的通信问题而提出的。MIDI 传输的不是声音信号, 而是音符、控制参数等指令。

音乐的通道与音色：

包络（envelope）方波(patch) 通道（channel）包络：合成音色的一部分，单位时间内音符输出的变化，常见有“ADSR” 方波：合成音色的一部分，单位时间内音符方波电流的变化。（另见三角波等）通道：在同一时间内，芯片输出的音符个数，即“单音乐器”的个数。 PCT：模拟音色的一种，通过采样256个点的乐器声音来模拟出各个音符的音高。(音色柔和，占空间小，但不够真实) FULL WAVE：通过采集一种乐器声音来模拟各个音符音高。（乐器声真实，但占用空间大，且采集音色音质要求高）语音ROM空间的表述语音芯片为表述的形象化，由语音长度来表示 a)普通语音芯片以6K采样率为语音长度计算标准。 b)录音IC以4K采样率为语音长度计算标准。即：以6k（4k）采样率芯片可以播放的长度。

ISD和模拟存储技术

ISD系列语音电路是美国ISD（Information Storage DevICe）公司的专利新产品，它打破了传统的先A/D再D/A的模式，而采用独特的直接存储模拟信号技术，从而大大提高了存储密度，且使模拟信号得到永久保存。ISD系列电路以其音质自然、使用方便、单片存储、反复录放、低功耗、抗断电等众多优点立即在语音应用领域确立了其不可争辩的霸主地位，它在通讯设备、智能仪表、治安报警、语音报站、报数报价、语音讲解、语音记录、语音复读、教学仪器、智能玩具、电子礼品等场合获得了广泛的应用。 SD系列单片语音录放电路中，目前使用最广泛的是ISD1420、ISD2560/90/120、ISD4002/4003/4004三大类芯片，大多数的应用系统或OEM都是由它们构成的 ISD和winbond/nuvoton是什么关系？nuvoton的ISD产品线？

参数与选型

工作电压存储时间比如10s 采样频率比如6.4Khz 采样率（f）每秒采样的个数最大段数比如80 600 控制方式比如SPI串行

电路连接

MIC输入放音部分放大喇叭 CPU SPI 语音芯片及其应用关键词：语音芯片定义：将语音信号通过采样转化为数字，存储在IC的ROM中，再通过电路将ROM中的数字还原成语音信号。　　普通语音芯片放音功能实质上是一个DAC过程，而ADC过程资料是由电脑完成，其中包括对语音信号的采样、压缩、EQ等处理。　　录音芯片包括ADC和DAC两个过程，都是由芯片本身完成的，包括语音数据的采集、分析、压缩、存储、播放等步骤。语音芯片根据集成电路类型来分,凡是与声音有关系的集成电路被统称为语音芯片(Voice IC),但是在语音芯片的大类型中,又被分为语音IC(Speech IC),音乐IC(Music IC)两种. 语音OTP：OTP（One Time Programe），意思是一次性编程，即声音一旦烧写入IC，将不可更改，其优势是：不需光罩费，交货周期短，下单数量不限，批次产品声音修改灵活。声音可分多段，PWM输出声音直推喇叭。可单片机串行控制放音,这种语音芯片价格相对便宜。语音MTP：MTP（Multi Time Programe），意思是多次编程，即声音具有多次重复烧写的功能其优势是：不需光罩费，交货周期短，下单数量不限，产品声音修改灵活。语音可分多段，PWM输出声音直推喇叭。可单片机串行控制放音。但需外挂FLASH ROM.电路复杂,成本高.只适合于声音时间要求长,数量不多,不能做MASK(掩膜)的产品. 语音MASK(掩膜):即语音IC公司利用光刻技术直接将声音固化到IC内.其特点，交货周期长一般在一个月左右,有最低起定量(MOQ)和光罩费用.用量到一定时光罩费可退。但价格上极具优势,可实现复杂功能,一般而言，量大功能复杂首先会考虑掩膜。关于语音IC的PWM和DAC两种声音输出方式: PWM是Pulse Width Modulation(脉冲宽度调制),DAC是Digital to Analog Converter(数模转换器),PWM输出可直接接喇叭,DAC输出要先经过放大电路，再接喇叭语音芯片采样率:是指单位时间内的声音信息量.语音芯片的时间长度，都是在6KHZ采样下，采用ADPCM压缩方式可以存储的秒数，这也是行业标准。如20秒母体，就是指6KHZ，可以放入20秒的声音。语音芯片在有限的采样率下如何做到很好的音质这就要靠优秀的语音编辑师才可以实现了. 采样频率与音质的关系

音质

频率范围/Hz

采样频率/kHz

电话音质

200Hz~3400Hz

短波段收音机音质

50Hz~7kHz

11．025

FM收音机音质

20Hz~15kHz

22．05

CD音质

10Hz~20kHz

44．1

语音芯片分段:即语音芯片在单片机控制时可以在不同的芯片地址内存放不同声音段声音长度不限但不能大于总时间，方便单片机组合成不同的声音. 性能音质的优劣取决于ADC和DAC位数的多少。例如，华邦的W90P710系列，ADC和DAC均为32bit,接近真人音质。HELIOS公司的H224QP系列与九齐的NY3\NY5系列，ADC和DAC均为16bit，接近CD音质。SUNLINK公司的SLP300系列与佑华的AMEFB系列的DAC为8bit，为普通音质。能否完整地介绍一下语音系列的产品，不同的品牌 Trademark之间的关系 Nuvoton voice ISD ISD直接存储模拟信号，打破了AD DA转换 chipcorder ISD ChipCorder? Voice CODEC emPowerAudio PowerSpeech Family ISD5100 SERIES 1 TO 16 MINUTES DURATION VOICE RECORD/PLAYBACK DEVICES 如何烧录给客户产品的介绍，开发的工具与人为善类型：固定声音录放音播放从十几秒到几分钟的都有应用语音的应用领域其实很广泛，只要涉及语音提示的地方，是一种人性化的交互方式包括消费电子家电工业通讯医疗器械汽车电子等很多领域有声挂图推儿童教育产品儿童玩具血糖仪提示音系统构成输入直接是声音输出也是声音和CPU是SPI接口 CPU系统本身其他构成：按键显示语音烧录如何烧录引脚： ‘REC录音电平触发 ‘PLAY 电平触发 MIC输入 SP+ SP-直接驱动喇叭 1w，如果需要大于1w，需要另外接放大地址线选择片段录音LED 采样速率 8K 6.4K 可保存100年，重复10万次

乐为studio

乐而为之

格式