2014年10月

arm的flash还是那么个老大难的问题

乌云换来个cubieboard3,本想这个东西性能比树莓派高多了,终于有心情折腾折腾桌面了,这样早上吃饭的时候,就不需要用蠢萌的电视盒子来看东西了,开bilibili多好,于是用上iceweasel之后就开始寻思着下flash插件,可是下回来以后,iceweasel死活就是不认,何故?查查文件在不在(为了方便管理,我用户名都改成pi了):

root@BLASTN2:/usr/lib/iceweasel/plugins# ls -al /usr/lib/mozilla/plugins/
total 17396
drwxr-xr-x 2 root root     4096 Oct 22 22:03 .
drwxr-xr-x 4 root root     4096 Jul  2  2013 ..
-rw-r--r-- 1 root root    72248 May  3  2012 gecko-mediaplayer-dvx.so
-rw-r--r-- 1 root root    72248 May  3  2012 gecko-mediaplayer-qt.so
-rw-r--r-- 1 root root    72248 May  3  2012 gecko-mediaplayer-rm.so
-rw-r--r-- 1 root root    72248 May  3  2012 gecko-mediaplayer.so
-rw-r--r-- 1 root root    72248 May  3  2012 gecko-mediaplayer-wmp.so
-rw-r--r-- 1 root root 17426852 Oct 22 22:03 libflashplayer.so
-rw-r--r-- 1 root root     5492 Jul 28  2012 librhythmbox-itms-detection-plugin.so

查了下其他插件,确实也就在这一个地儿了

root@BLASTN2:/usr/lib/iceweasel/plugins# find / -name gecko-mediaplayer-*
/usr/lib/mozilla/plugins/gecko-mediaplayer-qt.so
/usr/lib/mozilla/plugins/gecko-mediaplayer-dvx.so
/usr/lib/mozilla/plugins/gecko-mediaplayer-rm.so
/usr/lib/mozilla/plugins/gecko-mediaplayer-wmp.so

还是不双击打开它,直接terminal里面运行算了

root@BLASTN2:/usr/lib/iceweasel/plugins# iceweasel
LoadPlugin: failed to initialize shared library /root/.mozilla/plugins/libflashplayer.so [/root/.mozilla/plugins/libflashplayer.so: cannot open shared object file: No such file or directory]
LoadPlugin: failed to initialize shared library /usr/lib/mozilla/plugins/libflashplayer.so [/usr/lib/mozilla/plugins/libflashplayer.so: cannot open shared object file: No such file or directory]

** (iceweasel:7420): WARNING **: The connection is closed

** (iceweasel:7420): WARNING **: The connection is closed

结果比较蛋疼,你tm在逗我?我文件好端端的放在你说的目录里面了,不过No such file or directory纯粹是在扯,真实原因是:

pi@BLASTN2:~$ file /usr/lib/iceweasel/iceweasel
/usr/lib/iceweasel/iceweasel: ELF 32-bit LSB executable, ARM, version 1 (SYSV), dynamically linked (uses shared libs), for GNU/Linux 2.6.26, BuildID[sha1]=0x77328e6ff7d090e25316bf43572429498166a376, stripped
pi@BLASTN2:~$ file /usr/lib/mozilla/plugins/libflashplayer.so
/usr/lib/mozilla/plugins/libflashplayer.so: ELF 32-bit LSB shared object, Intel 80386, version 1 (SYSV), dynamically linked, stripped
pi@BLASTN2:~$ 

好吧,查来查去,只有德仪提供了arm 的flash,http://www.ti.com.cn/tool/cn/adobeflash-a8,看介绍说只支持部分型号的Ti,死心了。

XVID整数下溢问题分析

先埋坑,旧的那些IE的坑填完了再写这篇好了。

漏洞作者:blast
来源:http://nul.pw/

0:012> g
(2e40.2d4c): Access violation - code c0000005 (!!! second chance !!!)
*** ERROR: Symbol file could not be found. Defaulted to export symbols for F:\Windows\system32\xvidcore.dll -


xvid是一种规范的编码格式,它属于mpeg4 part 2规范。那开源的xvid解析器在解析所有的mp4时都是正确的吗?显然不是,看看这一个例子吧。

xvidcore在解析一个畸形的mp4文件时,处理vop可能发生整数下溢。vop可以极为简化的理解为帧,当然两者还是有区别的。一个vop的结构看起来像是:

vop_start_code (32 bits - 0x000001B6)
vop_coding_type (2 bits - 0=I, 1=P, 2=B, 3=S)
modulo_time_base (length varies)
marker_bit (1 bit - always 1)
vop_time_increment (length varies)
marker_bit (1 bit - always 1)
vop_coded (1 bit - 0 for NVOPs, 1 otherwise)

0x000001b6 是mpeg4 , part 2 规定的startcode。

在AVS流中,start code是一个特殊的bit形式,每组start code都有start code prefix和start code value。start code prefix是由23个0位和1个1位组成,也即0x00 00 01。所有的start code都是按字节对齐的。

0x000001b6是pb_picture_start_code,这代表了一个P图或者B图的开始。前导帧间预测(P图)和双向帧间预测(B图)由一个2位无符号字符表示,01==P图,02==B图。

一个NAL单元结构如下:

1bit     2bits           5bits            payload information
|-----|----------|-------------------|-----------------
  FZB     NRI                NUT             RBSP
^---------------header---------------^

forbidden-zero-bit
NAL-ref-ide
NAL-unit-type

NAL是网络抽象层的缩写,这个东西主要是为了向网络友好的环境传输数据用的。要把AVS视频流映射成NAL单元,只要把每个0x000001的数据映射到NAL单元中,然后在start code之前增加一个1字节的NAL单元头即可。

如果对这个有兴趣的话,可以参考一下这本书:

http://books.google.com.hk/books?id=6wfGBAAAQBAJ&pg=PA71&lpg=PA71&dq=0x000001b6&source=bl&ots=ZKA_0DM5aF&sig=WJo619-gGY188gxxDUKaX4z0HJI&hl=zh-CN&sa=X&ei=kUpsVO6wFISlmQXl5oDoDw&ved=0CDMQ6AEwAzgK#v=onepage&q=0x000001b6&f=false

Internet Explorer 完全解析[A1] : Markup Services的自我介绍

Markup服务是一组可以允许你操作HTML文档内容的对象和接口。 本文将介绍这些对象和接口。

标签(tags)、元素 (elements)
首先,在此引入一些概念帮助理解Markup服务。 第一个概念就是html tag(标签)和它在浏览器里面对应的表现形式,也就是我们所知的element(元素)。

查看HTML内容时,区分标签和元素是很重要的。HTML内容包含各种标签,例如<B>。 这个标签会指定文档(document)的文本的一个表达形式(加粗)。当浏览器访问一个页面时,HTML解析器会读取文件内容,并且从tag中解析生成element。这些就是可以作为一个被编程修改的对象的元素。当然,这也是Markup服务可以操作的元素。

例如,一个HTML文件可能有如下内容:

<P>First<P>Second

当浏览器的解析器读取这个文本时,内部的元素配置会让文档的形式变为类似这样的:(当然,有时候也可以称作标准化,主要是我习惯这么称呼)

<HTML><HEAD><TITLE></TITLE></HEAD><BODY>
<P>First</P><P>Second</P></BODY></HTML>

或者可以说,解析器将HTML内容转为了元素。在这个过程中,为了内容完整,有一些原始文档没有的内容加进去了,例如html、head、title、body会自动的被解析器构造出来。同时,解析器遇到第二个p(段落)的时候,会自动的把第一个p给封闭起来。尽管你的文件没有封闭p标签,但是IE将会自动的给每个元素都加上封闭标签。还有必要但是你没有写入的标签,比如<html>、<body>,都会自动的被IE添加上,当然,他们的封闭标签也会被加上。

第二个需要注意的概念是tree和stream(树、流)的区别,比如:

My <B>dog</B> has fleas.

这里有“My dog has fleas”和一对b标签,在这个例子中,可以被转化为如下的树。text被当为树叶,element被作为内节点。

           ROOT
            |
      +-----+------+
      |     |      |
     "My"   B  "has fleas."
            |
          "dog"

通过把文档转为tree,所有的操作都会变为类似对树的操作,例如增删孩子节点。提供此类操作的API被称为Tree Services。

当然,自IE4.0之后,元素的模型操作比简单的树更强悍,比如这个例子:

Where do <B>you <I>want to</B> go</I> today?

B、I的范围互相交叉,这是一个部分互相交叉元素的例子,但是在HTML里面却很常见。因此,Markup Services不提供类似树的操作,而是为内容的控制暴露了一个基于流操作的模型。因此,Markup Service实际上是用来避免产生这种模型层间的疑惑的,因为这个时候,浏览器便不再使用Tree Service,而是使用Markup Service来控制基于流操作的模型。

基于树的模型中,网页内容被当作树的节点来处理,每个元素,或者一块Text都是一个节点。节点通过这种类似对树的操作方式来操作,例如从父节点中增删一个子节点。

基于流的模型的内容操作方式中,比如现在说的这种通过Markup Service来操作的,文档的内容会通过使用类似迭代器的对象来操作。 比如使用Markup Pointer,然后文档的内容则通过类似Range的操作来控制。 这个就像是在处理上面Where do <B>you <I>want to</B> go</I> today?的例子一样,这些带有部分重叠的元素通过两个Markup Pointer来区分,每个Markup Pointer指定着Tag从哪儿开始,Tag到哪儿结束。基于流的模型是基于树的模型的一个超集。

f1.png
图: elment overlapping

有效和无效的文档
另一个让Markup Service更加容易理解的概念就是创建和操作无效文档的过程。

注意之前“My dog has fleas”的例子都可能不会被认为是一个有效的HTML文档。如果把它拷贝到文件中,然后在浏览器中打开的话,浏览器的解析器有可能会生成一些完全不一样的文档内容。例如,Internet Explorer解析器可能将这个文档解析成这样:

<HTML><HEAD><TITLE></TITLE></HEAD>
<BODY>My <B>dog</B> has fleas.</BODY></HTML>

解析器会试图读取一个指定的输入,然后通过它生成一个有效的HTML文档。最简单的有效HTML文档至少要有html、head、title和body四个元素。当你提供的内容中没有这些元素时,解析器会自动为你建立这些,然后把它们放到合适的位置上。

在文档解析完成甚至是还没解析完成的时候,你都可以使用Markup Service来用任意方法删除或者重新排列文档内容。例如,你可以整块删除html和/或body元素。你可以将head放到body里面,但是这些样子的文档都会被认为是无效文档。

上面这些描绘出来了基本的Marup Service的概念,现在可以更进一步的看一下Markup Service的接口了。最好的入手点当然是IMarkupService接口。这个接口是所有的Markup Service的初始点,例如IMarkupContainer和IMarkupPointer也不例外。IMarkupService界面也包含了所有的可以修改文档中的元素的方法。

你可以通过QueryInterface来指定IID_IMarkupService来获取IMarkupServices。

MarkupContainer
元素可以不通过IMarkupContainer的上下文来创建,但是如果需要将元素和文本互相关联起来的话,IMarkupContainer还是必须要用的。

下面的例子将介绍如何使用IMarkupServices::CreateMarkupContainer从IMarkupServices中创建一个IMarkupContainer。

HRESULT CreateMarkupContainer(
    IMarkupContainer **ppContainer
);

最开始,新创建的IMarkupContainer不会包含有任何的Markup。而且,也不会有html、head、body元素。所以,IMarkupContainer的最初状态不是像是由解析器解析一个空文件的时候的样子(解析空文件的时候就会自动产生上述元素)。

正常情况下,IMarkupContainer用来存储等待加入主IMarkupContainer的元素。主IMarkupContainer是一个浏览器用来承载HTML解析之后内容的东西。你可以通过在一个HTML文档上执行QueryInterface IID_IMarkupContainer操作来获取主IMarkupContainer。 例如你可以从IID_IMarkupContainer获取IHTMLDocument2接口。

MarkupPointer
IMarkupPointer不是IMarkupContainer(这个就是一个文档)的内容的某一部分。使用IMarkupPointer的主要目的是指定文档中的某个特定位置。比如下面这个例子:

My <B>d[p1]og</B> has fleas.

p1指针表示IMarkupPointer的位置,尽管p1指在d和o之间,但是这个并不是说这里有任何其他的看不见的文字在文档里面,或者例子里面这个内容已经被修改了。文档里面可以存在任意多个指针,这些指针和文档是独立的,也就是说根本不需要也不会修改文档。

Markup指针被放在了文档内容中间的某个地方,这些地方可以是:1、一个元素开始生效的区域(作用域开始);2、一个元素中止生效的区域;3、文本。因此,Markup指针更像是编辑器里面的脱字符(| ,或者通俗的叫光标,一闪一闪的这个东西)。因为Markup指针自己并不是文档内容,如果他们指向HTML内容中的同样的位置,这样他们也是不能互相区分开的。也就是说,如果两个Markup指针都指到一个地方,要区分哪个是左,哪个是右是不可能的。只能说,他们都指在了内容的同一个地点上。

你可以通过 IMarkupServices::CreateMarkupPointer 方法来创建一个Markup指针。

HRESULT CreateMarkupPointer(
    IMarkupPointer **ppPointer
);

定位Markup指针
当一个Markup指针被创建的时候,它将处于一个特殊的状态——未指向状态,意思就是它事实上没指向任何内容。你可以使用这三个方法来把一个Markup指针放到一个Markup上。

IMarkupPointer::MoveAdjacentToElement
IMarkupPointer::MoveToContainer
IMarkupPointer::MoveToPointer

IMarkupPointer::MoveAdjacentToElement方法接收2个参数, 一个IHTMLElement和一个枚举量,指定要放置指针的那个元素的相对偏移。这个枚举量有以下4个值。

HRESULT MoveAdjacentToElement(
    IHTMLElement *elementTarget,
    ELEMENT_ADJACENCY
);

    enum ELEMENT_ADJACENCY {
         ELEMENT_ADJ_BeforeBegin
         ELEMENT_ADJ_AfterBegin
         ELEMENT_ADJ_BeforeEnd
         ELEMENT_ADJ_AfterEnd
    };

因此,把p1放到b结束前(ELEMENT_ADJ_BeforeEnd)的话,差不多就是这个结果:

My <B>dog[p1]</B> has fleas.

现在考虑如下例子:

a<B>[p1]<I>b</I></B>c

p1现在可以说是放在b刚开始的地方,或者放在i开始之前。这两个描述方式都对,所以Markup指针放置的位置指定方式是多种多样的。

另一个方式来放置一个Markup指针的方式是使用 IMarkupPointer::MoveToContainer 方式。这个方法会把一个IMarkupContainer接口和一个决定指针位置是在IMarkupContainer开始还是结束地方的布尔值常量。

HRESULT MoveToContainer(
    IMarkupContainer *containerTarget,
    BOOL fAtStart
);

因此,你可以把一个指针放在一个文档的最边缘处,例如

[p1]<HTML><BODY>a<B><I>b</I></B>c</BODY></HTML>[p2]

p1在最左,而p2是最右。第三个方式是使用IMarkupPointer::MoveToPointer把一个指针移动到另一个已经定位过的IMarkupPointer的位置上。

HRESULT MoveToPointer(
    IMarkupPointer *pointerTarget
);

通常,IMarkupPointer::MoveToPointer在一个指针用来检查环绕元素时用来记录这个指针指向的位置。

比较指针位置
可以通过IMarkupPointer提供的一组函数来比较两个Markup指针的相对位置,函数列举如下:

HRESULT IsEqualTo(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsLeftOf(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsLeftOfOrEqualTo(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsRightOf(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

HRESULT IsRightOfOrEqualTo(
    IMarkupPointer *compareTo,
    BOOL *fResult
);

因此,当你像知道p1是否与p2不等,而且在p2的左边的时候,就可以这么用:

BOOL fResult;
IMarkupPointer * pointer 1, * pointer 2;

..

[p1]->IsLeftOf( pointer2, & fResult );

if (fResult)
{
    // [p1] is to the left of pointer2
}

导向指针
当一个IMarkupPointer指针被放置在一个IMarkupContainer中时,你可以使用它来检查环绕内容,并且/或者将它移动到那个内容之外。 IMarkupPointer::Left、 IMarkupPointer::Right两个方法可以做到这个。

HRESULT Left(
    BOOL fMove,
    MARKUP_CONTEXT_TYPE pContextType,
    IHTMLElement **ppElement,
    long *plCch,
    OLE_CHAR *pch
);

HRESULT Right(
    BOOL fMove,
    MARKUP_CONTEXT_TYPE pContextType,
    IHTMLElement **ppElement,
    long *plCch,
    OLE_CHAR *pch
);

除了第一个参数之外都是可选的,fMove参数控制着指针是否穿过环绕的内容。如果它的值是FALSE,指针不会移动,这里代表着环绕的内容。如果是TRUE,这里不仅会描述环绕的内容,还会把指针从这个环绕内容上移动过去。

也就是说,如果你想知道一个指针的左边是什么,尽管调用 IMarkupPointer::Left 就可以了。右边也是,换成Right即可。 pContextType参数返回挨着Pointer后面的内容。

以下是可选的内容类型:

CONTEXT_TYPE_None 指针左边或者右边没有内容,这个仅当指针指向IMarkupContainer最左或者最右的时候会用到。
CONTEXT_TYPE_Text 给定方向上的内容是文本。
CONTEXT_TYPE_EnterScope 给定方向上的元素正在进入一个区域(scope)。也就是说,如果向左看是一个终止tag(带/的tag),向右看是一个起始tag。
CONTEXT_TYPE_ExitScope 在给定方向上,一个元素即将离开一个区域。也即,向左看的时候是一个起始tag,而朝右看是一个终止tag。
CONTEXT_TYPE_NoScope 给定的选区中有一个无区域元素,你不能用IMarkupPointer指向这类元素,例如br。

如果ppElement参数是非NULL的话,那么上下文的类型就是EnterScope、ExitScope、NoScope中的一种,ppElement参数会返回进入、退出、无scope的元素。

如果上下文是Text,pCch和pch参数就是有意义的。pCch参数提供这三个主要作用:

  • 它限制了IMarkupPointer::Left或者Right会查询的字数。
  • 它限制了给出方向上应该有多少文本实际存在。
  • 它描述了pch参数会指向多大的缓冲区(如果它指向的内容是非空的话)

pCch参数可以是NULL,或者-1 。这两个值表示 IMarkupPointer::Left 或者 IMarkupPointer::Right应该查询任意数量的文字,直到找到下一个无scope的元素或者找到某个元素的scope位置。

IMarkupPointer::Left 和 IMarkupPointer::Right两个方法提供了遍历文档的功能。要确定IMarkupPointer挡墙指着哪儿,使用如下IMarkupPointer::CurrentScope方法:

HRESULT CurrentScope(
    IHTMLElement **ppElementCurrent
);

[p1]Where [p2]<I>do </I>[p3]<B>you <BR>[p4]want</B> to go today[p5]?

比如上面的"Where do you want to go today?"例子, p1使用IMarkupPointer::CurrentScope的话,获取的值是NULL,因为它的左边没有任何未结束的起始tag。 而p4则是<B> tag。注意br是一个无scope类型的tag。

指针重力
一般地,当一个文档被修改之后,文档中之前的那些指针还是停在操作发生之前的位置,比如下面这个有2个指针插入的文档:

abc[p1]defg[p2]hij

现在文档内容发生了变化,XYZ插入了e和f之间,现在文档的内容如下:

abc[p1]deXYZfg[p2]hij

注意p1和p2还是指向操作前的同样的文本。比如下面的例子:

x[p1]y

现在考虑一下,如果Z插在了x、y中间是什么情况。记住指针并不会成为内容的一部分,因此x、y是互相挨着的。在插入之后,有可能有如下两个情况:

x[p1]Zy
xZ[p1]y

现在就需要有重力这个设定了。比如,通常当内容准确地插入了指针所在的位置的时候,指针的终止区域判定就会编的有歧义。通过引入重力设定,可以消除这种歧义。左重力会让指针定位到新插入的内容的左边,右重力下则是右边。

重力的不仅仅会影响到文本,还会影响到元素的插入,例如:

a[p1,right][p2,left]b

这里,p1有右重力,p2有左重力,如果b的周围插入了一个<B>标签会怎样?结果是:

a[p2,left]<B>[p1,right]b</B>

注意现在指针是如何从之前的相对位置上转换成现在的样子的。插入B时这两个指针的位置的移动方向都是有歧义的。

默认的重力是左重力,你可以通过IMarkupPointer接口的如下方法来设置IMarkupPointer的重力值。

enum POINTER_GRAVITY {
    POINTER_GRAVITY_Left,
    POINTER_GRAVITY_Right
};

HRESULT Gravity(
    POINTER_GRAVITY *pGravityOut
);

HRESULT SetGravity(
    POINTER_GRAVITY newGravity
);

指针粘滞(cling)
有如下Markup:

[p2]ab[p1]cdxy

现在考虑一下,当之前这个例子中,bc两个字被移动到x、y中间的时候,p1会发生什么?可能答案有两种:

1、 [p2]a[p1]dxbcy
2、 [p2]adxb[p1]cy

这两个例子里面,可以确定的是p2没有受到影响,因为它并不在被操作的部分附近。上面两个结果中,(1)里面的p1并没有IMarkupPointer::Cling, 而(2)则是有设置IMarkupPointer::Cling。 IMarkupPointer::Cling设置的结果导致了当一部分内容移动的时候,这个内容中间被Cling的部分也会跟着移动。不管内容移动到哪儿,有IMarkupPointer::Cling的指针都会在那块内容中。

但是,这个很有可能产生歧义。比如带有IMarkupPointer::Cling的p1:

a[p1]bcxy

如果b被移动到了x、y中间,p1是否应该跟着b走呢?因此,这里就要用到之前说的重力。如果p1有右重力,那么它会跟着b跑,如果是左重力,那么就会跟着它左边的内容,也就是a,而不会跟着b跑。

如果p1所在的内容被删除了,IMarkupPointer::Cling依然会控制指针的目标。比如下面的例子:

ab[p1]cd

如果b、c被删除了,而且p1没有IMarkupPointer::Cling, p1会继续在文档中,夹在还剩下来的,环绕着它的内容里面:

a[p1]d

如果p1有IMarkupPointer::Cling,这个时候p1就会变成未指定位置的状态,就像已经被删除一样。 (p1此时虽然被从文档里面移除removed了,但是它本身并没有被删除destroy,所以以后也可以重用。 这个设计理念导致出漏洞的话,也一样会被"重用"。)

ad

IMarkupPointer::Cling可以通过IMarkupPointer::SetCling来设置,IMarkupPointer::Cling来查询。

HRESULT Cling(
    BOOL *pClingOut
);

HRESULT SetCling(
    BOOL NewCling
);

新建元素
可以通过IMarkupService::CreateElement来创建新元素,

enum ELEMENT_TAG_ID {
    TAGTADID_A,
    TAGTADID_ACRONYM,
        ..
    TAGTADID_WBR,
    TAGTADID_XMP
};

HRESULT CreateElement(
    TAG_ID tagID,
    OLECHAR *pchAttrs,
    IHTMLElement **ppNewElement
);

例如,IMarkupServices::CreateElement ( TAGID_B, "id=anID", & pElement )将会创建一个B元素,而且IHTMLElement::id的属性会设置为anID,当然,这里的属性项是可选的。在元素建立之后也是可以设置属性的,但是在创建元素时就指定属性的话,会让Internet Explorer处理时有更高的效率。也有一些属性是只能在元素创建时指定的。

还可以通过克隆一个已经存在的元素,使用IMarkupService::Clone即可:

HRESULT CloneElement(
    IHTMLElement *pElementCloneElementMe,
         IHTMLElement **ppNewElement
);

插入一个元素
通过调用IMarkupServices::InsertElement可以插入一个元素。

HRESULT InsertElement(
    IHTMLElement *pElementInsertThis,
    IMarkupPointer *pPointerStart,
    IMarkupPointer *pPointerFinish
);

pPointerStart描述了元素从哪里开始进入一个Scope,pPointerFinish描述了元素从哪里开始离开Scope。当前正准备插入的元素必须是一个不在当前文档中的元素,而且两个指针都必须在同一个IMarkupContainer中定位。比如,假如调用IMarkupServices::InsertElement插入一个B元素,指针如下:

My [pstart]dog[pend] has fleas.

插入的结果将在文档中体现如下:

My [pstart]<B>dog[pend]</B> has fleas.

至于什么新元素可以插入到哪儿,这个倒没有什么严格限制。因此,你甚至可以插入n个BODY到文档里面,或者插入n个B到文档的head部分。但是,如果你的文档最终是要用来显示出来的话,这个状态是未定义的,而且会导致Markup Service发生变化。

删除一个元素
删除一个元素并不需要使用Markup 指针。调用IMarkupService::RemoveElement,然后传入要删除的元素就可以了。

HRESULT RemoveElement(
    IHTMLElement *pElementRemoveThis
);

要操作的元素必须要在文档里面,操作完成之后,元素就不在文档里了,因此是可以再次被插入的。

注意 要删除一个元素,然后把它插入到同一个位置上,你必须在删除之前把Markup指针插入到紧挨着这个元素区域的开始和结束位置。这个情况下,Markup指针将记录该元素在该Markup里影响到的范围。接下来Markup指针就可以被用来重新插入这个元素。当然,需要确保的是这个指针没有IMarkupPointer::Cling属性,因为它们可能在元素被移除时变成未定位的状态。

插入文本
要向Markup中插入文本,可以使用IMarkupServices::InsertText函数。

HRESULT InsertText(
    OLECHAR *pch,
    long cch,
    IMarkupPointer *pPointerTarget
);

这个函数只接收单单一个IMarkupPointer,然后把text插入到markup里面。Markup指针在插入之后的位置(包括新插入的文本的位置也是)取决于IMarkupPointer的重力属性。 cch参数可以设置为-1, 这个表示这个函数应该认为插入的文本是以NULL终止的。

另外一提,Internet Explorer中的cch大多数是指 count of char的意思。

移除内容
你可以使用IMarkupContainer::Remove来移除IMarkupContainer中一片连续区域。

HRESULT Remove(
    IMarkupPointer *pPointerSourceStart,
    IMarkupPointer *pPointerSourceFinish
);

这里提供了两个Markup指针,一个指定从哪儿开始删除,另一个指定删除区域的末尾。所有这两个指针中间的文本内容都会被删除,而且,所有完全落入这个区域的Markup都会被删除,任何起始早于Start、终止晚于End的Markup不会被删除,例如:

     <------------------- b ------------------->
 <--------- i -----------> <---------- u ----------->
a<I>b<B>c[pstart]d<S>e</I>f<U>g</S>h[pend]hi</B>j</U>kl
                  <----- s ------->         

当调用IMarkupServices::Remove之后,结果变成了:

     <------------- b ------------->
 <------- i --------><------- u -------->
a<I>b<B>c[pstart]</I><U>[pend]hi</B>j</U>kl

注意,现在s元素彻底小时了,i、u还在文档里,尽管它们的tags的一部分在移除区域的中间。元素b包含整个删除区域,因此它也是不受影响的。

替换内容
前两个例子可以用来删除和插入内容,整合这两个操作可以用来替换内容,例如:

int MarkupSvc::RemoveNReplace(
    MSHTML::IHTMLDocument2Ptr pDoc2,
    _bstr_t bstrinputfrom, _bstr_t bstrinputto)
{
    HRESULT              hr = S_OK;
    //IHTMLDocument2 *   pDoc2;
    IMarkupServices  *   pMS;
    IMarkupContainer *   pMarkup;
    IMarkupPointer   *   pPtr1, * pPtr2;
    TCHAR            *   pstrFrom = _T( bstrinputfrom );
    TCHAR            *   pstrTo = _T( bstrinputto );

    pDoc2->QueryInterface( IID_IMarkupContainer, (void **) & pMarkup );
    pDoc2->QueryInterface( IID_IMarkupServices, (void **) & pMS );

    // need two pointers for marking
    pMS->CreateMarkupPointer( & pPtr1 );
    // beginning and ending position of text.
    pMS->CreateMarkupPointer( & pPtr2 ); 

    //
    // Set gravity of this pointer so that when the replacement text
    // is inserted it will float to be after it.
    //
    pPtr1->SetGravity( POINTER_GRAVITY_Right ); // Right gravity set

    //
    // Start the search at the beginning of the primary container
    //

    pPtr1->MoveToContainer( pMarkup, TRUE );

    for ( ; ; )
    {
        hr = pPtr1->FindText( (unsigned short *) pstrFrom, 0, pPtr2, NULL );

        if (hr == S_FALSE) // did not find the text
            break;

        // found it, removing.. http://nul.pw
        pMS->Remove( pPtr1, pPtr2 );

        //inserting new text
        pMS->InsertText( (unsigned short *) pstrTo, -1, pPtr1 );
    }
    if (hr == S_FALSE) return FALSE;
    else return(TRUE);
}

移动内容
你可以通过IMarkupServices::Move方法来把一组区域内的内容移动到另一个地方。

HRESULT Move(
    IMarkupPointer *pPointerSourceStart,
    IMarkupPointer *pPointerSourceFinish,
    IMarkupPointer *pPointerTarget
);

IMarkupServices::Move接受3个Markup指针,2个用来指明要移动的原始位置,第三个指定目标地点。范围的影响可以参考IMarkupServices::Remove操作的。在Source区域内的内容将被移动到Target指定的位置。

所有被Source范围包括起来的内容都会原样移动到Target去。也就是说,这些元素的信息都会被保留。在区域外的元素不会受到影响,也不会被弄到目标地址上。但是,和区域部分重叠的内容会被克隆,它们的IMarkupService::CloneElement会被移动到Target上。因此,之前Move操作的例子中,如果这个区域改为移动的话:

X[pdest]Y

结果会是:

X[pdest]<I'>d<S>e</I'>f<U'>g</S>h</U'>Y

注意,pdest在新插入的移动的内容的左边,这是因为它有左重力。而且还有I'和U'元素,他们是原来的I、U元素的克隆。因为元素只可以存在于一个Markup中,而且必须在一个Markup中影响到一个连续的范围。但是s这个元素却不会被IMarkupService::CloneElement影响到,这是因为s元素在移动时已经被start和end两个指针完全环绕了。

注意 经常在一次移动(或者一次拷贝)之后,你会需要两个指针指向新插入的内容的左边和右边。要实现这个的话,在Move之前创建2个Markup指针,一个设置为左重力,一个设置为右重力,右重力的那个指针会指向移动/复制的内容的右边,左重力的当然是指向左边。

移动操作的目标可以在Source开始和End区域中间。

复制内容
使用IMarkupServices::Copy可以复制一个内容区域。

HRESULT Copy(
    IMarkupPointer *SourceStart,
    IMarkupPointer *SourceEnd,
    IMarkupPointer *Target
);

对目标Markup来说,Copy的影响和Move一样,不会影响到源。

参考资料
以下资料可以提供更多与组件对象模型COM的知识:

Wireshark 2 Preview n*8字节越界读取bug

此bug已提交至官方论坛,bugtrack id 10529,https://bugs.wireshark.org/bugzilla/show_bug.cgi?id=10529
漏洞作者:blast(http://nul.pw

事发此崩溃:

(14b4.1dd8): Access violation - code c0000005 (first chance)
First chance exceptions are reported before any exception handling.
This exception may be expected and handled.
*** ERROR: Symbol file could not be found.  Defaulted to export symbols for F:\Program Files\Wireshark\Qt5Core.dll - 
*** WARNING: Unable to verify checksum for qtshark.exe
*** ERROR: Module load completed but symbols could not be loaded for qtshark.exe
Qt5Core!QPersistentModelIndex::row:
00000000`5f2d5bd0 488b01          mov     rax,qword ptr [rcx] ds:baadf00d`baadf00d=????????????????

(注:上面这个崩溃是从调试器启动的,所以堆上未初始化的数据是以baadf00d这个填充模式填入的,实际运行时应该是00000000`00000000,上面是越界8字节的情况)

查看崩溃附近的代码:

0:000> ub .
Qt5Core!QPersistentModelIndex::operator!=+0x58:
00000000`5f2d5bc8 cc              int     3
00000000`5f2d5bc9 cc              int     3
00000000`5f2d5bca cc              int     3
00000000`5f2d5bcb cc              int     3
00000000`5f2d5bcc cc              int     3
00000000`5f2d5bcd cc              int     3
00000000`5f2d5bce cc              int     3
00000000`5f2d5bcf cc              int     3
0:000> u .
Qt5Core!QPersistentModelIndex::row:
00000000`5f2d5bd0 488b01          mov     rax,qword ptr [rcx]
00000000`5f2d5bd3 4885c0          test    rax,rax
00000000`5f2d5bd6 7403            je      Qt5Core!QPersistentModelIndex::row+0xb (00000000`5f2d5bdb)
00000000`5f2d5bd8 8b00            mov     eax,dword ptr [rax]
00000000`5f2d5bda c3              ret
00000000`5f2d5bdb 83c8ff          or      eax,0FFFFFFFFh
00000000`5f2d5bde c3              ret
00000000`5f2d5bdf cc              int     3

崩溃发生在Qt5Core!QPersistentModelIndex::row的第一行,函数试图将第一个参数(rcx)解引用给eax时崩溃。

0:000> .frame /c 1
01 00000000`001da420 00000000`5f8755e6 qtshark+0x90612
rax=baadf00dbaadf00d rbx=00000000001da6e8 rcx=baadf00dbaadf00d
rdx=0000000002c04e00 rsi=0000000000000014 rdi=00000000001da630
rip=000000013f820612 rsp=00000000001da420 rbp=00000000001da589
 r8=0000000000008000  r9=0000000000000008 r10=0000000000350268
r11=00000000001d9d88 r12=0000000002d3f300 r13=0000000000000003
r14=0000000002d49d30 r15=0000000002d3f300
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00010206
qtshark+0x90612:
00000001`3f820612 498b4c2448      mov     rcx,qword ptr [r12+48h] ds:00000000`02d3f348=00c4a43f01000000
0:000> dd rcx
baadf00d`baadf00d  ???????? ???????? ???????? ????????
baadf00d`baadf01d  ???????? ???????? ???????? ????????
baadf00d`baadf02d  ???????? ???????? ???????? ????????
baadf00d`baadf03d  ???????? ???????? ???????? ????????
baadf00d`baadf04d  ???????? ???????? ???????? ????????
baadf00d`baadf05d  ???????? ???????? ???????? ????????
baadf00d`baadf06d  ???????? ???????? ???????? ????????
baadf00d`baadf07d  ???????? ???????? ???????? ????????

看看r12是从哪儿传来的,上方有一个mov rcx,rax,

0:000> uf . 
qtshark+0x905e0:
00000001`3f8205e0 4053            push    rbx
00000001`3f8205e2 4154            push    r12
00000001`3f8205e4 4883ec48        sub     rsp,48h
00000001`3f8205e8 488bda          mov     rbx,rdx
00000001`3f8205eb 4c8be1          mov     r12,rcx  ;here
00000001`3f8205ee ff15c4b21100    call    qword ptr [qtshark+0x1ab8b8 (00000001`3f93b8b8)]
00000001`3f8205f4 49837c244800    cmp     qword ptr [r12+48h],0
00000001`3f8205fa 0f84a1010000    je      qtshark+0x907a1 (00000001`3f8207a1)

qtshark+0x90600:
00000001`3f820600 488bcb          mov     rcx,rbx
00000001`3f820603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3f939998)]
00000001`3f820609 488bc8          mov     rcx,rax
00000001`3f82060c ff158e931100    call    qword ptr [qtshark+0x1a99a0 (00000001`3f9399a0)]

为了验证,在函数开头下断点,重新启动程序:

0:000> g
Breakpoint 0 hit
qtshark+0x905e0:
00000001`3f3d05e0 4053            push    rbx
0:000> r
rax=000000013f515d48 rbx=0000000002aff6c0 rcx=0000000002aff6c0
rdx=000000000023a488 rsi=0000000000000014 rdi=000000000023a3d0
rip=000000013f3d05e0 rsp=000000000023a218 rbp=000000000023a329
 r8=000000000023a490  r9=000000000023a3d0 r10=000000005fb1a340
r11=000000005fa55228 r12=000000000023a3d0 r13=0000000000000003
r14=0000000002b09fe0 r15=0000000002aff6c0
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
qtshark+0x905e0:
00000001`3f3d05e0 4053            push    rbx

执行期间可以发现:

0:000> 
qtshark+0x90603:
*** ERROR: Symbol file could not be found.  Defaulted to export symbols for F:\Program Files\Wireshark\Qt5Core.dll - 
00000001`3f3d0603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3f4e9998)] ds:00000001`3f4e9998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f962d00)}
0:000> 
qtshark+0x90609:
00000001`3f3d0609 488bc8          mov     rcx,rax
0:000> r rax
Last set context:
rax=baadf00dbaadf00d

看来是Qt5Core!QList::front 的问题,重启bp qtshark+0x90603。

让我们看一下正常的操作是什么:

Breakpoint 0 hit
qtshark+0x90603:
00000001`3f9e0603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3faf9998)] ds:00000001`3faf9998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f462d00)}
0:000> r
rax=0000000000000000 rbx=000000000030a0d8 rcx=000000000030a0d8
rdx=0000000000000000 rsi=0000000000000014 rdi=000000000030a048
rip=000000013f9e0603 rsp=0000000000309e20 rbp=0000000000309f89
 r8=0000000000008000  r9=0000000000000008 r10=00000000003e0268
r11=0000000000309788 r12=0000000002c2f440 r13=0000000000000003
r14=0000000002c39e20 r15=0000000002c2f440
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
qtshark+0x90603:
00000001`3f9e0603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3faf9998)] ds:00000001`3faf9998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f462d00)}

进入之后,

0:000> t
Qt5Core!QList<QItemSelectionRange>::front:
00000000`5f462d00 488b11          mov     rdx,qword ptr [rcx] ds:00000000`0030a0d8=80c6310500000000
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0x3:
00000000`5f462d03 48634208        movsxd  rax,dword ptr [rdx+8] ds:00000000`0531c688=00000000
0:000> t
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f462d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`0531c690=f0c52d0500000000
0:000> r
rax=0000000000000000 rbx=000000000030a0d8 rcx=000000000030a0d8
rdx=000000000531c680 rsi=0000000000000014 rdi=000000000030a048
rip=000000005f462d07 rsp=0000000000309e18 rbp=0000000000309f89
 r8=0000000000008000  r9=0000000000000008 r10=00000000003e0268
r11=0000000000309788 r12=0000000002c2f440 r13=0000000000000003
r14=0000000002c39e20 r15=0000000002c2f440
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f462d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`0531c690=f0c52d0500000000
0:000> t
Qt5Core!QList<QItemSelectionRange>::front+0xc:
00000000`5f462d0c c3              ret
0:000> r
rax=00000000052dc5f0

这一次执行结果是返回了一个指针。

这是不正常的走向:

0:000> r
rax=0000000000000000 rbx=00000000001da648 rcx=00000000001da648
rdx=000007feebae9ff0 rsi=0000000000000014 rdi=00000000001da590
rip=000000013f860603 rsp=00000000001da380 rbp=00000000001da4e9
 r8=0000000000000005  r9=0000000000000069 r10=0000000000000000
r11=0000000000000002 r12=00000000027bf3f0 r13=0000000000000003
r14=00000000027c9e30 r15=00000000027bf3f0
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
qtshark+0x90603:
00000001`3f860603 ff158f931100    call    qword ptr [qtshark+0x1a9998 (00000001`3f979998)] ds:00000001`3f979998={Qt5Core!QList<QItemSelectionRange>::front (00000000`5f962d00)}
0:000> t
Qt5Core!QList<QItemSelectionRange>::front:
00000000`5f962d00 488b11          mov     rdx,qword ptr [rcx] ds:00000000`001da648=10cf6b0200000000
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0x3:
00000000`5f962d03 48634208        movsxd  rax,dword ptr [rdx+8] ds:00000000`026bcf18=01000000
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f962d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`026bcf28=0df0adba0df0adba
0:000> 
Qt5Core!QList<QItemSelectionRange>::front+0xc:
00000000`5f962d0c c3              ret

由于每次操作会产生2个selection change事件,所以有问题的是第二个操作。

Qt5Core!QList<QItemSelectionRange>::front:
mov     rdx,qword ptr [rcx]
movsxd  rax,dword ptr [rdx+8]
mov     rax,qword ptr [rdx+rax*8+10h]
ret

而这个函数的整个操作就这4行。

rdx = *rcx;
rax = *(rdx+8);
return *(rdx+rax*8+0x10);

综合一下就是:

return *(*rcx+(*(rdx+8))*8+0x10);

实际执行起来是:

return *(*arg1+0x10);

或者

return *(*arg1+0x18);

//取决于选的数量

由于我们没有符号,不知道具体代表什么,但是再出问题的部分,如果执行:

0:000> r
rax=0000000000000001 rbx=000000000015a6c8 rcx=000000000015a6c8
rdx=0000000005143d90 rsi=0000000000000014 rdi=000000000015a610
rip=000000005f462d07 rsp=000000000015a3f8 rbp=000000000015a569
 r8=0000000000008000  r9=0000000000000008 r10=0000000001f30268
r11=0000000000159d68 r12=0000000002d3f220 r13=0000000000000003
r14=0000000002d49bb0 r15=0000000002d3f220
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
Qt5Core!QList<QItemSelectionRange>::front+0x7:
00000000`5f462d07 488b44c210      mov     rax,qword ptr [rdx+rax*8+10h] ds:00000000`05143da8=0df0adba0df0adba
0:000> dd rdx+10
00000000`05143da0  02d678b0 00000000 baadf00d baadf00d
00000000`05143db0  abababab abababab abababab abababab

看到好玩的了吧,这纯粹是越界访问了。那么既然选一个就是+0x8,如果可以选上更多的数据,是否就可以读到后面的0x00000040 00000000呢?我猜应该是可以的吧=v=

0:000> .cxr
Resetting default scope
0:000> dd rdx+10
00000000`05143da0  02d678b0 00000000 baadf00d baadf00d
00000000`05143db0  abababab abababab abababab abababab
00000000`05143dc0  00000000 00000000 00000000 00000000
00000000`05143dd0  00000040 00000000

Internet Explorer 完全解析 [5]

5 对前四个大类的总结
对前四个大类的总结,归纳如下,当然,全部都是用自然语言描述的。我们可以勾勒出这样一个模型:
f1.gif
当然,方框之间只是表示“有关系”,而不是“从属关系”

我们知道,CBase作为基类,提供了许多虚函数以及基础的抽象实现。 派生出来的CElement和CMarkup对CBase进行了功能上的扩充。CMarkup作为Markup语言的解析器、处理者、辅助工具而存在,CElement则是CMarkup操作管理对象的具象。

同样,CElement也是许多其他类的基类,例如Anchor、Button、RadioBox,均是由此派生而来。

CDoc则依旧作为经典的Doc-View视图中的文档部分存在着,管理着下属的数据,包括其中的CMarkup(s)、CElement(s),以及更多的例如网络状态、网页状态、网页属性、层叠样式表的管理、下载管理、内容编码管理等等。CDoc依附于宿主而存在,CView也依旧担负着View部分的责任,负责处理CDoc发来的数据,并在宿主之上建立视图。

各个类各司其职,完成了从HTML到网页展示的转换。如果你有学过MFC,或许你会对这个架构理解的十分容易。